Modelos lineales Generalizados

Texto completo

(1)UNIVERSIDAD NACIONAL DE SAN AGUSTÍN FACULTAD DE CIENCIAS NATURALES Y FORMALES ESCUELA PROFESIONAL DE MATEMÁTICA. MODELOS LINEALES GENERALIZADOS. Tesis presentada por: Bachiller Bisset Marilyn Gonzales Loayza. Para optar el Título Profesional de: Licenciada en Matemáticas.. AREQUIPA – PERÚ 2017.

(2) Índice general Agradecimientos. 1. Resumen. 2. Introducción. 3. 1. ESTADÍSTICO SUFICIENTE MINIMAL Y FAMILIAS EXPONENCIALES. 5. 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.2. Propiedades de un Buen Estimador Puntual . . . . . . . . . . . . . .. 5. 1.2.1. Estimador Insesgado . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.2.2. Estimador Consistente . . . . . . . . . . . . . . . . . . . . . .. 7. 1.2.3.. Estimador Eficiente . . . . . . . . . . . . . . . . . . . . . . .. 9. 1.2.4.. Estimador Suficiente . . . . . . . . . . . . . . . . . . . . . . . 10. 1.3. Estadístico Minimal Suficiente . . . . . . . . . . . . . . . . . . . . . . 18 1.4. Familias Exponenciales de Distribuciones . . . . . . . . . . . . . . . . 26 2. MODELOS LINEALES GENERALIZADOS. 33. 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2. Regresión Lineal Múltiple . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3. Estimación de los Parámetros del Modelo Lineal Múltiple 2.4. Modelo Lineal Generalizado. . . . . . . 37. . . . . . . . . . . . . . . . . . . . . . . . 41. 2.4.1. Componente Aleatorio . . . . . . . . . . . . . . . . . . . . . . 42. 1.

(3) 2.4.2. Componente Sistemática . . . . . . . . . . . . . . . . . . . . . 43 2.4.3. Función de Link. . . . . . . . . . . . . . . . . . . . . . . . . . 44. 2.5. Modelos Lineales Generalizados para Datos Binarios . . . . . . . . . . 45 2.6. Estimación de Parámetros en un modelo de Regresión Logística . . . 46. 3. APLICACIÓN DEL MODELO LOGÍSTICO. 49. 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.2. Dos Aplicaciones de Modelos Lineales Generalizados 3.2.1. Producción de Cobb-Douglas. . . . . . . . . . 50. . . . . . . . . . . . . . . . . . . 50. 3.2.2. El Problema de los Ronquidos . . . . . . . . . . . . . . . . . . 54. Bibliografía. 58. 2.

(4)

(5) AGRADECIMIENTOS A Dios, por bendecirme en todo momento de mi vida. Quiero agradecer de manera muy especial a toda mi familia, por todo el apoyo y la con…anza que depositan en mí, pues son el pilar de mi vida, gracias por estar conmigo en los momentos felices y difíciles, gracias por sus enseñanzas que son invaluables para mí, gracias por el ejemplo que han contribuido positivamente a mi vida profesional y por los ánimos para salir adelante, mis agradecimientos a mis padres Rocío, Jesús y mi hermano Anthony por estar siempre conmigo, gracias por todo. A mi Asesor que me orientó, dándome consejos e instrucciones necesarias para poder desarrollar mi tesis.. 1.

(6) RESUMEN En modelos lineales se estudia que el error  del modelo tenga media 0 y sea homocedástica, además que cumpla con la normalidad a fin de que el modelo sea utilizable, pero en muchos casos esta hipótesis no es satisfecha, porque el modelo puede ser heterocedástica. Para resolver este inconveniente, se puede aplicar lo que se llama la transformación de la variable respuesta o utilizar la técnica de mínimos cuadrados ponderados. Sin embargo, existe en la teoría estadística denominado Modelos Lineales Generalizados que uni…ca modelos de regresión lineal y no lineal, que también permite incorporar distribuciones de respuesta no normales, con la condición que la variable respuesta sea miembro de la familia exponencial.. 2.

(7) INTRODUCCIÓN Los Modelos de Regresión Lineal Simple o Múltiple, estudian la relación estocástica cuantitativa entre una variable de interés y un conjunto de variables explicativas. Estos modelos son muy utilizados para analizar datos multifactoriales y su estudio conforma un área de investigación clásica dentro de la disciplina de la Estadística desde hace muchos años. Su atractivo y utilidad general son el resultado del proceso conceptualmente lógico de usar una ecuación de interés (la respuesta) y un conjunto de variables predictivas relacionadas. El análisis de regresión tiene también interés teórico, por los conceptos matemáticos que se usa y por una teoría estadística bien desarrollada. Para usar bien el modelo de regresión lineal se requiere apreciar tanto la teoría como los problemas prácticos que se suelen presentar cuando se emplea esta técnica con datos del mundo real. Los modelos lineales (regresión ANOVA, ANCOVA), se basan en los siguientes supuestos: 1. Los errores se distribuyen normalmente 2. La varianza es constante 3. La variable respuesta se relaciona linealmente con la(s) variable(s) independiente(s). Sin embargo, en muchas ocasiones nos encontramos con que uno o varios de estos supuestos no se cumplen. Por ejemplo, es muy común en ecología que a medida que aumenta la media de la muestra, aumenta también su varianza, o en todo caso, hay problemas que pueden ser tratados mediante modelo binomiales y su varianza depende de la probabilidad de ocurrencia, o sea, la población ya no es homocedástica, en esos casos, una alternativa a la transformación de la variable respuesta y a la 3.

(8) falta de normalidad es el uso de los modelos lineales generalizados (GLM) de las siglas en inglés Generalized Linear Models que son una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc.) y varianza no constante. Por lo que, el objetivo principal del presente trabajo de tesis, es estudiar el modelo lineal generalizado con sus componentes de aleatoriedad, sistematicidad y función de enlace, estimación respectiva de parámetros y su aplicación. Teniendo como hipótesis: que la falta de normalidad, homocedasticidad y la no linealidad de los datos, para esos casos es el uso de los modelos lineales generalizados. Para tal fin, el trabajo se ha estructurado de la siguiente manera: En el Capítulo I se desarrolla las propiedades de un buen estimador puntual, estimador minimal suficiente y familias exponenciales de distribuciones. En el capítulo II se estudia regresión lineal múltiple, estimación de los parámetros del modelo lineal múltiple, modelo lineal generalizado: componente aleatorio, componente sistemático y función de enlace o link, continuado con modelos lineales generalizados para datos binarios, fi nalmente se estudia estimación de parámetros en un modelo de regresión logística. En el Capítulo III se incluye dos aplicaciones del modelo logístico sobre: Producción de Cobb-Douglas y el problema de ronquidos. Dichas aplicaciones son asistidas con soporte informático del lenguaje R en su versión 3.1.0.. 4.

(9) Capítulo 1 ESTADÍSTICO SUFICIENTE MINIMAL Y FAMILIAS EXPONENCIALES 1.1.. Introducción. En la Estadística Inferencial se estudia que un buen estimador puntual goza de las propiedades tales como: insesgado, consistente, eficiente y suficiente. Un estimador es un estadístico, que se define como una función de las observaciones que conforman la muestra. Por lo que, la idea principal de buscar un estimador a partir de la muestra de tamaño , es para representar al parámetro poblacional.. 1.2.. Propiedades de un Buen Estimador Puntual. La estimación de un parámetro puede adoptar la forma de un sólo punto, es decir, la estimación del único valor del parámetro de la población, o en la forma de un intervalo, esto es, la estimación que incluye un intervalo de valores posibles en la que se considera que está comprendido el valor verdadero del parámetro de la población. El primero se denomina estimación puntual y el segundo estimación por intervalos.. 5.

(10) Para definir un estimador puntual, tomamos una variable aleatoria. . con. función de distribución  (𝜃), donde 𝜃 denota al parámetro desconocido de la población. Sea 1  2       una muestra aleatoria de tamaño  extraída de esta población, la función definida por 𝜃̂= t(1  2       ) se llama estimador puntual. Supongamos que tenemos dos estimadores 𝜃̂1. y 𝜃̂2. del mismo parámetro. poblacional 𝜃, por lo que nos preguntamos cuál de los estimadores será mejor. En realidad, el verdadero valor de 𝜃, nunca se conoce, lo único que podemos hacer es; tratar de encontrar algún criterio para decidir cuál de ellos es mejor estimador de tal manera que cumpla con: insesgabilidad, consistencia, eficiencia y suficiencia.. 1.2.1. Estimador Insesgado Sea 1  2       una muestra aleatoria extraída de una población con función de densidad.  (𝜃). Decimos que 𝜃̂= t(1  2       ). es un estimador insesgado si h i  𝜃̂ =𝜃 8 𝜃̂ Ejemplo 1.1 Sea 1  2       una muestra aleatoria extraída de una población normal  (𝜇 𝜎2 ). El estadístico 𝑋̅ es un estimador insesgado. En efecto: Sabemos que. 6.

(11) 1.2.2.. Estimador Consistente. En general, un estimador puntual no es idéntico al parámetro que se estima; esto es debido a la presencia del error de muestreo que es dado por  =𝜃̂ − 𝜃. Sin embargo, esperemos que un buen estimador tenga su valor muy cercano al valor verdadero del parámetro o por lo menos tenga una alta probabilidad de acercarse. O sea, si dado una sucesión de estimadores. de un parámetro 𝜃 es consistente si:. Ejemplo 1.2 Sea 1  2       una muestra aleatoria extraída de una población  (𝜇 𝜎2 ). El estadístico. 7.

(12) es un estimador consistente de 𝜎2 . En efecto: i) Sabemos que. . luego. por lo que. de modo que. ii) Tomamos varianza en ambos lado. 8.

(13)    2 = 0. sabemos que. luego.  por lo tanto. 1.2.3.. Estimador Eficiente. Para definir lo que es estimador eficiente, tomemos una muestra aleatoria de tamaño  con 1  2       de una población con función de densidad  (𝜃). Sean 𝜃̂1 y 𝜃̂2 dos estimadores insesgados del mismo parámetro 𝜃. Diremos que 𝜃̂1 es más eficiente que 𝜃̂2 si   [^𝜃̂1 ]   [^𝜃̂2] 9.

(14) Ejemplo 1.3 Sea 1  2       una muestra aleatoria de tamaño  de una población  (𝜇 𝜎2 ), donde 𝜃̂1 = 𝑋̅ ^𝜃̂2 =   demostraremos que. ^𝜃̂1 es más eficiente que. 𝜃̂2 .. En efecto: Sabemos que. porque la población es normal. Por otro lado, se sabe que. de modo que. . se concluye que 𝑋 es el estimador más eficiente que  .. 1.2.4.. Estimador Suficiente. Sea 1  2       una muestra aleatoria de una población con función de densidad  ( 𝜃) y sea  : R ! R un estadístico definido por.  = (1  2       ) Esta estadística condensa la muestra aleatoria 1  2       en una variable aleatoria simple.  . Se recurre a tal condensación desde que podemos trabajar 10 10.

(15) mejor con cantidades unidimensionales que con cantidades  dimensionales. Para tal efecto; supongamos que:. Φ= f(1  2       ) es una variable aleatoria 8  = 1 2      g un espacio muestral de observaciones, esto es, Φ es el conjunto de vectores  dimensionales cuyas componentes son variables aleatorias. Entonces  : Φ R! R definida por.  = (1  2       ) = 0 2 . R. Esta de…nición induce una partición del espacio Φ por la propia definición del estadístico, como veremos en el siguiente ejemplo: Ejemplo 1.4 Sea 1  2  3 una muestra aleatoria extraída de una población Bernoulli (1 ). Hallamos la partición inducida por la estadística. En efecto: Como  ~ (1 ), entonces tenemos. 11 11.

(16) Luego el espacio muestral de observaciones correspondiente a la muestra aleatoria esta dado por. Φ = f(0 0 0) (0 0 1) (0 1 0) (1 0 0) (0 1 1) (1 0 1) (1 1 0) (1 1 1)g La estadística. definida en Φ toma los valores. 0 13 23 1. respectivamente. Entonces la partición inducida por la aplicación  está formada por los siguientes sub-conjuntos y tenemos también sus respectivos valores de la aplicación:. Gráficamente.. 12 12.

(17) Así, si usamos la estadística  = (1  2 3 ) =.  1 +  2 + 3 3. tenemos solamente 4 valores diferentes de los que debemos preocuparnos en lugar de 8 puntos diferentes de Φ. Definición 1.1 Sea 1  2       una muestra aleatoria extraída de una población con función de densidad  ( 𝜃), el.  = (1  2       ). es una estadística suficiente para Φ si la distribución condicional de.  [(1  2       ) = (1  2       ) = (1  2       )]. es independiente de 𝜃, 8 𝜃 2 𝛩, donde 𝛩 es el espacio de parámetros. 13 13.

(18) Ejemplo 1.5 Sea 1  2       una muestra aleatoria extraída de una población de Poisson  (. ). Definimos. .  es una estadística suficiente para  . En efecto: Tenemos la distribución condicional  [1 = 1  2 = 2       =    = ].  [(1  2       ) = ] =.  [ = ]  [1 = 1  2 = 2       =  ]  [ = ].  [(1  2       ) = ] = siempre que. 1 + 2 +    +  =   [1 = 1 ] [2 = 2 ]     [ =  ]  [ = ] por cálculo de probabilidades sabemos que. . entonces. luego. 14 14.

(19) por tanto. . es una estadística suficiente para . El siguiente teorema es conocido como teorema de factorización, propuesto por Fischer y Nyman. Teorema 1.1 Sea 1  2       una muestra aleatoria extraída de una población con función de densidad de probabilidad  ( 𝜃). La estadística  = (1  2       ) 2 R es suficiente para 𝜃 si y sólo si, existen funciones  y  tal que la función de cuantía conjunta de 1  2       se puede factorizar como sigue: (1  2       ;𝜃) = ((1  2       )𝜃)(1  2       ) donde ( 𝜃) es una función que depende solamente de 𝜃 y de la muestra a través del estadístico (1  2       ) y (1  2       ) es no negativa y no depende de 𝜃. Demostración. )) Supongamos que el estadístico  = (1  2       ) =  es suficiente para  𝜃. Entonces  [(1  2       ) = (1  2       ) = (1  2       )] = (1  2       ; ) es independiente de 𝜃. Luego. por la ley de la multiplicidad de probabilidades tenemos (1  2       ;𝜃) =  [(1  2       ) = (1  2       ) = (1  2       )] [ = ] = (1  2       ; ) [ = ;𝜃] = ((1  2       )𝜃)(1  2       ) () Ahora, supongamos que existen funciones  y  tal que (1  2       ;𝜃) = ((1  2       )𝜃)(1  2       ) 15 15.

(20) por la ley de la distribución total.  2 hipótesis      ) = ;  ] = por. . luego   . simplificando el factor común. . es independiente de 𝜃. Por tanto  = (1  2       ) es una estadística suficiente para 𝜃. Ejemplo 1.6 Sea una muestra aleatoria 1  2       extraída de la población Bernoulli (1 ). Utilizando el teorema de factorización que el estadístico . es suficiente para el parámetro . 16 16.

(21) En efecto: La función de cuantía conjunta de la muestra y por muestreo independiente será. . donde. para . es un estadístico suficiente para . Por tanto, el número de éxitos es un estadístico suficiente para el parámetro  (probabilidad de éxito en una prueba de Bernoulli). Ejemplo 1.7 Sea 1  2       una muestra aleatoria de una población  (𝜇 1). Hallamos una estadística suficiente para 𝜇. En efecto: La función de densidad de probabilidad de la distribución  (𝜇 1) es. luego la densidad conjunto de la muestra aleatoria 1  2       es   17 17.

(22)  .  . . donde. con. que es una estadística suficiente para 𝜇.. 1.3.. Estadístico Minimal Suficiente. Una vez obtenido el estimador ^𝜃̂ =  = (1  2       ) de un parámetro poblacional 𝜃 podemos estar interesados en el parámetro de posición del estimador ^𝜃̂. Una medida natural sería considerar el error muestral dado por. . pero esta medida es insatisfactoria, por las siguientes razones: i) La medida depende de los valores desconocidos de 𝜃.. 18 18.

(23) ii) La medida es aleatoria y por tanto, no puede ser tratado como una función de 𝜃. Sin embargo, podemos aprovechar la definición de  para definir el error cuadrático medio (ECM)..  En general, si  = (1  2       ) es un estimador de la función (𝜃), entonces ECM de  es dado por. por otro lado. pues ( ) - 𝜃  es constante y [ −( )] = 0. Por tanto   ( ) =  ( ) + (( ))2. (1). Ejemplo 1.8 Sea 1  2       una muestra aleatoria de una población  (𝜇𝜎2). Consideremos los estimadores de máximo verosimilitud de 𝜇 y 𝜎2. a) Hallamos   (1 )  (1 ) b) Hallamos   (2 ) y (2 ) En efecto: a) Sabemos que 19 19.

(24)  luego. b) Sabemos que.  luego. . para hallar ECM calculamos. 20 20.

(25) Definición 1.2 Un estimador  = (1  2       ) de 𝜃 es mejor que un estimador  = (1  2       ) de  𝜃 si:. Definición 1.3 Sea 1  2       una muestra aleatoria de tamaño . Un estimador  * =t * (1  2       ). de 𝜃 es un estimador no sesgado (insesgado). uniformemente de mínima varianza (ENSUMV) o estimador óptimo si:. En la asignatura de Inferencia Estadística se estudia que, la propiedad de insesgamiento no es invariante bajo transformaciones funcionales, es decir, 𝜃̂ puede ser una estimador insesgado de 𝜃, pero (^𝜃̂) puede ser un estimador sesgado de (𝜃). La esperanza condicional definida por. . se observa, conforme  varía sobre todos los posibles valores de  , se obtiene una función de  por eso, [ ] es una variable aleatoria. El siguiente teorema se necesita para demostrar el teorema de Rao-Blackwell. Teorema 1.2 i) Sean  y  variables aleatorias tal que [j j]  1. Entonces  [[  ]] ≤ [ ]. La igualdad se cumple cuando  = [  ] con probabilidad 1. ii) Sean  y  variables aleatorias tal que  [ ]  1. Entonces  [[  ]]   [ ]. Teorema 1.3 (Rao-Blackwell) Sea 1  2       una muestra aleatoria extraída de una población con función de distribución  (𝜃). 21 21.

(26) Supongamos que  = ( 1  2       ) es una estadística su…ciente para 𝜃 y  = ( 1  2       ) un estimador cualquiera de 𝜃 tal que [jj]  1. Sea además  * = [ ]. Entonces [( *−𝜃)2 ; 𝜃] ≤ [( −𝜃)2 ; 𝜃] 8 𝜃 2 𝛩. Demostración. Por (1) de la página 19 sabemos que:   [] = [( −𝜃)2 ; 𝜃] =  [] + [()]2 pero. () = []−𝜃 = [[ ]]−𝜃 = [ *]−𝜃 = [ *] por el teorema 1.2 parte i), se tiene [(−𝜃)2 ;𝜃] =  [; 𝜃] + [( *)]2 ≥  [ *; 𝜃] + [( *)]2 por tanto [( *−𝜃)2  𝜃] =  [ *] + [( *)]2 ≤ [( −𝜃)2 ; 𝜃] 8 𝜃 2 Θ. Y la igualdad se cumple cuando  * = . El teorema de Rao-Blackwell nos dice que un estimador  * de mínima varianza es aquel que es función de la estadística su…ciente  = (1  2       ); esto es  = [ ] =  ( ).. Definición 1.4 Sea 1  2       una muestra aleatoria extraída de una población con función de distribución  (;𝜃), donde 𝜃 2 Θ ; y sea  = (1  2       ) una estadística. La estadística  es completa si [( ); 𝜃] = 0 8 𝜃 2 Θ, implica que ( ) = 0, 8 𝜃 2 Θ y para toda función  definida en el rango de . Ejemplo 1.9 Sea 1  2       una muestra aleatoria extraída de una P. . población Poisson  (;𝜃), 𝜃 0. Probamos que la estadística  =  es suficiente y completa. 22 22.

(27) En efecto: La función de densidad de la distribución de Poisson es. luego. donde. por tanto. es una estadística suficiente para 𝜃, según el teorema de factorización de la página 15. Ahora supongamos que existe una función  que depende solamente de . 23 23.

(28) tal que [(); 𝜃] = 0 8 𝜃 0 como. entonces. 1 . Así, tenemos. una serie de potencias en 𝜃 es idénticamente cero, si solo si todos sus coeficientes son cero. Entonces () = 0, para  = 1 2   . Ejemplo 1.10 Sea 1  2       una muestra aleatoria extraída de una población uniforme  (0 𝜃). Probamos que la estadística  =  =  (1  2       ) es completa. En efecto: La función de distribución de probabilidad del estadístico  =  es. . 24 24.

(29) luego. supongamos que existe una función  tal que. de donde. derivando ambos lados con respecto a 𝜃, tenemos. Así logramos tener que  =  es un estadística completa.. Definición 1.5 Sean dos muestras aleatorias 1  2       y 1  2       extraídas de una población con función de distribución  (;𝜃) y  (;𝜃).  = (1  2       ) es un estadístico suficiente minimal si dado otro estadístico  = (1  2       ), tal que el cociente de su verosimilitud. . 25 25.

(30) Ejemplo 1.11 Consideremos dos muestra aleatorias 1  2       de la P población de Bernoulli ( 1). Que el estadístico de…nido por  =1  es un estadístico minimal suficiente. En efecto: Sea  ~ ( 1) ) () =  (1 − )1 -    = 0 1 Supongamos que tenemos dos muestras aleatorias 1  2       y 1  2       de modo que el cociente de sus funciones de verosimilitud es. . siempre que. en lo cual se observa que el resultado es 1, y no depende del parámetro𝜃 =. P Luego  =1  es un estadístico minimal suficiente.. 1.4.. Familias Exponenciales de Distribuciones. Existe una clase o familia de distribuciones en la que todos los parámetros de las distribuciones que la integran tienen estadísticas suficientes. Este grupo de distribuciones recibe el nombre de familia exponencial de distribuciones y como veremos. 26 26.

(31) será bastante fácil de obtener estadísticos su…cientes del parámetro con familia exponencial. Definición 1.6 Sea  (;𝜃) una función de distribución dependiendo de un único parámetro.  pertenece a la familia exponencial si su función de densidad (o función de cuantía) puede expresarse así:  (;𝜃) = f( 𝜃)() + ( 𝜃) +()g donde: ( 𝜃)  ( 𝜃) son funciones reales de 𝜃 y ()  () son funciones reales de  . Ejemplo 1.12 En la población de Poisson encontramos las funciones ( 𝜃) ( 𝜃) ()  (). En efecto: Sea  ~  (;𝜃)  𝜃 0, entonces. esto es equivalente a. de modo que. ( 𝜃) = ln 𝜃   ( 𝜃) =−𝜃 () =   () = − ln ! Esto nos permite afirmar que las distribuciones de Poisson son una familia exponencial de distribuciones. Ahora, si consideremos una muestra aleatoria 1  2       extraída de una población con función de distribución dada  (), un conjunto de funciones de cuantía o funciones de densidades según sea el caso, discreto o continuo, es una. 27 27.

(32) familia exponencial uniparamétrica si la función de cuantía o densidad conjunta es de la forma.  (1  2       ; 𝜃) = f( 𝜃)(1  2       ) + ( 𝜃) + (1  2       )g Ejemplo 1.13 En la población Exponencial encontramos las funciones ( 𝜃) ( 𝜃) ()  (). En efecto: Sea  ~ ( 𝜃)  𝜃 0, entonces. esto es equivalente a. de modo que. (𝜃) = −𝜃 ( 𝜃) = ln 𝜃 () =   () = 0. Esto nos permite afirmar que las distribuciones Exponenciales son una familia exponencial de distribuciones. Ejemplo 1.14 En la población Binomial encontramos las funciones (𝜃) ( 𝜃) ()  () En efecto: Sabemos que la distribución Binomial tiene dos parámetros   . Para lo cual,  ~ ( 𝜃), donde 𝜃=  es probabilidad de éxito en un ensayo de Bernoulli. 28 28.

(33) y  representa el número de ensayos. Entonces. esto es equivalente a. . de modo que. Esto nos permite afirmar que las distribuciones Binomiales son una familia exponencial de distribuciones. Ejemplo 1.15 En la población Normal con 𝜎2 = 1 encontramos las funciones (𝜃) (𝜃) ()  (). En efecto: Para 𝜎2 = 1, o sea  ~  (𝜇 1) y. de modo que. 29 29.

(34) Esto nos permite afirmar que la distribución  (𝜇, 1) es una familia exponencial de distribuciones. Para visualizar mejor la familia exponencial de distribuciones uniparamétricas, presentaremos en una tabla las funciones. (𝜃) ( 𝜃) ()  ().. Tabla 11 : Parámetros de la Familia Exponencial. En el caso de distribuciones de  parámetros 𝜃, la definición 1.6 se generaliza de la manera siguiente:. Ejemplo 1.16 En la población Normal con parámetros 𝜇 y 𝜎2 , encontramos las funciones (𝜃1  𝜃2 ) (𝜃1  𝜃2 )(1  2       ),(1  2       ). En efecto: Sabemos que la distribución Normal tiene dos parámetros 𝜇 y 𝜎2 , para lo cual,  ~  (𝜇 𝜎2 ), donde 𝜇 es la media poblacional y 𝜎2 es la varianza poblacional. Entonces. 30 30.

(35) esto es equivalente a. de donde se observa que. como podemos notar la distribución normal  (𝜇𝜎2 ) es una familia exponencial. Ahora, supongamos que tenemos una muestra aleatoria 1  2       extraída de la población  (𝜇 𝜎2). Entonces. luego. . 31 31.

(36) por lo tanto. es una estadística suficiente para 𝜃= (𝜃1  𝜃2 ) = (𝜇𝜎2 ).. 32 32.

(37) Capítulo 2 MODELOS LINEALES GENERALIZADOS 2.1.. Introducción. Los modelos lineales (regresión, ANOVA o ANCOVA), se basan en los siguientes supuestos: los errores se distribuyen normalmente, la varianza es constante y la variable respuesta se relaciona linealmente con las variables independientes. Pero, existen muchas ocasiones en la cual encontramos con que uno o varios de estos supuestos no se cumplen, en estos casos, el problema se puede llegar a resolver mediante la transformación de la variable respuesta, por ejemplo tomando logaritmos. Sin embargo, estas transformaciones no siempre consiguen corregir la falta de normalidad, la heterocedasticidad o la no linealidad de los datos, en esos casos, una alternativa a la transformación de la variable respuesta y a la falta de normalidad es el uso de los modelos lineales generalizados (MLG) que son una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc.).. 33 33.

(38) 2.2.. Regresión Lineal Múltiple. Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una variable de interés y un conjunto de variables explicativas. Sea de interés, variable repuesta o dependiente y sean. . 1  2       . la variable las variables. explicativas o regresoras. La formulación matemática de este modelo es la siguiente:.  = [1  2       ] +  donde  es el error de observación debido a las variables no controladas. En el modelo de regresión lineal general se supone que la función de regresión. [1  2       ] es lineal. Por tanto, la expresión matemática del modelo de regresión lineal general es.  = 0 + 11 + 22 +    +   +  El primer objetivo en el estudio de este modelo es el estimar los parámetros del mismo. 0   1        ya que, los parámetros miden la intensidad media de los efectos de las variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de la variable explicada respecto a cada una de las variables explicativas:.  y el objetivo es encontrar la función de distribución del error  a partir de una muestra de  observaciones, que tendrá la forma. ; 1  2         = 1 2      34 34.

(39) de modo que:.  = 0 + 11 + 2 2 +    +   +    = 1 2      donde  es error aleatorio o perturbación de la observación i-ésima. El tratamiento más adecuado del modelo de regresión lineal múltiple es mediante el análisis matricial, para lo cual primero se tiene. . esto es equivalente a:. si  =   +  = [ ] +  donde. En el modelo lineal múltiple se supone las siguientes hipótesis: 1. La función de regresión es lineal, [ 1  2       ] = 0 + 1 1 + 2 2 +    +   ;  = 1 2      35 35.

(40) o, equivalentemente,. [] = 0  = 1 2      2. La varianza es constante (homocedasticidad),  [ 1  2       ] = 𝜎2   = 1 2      ya que  [ 1  2       ]. =.  [0 + 1 1 + 2 2 +    +   ] +  []. 𝜎. 2. =. 0 +  []. 𝜎. 2. =.  []. o, equivalentemente,  [] = 𝜎2   = 1 2      3. La distribución es normal,.  1  2       ~  (0 + 11 + 2 2 +    +    𝜎2 )  = 1 2      o, equivalentemente,.  ~  (0 𝜎2 )  = 1 2      4. Las observaciones  son independientes (bajo normalidad, esto equivale a que la  (   ) = 0   ≠  esta hipótesis implica que los errores  son independientes dos a dos lo que, bajo normalidad, equivale a.  (   ) = 0   ≠  36 36.

(41) 5. Debemos tener    + 1. En caso contrario no se dispondría de información. 37 37.

(42) suficiente para estimar los parámetros del modelo. 6. Las variables regresoras 1  2       son linealmente independientes. Estos resultados de hipótesis de modelos lineales múltiples se pueden resumir en una tabla. Tabla 21: Resumen de Condiciones de Linealidad En base a la variable de error " con i = 1 2     n. En base a la variable respuesta Y con i = 1 2     n  [ 1  2       ] es igual a.  [] = 0. 0 + 1 1 +    +  .   [] = 𝜎2.   [ 1  2       ] = 𝜎2. Homocedasticidad. Homocedasticidad. Independencia:  (   ) = 0. Independencia de las observaciones. Los  son independientes. Los  son independientes  ~  (0 𝜎2 ).  1  2       con distribución  (0 + 11 +    +    𝜎2 ). Normalidad. Normalidad   +1. 2.3..   +1. Las variables regresoras son linealmente. Las variables regresoras son linealmente. independientes. independientes. Estimación de los Parámetros del Modelo Lineal Múltiple. ^ un estimador del vector de parámetros . El vector de predicciones es Sea  ^ ^ =   el vector de residuos se obtiene como.  =  − ^. 38 38.

(43) ^ el estimador por mínimos cuadrados . se obtiene minimizando la suma de los. residuos al cuadrado. Esto es, se minimiza la siguiente función de  + 1 variables:. . . ^ derivando respecto a  e igualando a cero, se obtienen las ecuaciones de regresión (^ ). =. ^=0 0 () −2   + 2      ^ ()   =   . de donde se deduce el siguiente estimador por mínimos cuadrados. debe tenerse en cuenta que para calcular este estimador es necesario que la matriz    sea invertible. Esto está garantizado por la hipótesis 6 del modelo. La matriz    es una matriz ( + 1) × ( + 1) cuya expresión es la siguiente:. y    es una matriz ( + 1) × 1 que viene dado por:. 39 39.

(44) Ejemplo 2.1 Consideremos el modelo lineal múltiple  [ ] =   donde  = (1  2       ) es un −vector de  variables aleatorias, con  () = 𝜎2   = 1 2     ;  (   ) = 0  ≠   es una matriz  ×  de contantes f i jos y  es un vector de parámetros desconocidos. Asumiendo ^ y (−  ^ ) (−   ^ ) son pares de que  es una variable normal. Que  estadísticos minimales suficientes. En efecto: Tenemos que  tiene la distribución normal. Entonces su función de verosimilitud es. ahora. 40 40.

(45) pero (−  )  (1−) + (1− )   (−  ) = 0 si y sólo si (−  ) (  ) (1− ) + (1−)   (−  ) = 0 [  (−  )] (1−) + (1−)   (− ) = 0 ya que, utilizando (   ) 1    se tiene:.  ^ es obtenido mediante el donde  es la matriz identidad y el estimador  ^ =   y método de mínimos cuadrados. Teniendo presente que     retomando el (∗) se tiene:. si   son dos realizaciones del vector variables aleatorias  , entonces. esta proporción no depende de , ya que los dos últimos sumando en el ^ () =  ^ () así  ^ es un estadístico suficiente exponente es igual cero y si  minimal para  y de la misma forma también. es un estadístico minimal para 𝜎2 . Por lo tanto, el par de estadísticos. 40 40.

(46) es suficiente minimal para (𝜎2 ).. 41 41.

(47) 2.4.. Modelo Lineal Generalizado. En primer lugar vamos a presentar que existen poblaciones heterocedásticas, o sea, poblaciones de varianzas no constantes. Por ejemplo, en una población Binomial, donde la variable respuesta  se define por:. asumamos que la.   [ = 1] =  2 [0 1]  = 1 2     . entonces  [ = 0] = 1−  para esta población, la esperanza matemática y la varianza se define como sigue [] = 1 + 0(1− ) =  y. Tanto la media y la varianza depende de. , esto sugiere que la varianza no es. constante en la población binomial (o sea, no es homocedástica), lo que significa que el modelo lineal múltiple no es aplicable para este caso, así aparecen otros modelos, específicamente los modelos lineales generalizados (MLG). Definición 2.1 Los modelos lineales generalizados son una extensión de los modelos lineales, que permiten modelar en poblaciones heterocedásticas mediante tres componentes básicos: Componente aleatorio, componente sistemático y función de link (función de enlace).. 42 42.

(48) 2.4.1.. Componente Aleatorio. Identifica la variable respuesta y su distribución de probabilidad, para lo cual consiste en tomar observaciones 1  2       . En muchos casos, estas observaciones son binarias y se identi…can como éxito o fracaso. De modo más general podemos decir, que cada. . indicaría el número de éxitos entre todos los ensayos y se. modelaría como una distribución binomial. En otros casos cada observación es un recuento, lo que se puede asignar a este tipo de observaciones la distribución de Poisson o una distribución binomial negativa. Si las observaciones son continuas se puede asumir para  una distribución normal. Todos estos modelos se pueden incluir dentro de la llamada familia exponencial de distribuciones. de modo que (𝜃) recibe el nombre de parámetro natural. Ejemplo 2.2 Sea  el número de observaciones del grupo  y  denota el número de éxitos, entonces  ~  (   )  = 1 2      luego. .  y se demuestra que: [] =    [] =   (1−  ) por lo que se observa que la población de donde se extrajo es heterocedástica. 43 43.

(49) La función de cuantía si pertenece a la familia exponencial de distribuciones, porque. 2.4.2.. Componente Sistemática. Especifica las variables explicativas (independientes o predictoras) utilizadas en la función predictora lineal. En la componente sistemática de un MLG especifica las variables explicativas, que entran en forma de efectos f i jos en un modelo lineal, es decir, las variables  se relacionan como. 0 + 1 1 + 22 +    +   esta combinación lineal de variables explicativas se denomina predictor lineal. Alternativamente, se puede expresar como un vector (1 2         ) tal que. . donde  es el valor del −ésimo predictor en el −ésimo individuo,. e.  = 1 2     . El término independiente  se obtendría con esta notación haciendo que todos los  sean iguales a 1 8 los . Ejemplo 2.3 El modelo más sencillo podría expresar a  como una combinación lineal de las variables independientes. . siendo  parámetros a estimar.. 44 44.

(50) 2.4.3.. Función de Link. Es una función del valor esperado de  , [ ] como una combinación lineal de las variables predictoras. Se denota el valor esperado de . como 𝜇 = [ ],. entonces, la función link especifica una función () que relaciona 𝜇 con el predictor lineal como. (𝜇) = 0 + 1 1 + 22 +    +   así, la función link () relaciona las componentes aleatorias y sistemática. De este modo, para  = 1 2      . . Ejemplo 2.4 La función  más simple es (𝜇) = 𝜇, esto es, la identidad (𝜇) = 𝜇 = [ ] = 0 + 1 1 + 22 +    +   que da lugar al modelo de regresión lineal clásico  = 𝜇+  donde,  es el vector de dimensión  × 1 de la variable respuesta  𝜇 =[ ] =  el componente sistemático.  es una matriz de dimensión  × ( + 1) del modelo  = (0  1  2       )  = (1  2       ) que también representa al componente aleatorio con 45 45.

(51) 2.5.. Modelos Lineales Generalizados para Datos Binarios. En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que se de…ne una variable aleatoria  que tome dos posibles variables 1 (éxito) y 0 (fracaso), es decir,.  ~ (1 ) de modo que, para  = 0 1 tendremos. luego, según la familia exponencial, el parámetro natural es. y se define como. donde  =  ( = 1)  1−  =  ( = 0) y la razón. . se llama razón de probabilidades. Utilizando función link se tiene:. 46 46.

(52) el modelo lineal generalizado. Explícitamente desarrollado se tiene. .. de donde se deduce que [ ] =  =. exp(  ) 1 + exp(  ). esto se define por exp(  ) ( ) = 1 + exp(  ) y se denomina la función logística de la que se derivan los modelos de regresión logística.. 2.6.. Estimación de Parámetros en un modelo de Regresión Logística. Sabemos que la forma general del modelo de regresión logística es.  = [] + ;  = 1 2      donde las observaciones.  son variables aleatorias independientes de Bernoulli,. cuyos valores esperados son. 47 47.

(53) Usaremos el método de máxima verosimilitud para estimar los parámetros del predictor lineal 𝛽. Sea 1  2       una muestra aleatoria de tamaño  y para cada valor de la variable  la función de cuantía es. naturalmente, cada observación  toma el valor 0 ó 1. Como las observaciones son independientes, la función de verosimilitud es. por la razones ya explicadas en el Capítulo 1, es más cómodo trabajar con el logaritmo de la función de verosimilitud. Ahora bien, para. . por tanto. derivando se tiene.    . por tanto. derivando se tiene . 48 48.

(54)  .   . . . para aplicar este algoritmo es necesario partir de unas estimaciones iniciales 𝛽̂0. Se podría usar métodos numéricos, para calcular los estimadores de los 𝛽̂0𝛽̂1      𝛽̂k . 49 49.

(55) Capítulo 3 APLICACIÓN DEL MODELO LOGÍSTICO. 3.1.. Introducción. Sabemos que la función logística es. entonces. a partir de esta expresión se estima la matriz . En el presente trabajo de tesis, como soporte informático para el análisis de datos utilizaremos el lenguaje R en su versión 3.1.0. Como sabemos que el software R es 50 50.

(56) un conjunto de programas integrados para el manejo de datos, para simulación de datos, cálculos y realización de grá…cos. Es además un lenguaje de programación orientado a objetos y de libre implementación en cualquier PC. La forma más fácil de usar R es en forma interactiva mediante la línea de comandos. Una vez instalado hay hacer doble clik en el ícono de R, para que aparezca la ventana del programa “Gui” (grafhical user interface) con un mensaje de apertura. Debajo de este mensaje de apertura en la consola de R se encuentra el “prompt” que es el símbolo  (“mayor”).. 3.2.. Dos Aplicaciones de Modelos Lineales Generalizados. 3.2.1.. Producción de Cobb-Douglas. Una empresa de investigación de mercados está interesada en realizar un estudio para el gobierno sobre la industria aeronáutica de los Estados Unidos. Para ello, va a estimar la función de producción Cobb-Douglas estocástica aumentada por la variable el avance tecnológico, ya que. . aplicando logaritmos tendremos. (^ ) = 1 + 2 log( ) + 3 log( ) + 4 log( ) donde  es la producción (en millones de dólares),  es el nivel de empleo ( que representaremos a través del agregado de las nóminas en millones de dólares),  es el nivel de capital utilizado (en millones de dólares) y  es el avance tecnológico, representado por la proporción del PIB de las empresas tecnológicas en el PIB total en la economía americana (en tanto por ciento).Suponemos que esta relación de factores satisfacen las hipótesis de RLM con normalidad en el término de error. Consideramos datos anuales correspondientes a 1958-1996, que se muestran en la siguiente tabla. 50.

(57) Tabla 3.1: Inversión real en la economía de EE. UU. Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39. Año 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996. Log(Y) 8.7700 8.8260 8.6861 8.6995 8.7332 8.7509 8.7924 8.8750 9.1050 9.3129 9.4738 9.4291 9.3468 9.2124 9.0802 9.2748 9.3644 9.4094 9.5044 9.6047 9.7440 10.0222 10.1955 10.3034 10.2417 10.3262 10.2560 10.4624 10.5502 10.5737 10.6333 10.6768 10.8468 10.9698 11.0506 10.9173 10.8390 10.7585 10.7645. Log(L) 7.75803 7.79136 7.64248 7.69871 7.81145 7.77039 7.75307 7.82740 8.07770 8.18004 8.27055 8.31059 8.15047 7.91517 7.96106 8.02597 8.10119 8.14297 8.17836 8.28801 8.46720 8.65232 8.80499 8.98153 8.95546 8.93089 8.91690 8.98805 9.10319 9.17777 9.21186 9.25614 9.32587 9.24224 9.35001 9.28638 9.24362 9.12033 9.19414. Log(K) 9.3214 9.3502 9.2551 9.2588 9.2779 9.2977 9.3311 9.3657 9.5809 9.8358 9.9564 10.0004 9.9534 9.8486 9.8342 9.8140 9.8716 9.9271 9.9131 9.9559 10.1037 10.3419 10.5113 10.6039 10.7125 10.6632 10.7302 10.7732 10.8743 10.9206 11.0444 11.1949 11.2812 11.3309 11.3281 11.2780 11.1210 11.0568 11.1375. Log(A) -0.44229 -0.67441 -0.04824 -0.07823 0.02132 0.06255 0.23289 0.43465 0.60064 0.77948 0.84076 1.00189 1.04609 0.95128 0.97795 1.19855 1.37927 1.21982 1.50437 1.71540 1.92360 2.16460 2.26792 2.42746 2.49750 2.47373 2.61771 2.44101 2.53751 2.85079 2.82018 2.82289 2.72615 2.54905 2.55048 2.50060 2.62398 2.77913 2.79638.

(58) Fuente: Proyecto e-Math: www.UOC.edu Según la tabla anterior estimar el modelo de regresión lineal múltiple. Solución: Para estimar el modelo de regresión lineal múltiple, primero se debe estima los parámetros. ;  = 0 1 2 3 Para tal propósito, se utiliza el lenguaje R. Para tal efecto vamos a considerar las siguientes denominaciones: Log(Y) = PROD (producción valorizados en millones de dólares). Log(L) = EMP (empleo de la nóminas en millones de dólares) Log(K) = CAP (nivel de capital utilizado en millones de dólares) Log(A) = TECN (es el avance tenológico según PIB en %). Los datos son ingresados al lenguaje R.. 52 52.

(59) 53 53.

(60) Finalmente, el modelo de regresión lineal múltiple estimada estará dada por:. PROD = −125750 + 063637EMP + 054614CAP + 002808TECN donde 2 = 09931, lo cual significa que el 9931 % de producción están explicadas por las variables EMP, CAP y TECN y un 069 % se explicarían por las variables no incluidas.. 3.2.2.. El Problema de los Ronquidos. En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que se puede definir una variable  que tome dos posibles valores 1 (éxito) y 0 (fracaso), es decir.  ~ (1 ) en este caso.  . con  = 0 1. El parámetro natural es. en este caso sabemos que  [ ] =  ( = 1) = () dependiente de  variables explicativas  = (1  2       ) y. 54 54.

(61)  [ ] = ()(1− ()) en respuestas binarias, un modelo análogo al de regresión lineal es. () = 0 + 1  que se denomina modelo de linealidad probabilidad lineal, ya que la probabilidad de éxito cambia linealmente con respecto a . El parámetro 1 representa el cambio de probabilidad por unidad de . Este modelo es un Modelo Lineal Generalizado con un componente aleatorio binomial y con función de enlace igual a la identidad. Tal como se aprecia en la aplicación siguiente. Se tiene la siguiente tabla donde se eligen varios niveles de ronquidos y se ponen en relación con una enfermedad cardíaca. Se toma como puntuaciones relativas de ronquidos los valores: Nunca ! 0 Ocasional ! 1 Casi cada noche ! 2 Cada noche ! 3 Tabla 3.2: Enfermedad cardiaca versus ronquidos Enfermedad Ronquido. cardiaca. SI. NO. PROPORCION SI. Nunca. 24. 1355. 0017. Ocasional. 35. 603. 0055. Casi cada noche. 21. 192. 0099. Cada noche. 30. 224. 0118. Fuente: http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/ Categor/Tema3Cate.pdf Encontramos la probabilidad para la gente que no ronca.. 55 55.

(62) Para estimar el modelo lineal generalizado binomial correspondiente, utilizaremos el lenguaje R..  #Fijemos los valores de manera ordinal  roncas − (0 1 2 3)  prop.SI − (24(1355 + 24) 35(603 + 35) 21(192 + 21) 30(224 + 30))  modelo − glm(prop.SI ~ roncas)  summary(modelo). Luego los parámetros estimados son:. 0 = 0020363. 1 = 0034585 de donde se tiene que. () = 0020363 + 0034585 () para gente que no ronca ( = roncas = 0) la probabilidad estimada de enfermedad cardíaca sería ^ = 0020363 En resumen, la gente que no ronca que es el 2 %, tienen enfermedad cardíaca y la probabilidad de ataque cardíaco aumenta cuando los niveles de ronquidos se incrementan.. 56 56.

(63) Conclusiones 1. El Modelo Lineal Generalizado es un método que se utiliza cuando la variable de repuesta Y no cumple con el supuesto de normalidad y homocedasticidad, para lo cual sólo se exige que la variable Y sea miembro de la familia exponencial. 2. En el presente trabajo de tesis se estudia como una aplicación del modelo lineal generalizado el modelo binario y el modelo logístico.. 57 57.

(64) Bibliografía [1] A.J.Dobson. (1996). An Introduction to Generalized Linear Models: Chapman & Hall. [2] J.A.Nelder&R.W.M.Wedderburn. (1992). Generalized Linear Models. J,R. Statist. Soc.A,135,370-84. [3] Francesc Carmona. (2003). Modelos Lineales. Universidad de Barcelona. [4] Sergio Martinez Valenzuela. (2000). Proyecciones Estadísticas. Lima-Perú. [5] A.G.Nogales. (1998). Estadística Matemática: Servicio de Publicaciones Uex. [6] Franklin A. Graybill. (1976). Teoría y Aplicación de Modelo Lineal. Colorado State University. [7] Maximo Mitacc Meza. (1999). Tópicos de Inferencia Estadística. Lima-Perú. [8] Anónimo. Google. http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Categor/Tema3Cate.pdf. [9] Clarice Garcia Borges Demetrio. (2002). Modelos Lineares Generalizados em Experimentação Agronômica. Piracicaba, SP. [10] Proyecto e-Math: www.UOC.edu. Google https://www.uoc.edu/in3/emath/e-Math.ppt. 58 58.

(65)