Cálculo eficiente del estimador jackknife agrupado para mínimos cuadrados lineales [recurso electrónico]
49
0
0
Texto completo
(2) CÁLCULO EFICIENTE DEL ESTIMADOR JACKKNIFE AGRUPADO PARA MÍNIMOS CUADRADOS LINEALES. Alexander Arévalo Soto. Trabajo de grado presentado como requisito para optar al tı́tulo de Matemático. Directores Héctor Jairo Martı́nez, Ph.D. Ana Marı́a Sanabria, M.Sc.. UNIVERSIDAD DEL VALLE FACULTAD DE CIENCIAS NATURALES Y EXACTAS PROGRAMA ACADÉMICO DE MATEMÁTICAS SANTIAGO DE CALI 2011.
(3) UNIVERSIDAD DEL VALLE FACULTAD DE CIENCIAS NATURALES Y EXACTAS PROGRAMA ACADÉMICO DE MATEMÁTICAS. Alexander Arévalo Soto, 1984. CÁLCULO EFICIENTE DEL ESTIMADOR JACKKNIFE AGRUPADO PARA MÍNIMOS CUADRADOS LINEALES. Palabras claves: Cálculo eficiente. Estimador. Jackknife. Jackknife agrupado. Mı́nimos cuadrados lineales. Rango completo. Rango deficiente.. SANTIAGO DE CALI 2011.
(4)
(5) Agradecimientos Agradezco en primer lugar a aquel que me ha permitido hacer todo cuanto he hecho y me ha acompañado en todo momento y lugar, Dios. A mi esposa quien es mi apoyo incondicional, a mis padres y a mi prima Nalliber quienes siempre confiaron en mı́. A los profesores Héctor Jairo Martı́nes y Ana Marı́a Sanabria por su tiempo, paciencia, dedicación y grandes enseñanzas, al profesor Heber Mesa por su gran ayuda a lo largo de toda la carrera. A todo un colectivo de profesores, amigos y compañeros que durante la carrera me enseñaron cosas tanto académicas, como laborales y personales; a todos mil gracias. A. Arévalo S.. 5.
(6)
(7) Índice general Resumen. 9. Introducción. 11. 1. Mı́nimos Cuadrados Lineales 13 1.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2. Solución del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2. Estimador Jackknife 2.1. Descripción del método . . . . . . . . . . . . . 2.2. Propiedades . . . . . . . . . . . . . . . . . . . 2.2.1. Reducción y estimación de sesgo . . . . 2.2.2. Estimación de varianza . . . . . . . . . 2.2.3. Construcción de intervalos de confianza 3. Cálculo Eficiente del EJMCL 3.1. Estimador Jackknife para MCL . . . . . . 3.2. Algoritmo estándar . . . . . . . . . . . . . 3.3. Algoritmo para A y Ai de rango completo 3.4. Algoritmo para A de rango completo . . . 3.5. Generalización del algoritmo . . . . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 4. Cálculo Eficiente del EJA para MCL 4.1. Estimador Jackknife Agrupado para MCL . . . . . . 4.1.1. Planteamiento . . . . . . . . . . . . . . . . . . 4.1.2. Algoritmo estándar para calcular el EJAMCL 4.2. Problema inicial y subproblemas de rango completo . 7. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. . . . . .. . . . .. . . . . .. 19 19 21 21 22 23. . . . . .. 25 25 26 27 28 30. . . . .. 33 33 33 34 36.
(8) ÍNDICE GENERAL 4.2.1. Resultados del álgebra lineal 4.2.2. Algoritmo . . . . . . . . . . 4.3. Problema inicial de rango completo 4.3.1. Resultados de álgebra lineal 4.3.2. Algoritmo . . . . . . . . . . 4.4. Problema inicial de rango deficiente 4.4.1. Resultados de álgebra lineal 4.4.2. Algoritmo . . . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. 8 36 39 39 40 42 43 43 45. Conclusiones. 47. Bibliografı́a. 49.
(9) Resumen El algoritmo estándar que calcula el Estimador Jackknife para Mı́nimos Cuadrados Lineales (EJMCL) requiere un número de operaciones del orden O(m2 n2 ) + O(mn3 ), donde m es el tamaño de la muestra y n es el número de parámetros a estimar, lo cual hace que calcular el EJMCL sea muy costoso computacionalmente hablando. Sin embargo, Martı́nez & Sanabria, lograron obtener un algoritmo mucho más eficiente, disminuyendo el número de operaciones al orden O(mn) + O(mn2 ), haciendo posible calcular el EJMCL a un costo considerablemente bajo.. En este trabajo hacemos una generalización del resultado obtenido por Martı́nez & Sanabria, usando el hecho, que el Estimador Jackknife Agrupado para Mı́nimos Cuadrados Lineales (EJAMCL) generaliza el EJMCL; proponiendo una modificación al algoritmo estándar para calcular el EJAMCL, el cual genera un cálculo computacional que requiere 2 3 2 2 ). Con la modificación en un número de operaciones del orden O( m hn ) + O( mh n ) + O( mn h el algoritmo estándar, se disminuye el costo computacional a un número de operaciones del orden O(mn2 ) + O(hn) + O(mn) + O(mh2 ), donde m es el tamaño de la muestra, h un número fijo dado por el método Jackknife Agrupado (h << m) y n es el número de parámetros a estimar (m ≥ n).. 9.
(10)
(11) Introducción En algunas ocasiones, se dificulta encontrar estimadores de un parámetro θ que tengan propiedades deseables como insesgamiento y precisión, más aún, si se trata de obtener una metodologı́a para la estimación del sesgo y de su varianza, ası́ como la construcción de intervalos de confianza. Estas dificultades obligan a realizar una serie de aproximaciones de distinta naturaleza que generan resultados poco deseables o confiables. En 1949, el estadı́stico Quenouille tuvo la idea de explorar las propiedades de un estimador construido a partir de otro estimador conocido. La idea consistı́a en “cortar” la muestra en submuestras de igual tamaño y evaluar en ellas el estimador inicial y luego hallar una función de los valores hallados. Posteriormente, en 1956, Quenouille precisó su idea y propuso la subdivisión de las m observaciones de la muestra en g grupos de tamaño h, con m = gh; y, en 1958, Tukey avanzó en el hallazgo de propiedades distribucionales aproximadas. A causa de que el procedimiento de construcción de esta técnica para generar estimaciones requiere del corte de la muestra en submuestras, se le ha llamado el Estimador Jackknife (EJ) h = 1 y Estimador Jackknife Agrupado (EJA) a la generalización obtenida [1]. La inferencia estadı́stica basada en técnicas de re-muestreo y, en particular la técnica Jackknife, surgió en los años 50; no obstante, sólo ha adquirido popularidad en las últimas dos décadas, pues hasta hace unos años, el único método utilizado por muchas instituciones para el cálculo de la varianza en muestreos complejos, era el de grupos aleatorios dependientes o el de linealización por medio de los mı́nimos cuadrados, debido a que el cálculo del EJA requiere una adecuada infraestructura de cómputo. Afortunadamente, los últimos avances tecnológicos y el creciente desarrollo de los equipos de cómputo han facilitado la exploración de este método, por ello cada vez más analistas de encuestas en el mundo están adoptando este método; en parte, porque es más simple de aplicar, pero también, por tener apoyo teórico, además de los estudios empı́ricos que revelan, en general, un buen comportamiento. Sin embargo, a medida que aumenta la facilidad de cómputo, aumenta también la dimensión de los problemas a resolver, por tanto, las facilidades computacionales no eximen de la necesidad de buscar algoritmos eficientes para los cálculos.. 11.
(12) ÍNDICE GENERAL. 12. El algoritmo estándar que calcula el Estimador Jackknife para Mı́nimos Cuadrados Lineales (EJMCL) requiere un número de operaciones del orden O(m2 n2 ) + O(mn3 ), donde m es el tamaño de la muestra y n es el número de parámetros a estimar, lo cual hace que calcular el EJMCL sea muy costoso computacionalmente hablando. Sin embargo, Martı́nez & Sanabria, usando convenientemente propiedades básicas del álgebra lineal, lograron obtener un algoritmo mucho más eficiente, disminuyendo el número de operaciones al orden O(mn) + O(mn2 ) bajo la condición de que el problema de estimación inicial y los subproblemas involucrados sean de rango completo; posteriormente, lograron mantener el resultado anterior sin la necesidad de que los subproblemas involucrados fuesen de rango completo; y por último, lograron conservar la eficiencia del cálculo sin requerir condición alguna sobre el problema inicial, es decir, sin importar que el problema de estimación inicial sea de rango deficiente [3], [4] y [5]. En este trabajo hacemos una generalización del resultado obtenido por Martı́nez & Sanabria, usando el hecho, que el Estimador Jackknife Agrupado para Mı́nimos Cuadrados Lineales (EJAMCL) generaliza el EJMCL, proponiendo una modificación al algoritmo estándar para calcular el EJAMCL, el cual genera un cálculo computacional demasiado 2 3 2 2 ), costoso, pues requiere un número de operaciones del orden O( m hn ) + O( mh n ) + O( mn h lo cual es bastante alto. En otras palabras, como el EJA generaliza el EJ, logramos, por medio de resultados del álgebra lineal, mejorar el cálculo del algoritmo del EJAMCL, generalizando ası́ el algoritmo para el EJMCL obtenido por Martı́nez & Sanabria. Con este propósito central, se presentará en este trabajo: En el capı́tulo 1, los mı́nimos cuadrados lineales, el planteamiento y la solución del problema. En el capı́tulo 2, el estimador Jackknife, su definición y sus propiedades más importantes. En el capı́tulo 3, el cálculo eficiente del EJMCL, planteamiento del EJMCL, el algoritmo estándar y modificaciones propuestas por Martı́nez & Sanabria. En el capı́tulo 4, el cálculo eficiente del EJA para MCL, planteamiento del EJAMCL, su algoritmo estándar y las modificaciones propuestas, para lograr nuestro objetivo, con el respectivo soporte teórico. Por último, hacemos una serie de conclusiones, donde mostramos los resultados obtenidos en este trabajo..
(13) Capı́tulo 1 Mı́nimos Cuadrados Lineales En este capı́tulo, veremos el planteamiento del problema de Mı́nimos Cuadrados Lineales (MCL) a partir de un ejemplo particular, posteriormente veremos el planteamiento del problema de forma general, y por último, veremos cómo se soluciona este problema.. 1.1.. Planteamiento del problema. Cuando se tiene un conjunto de mediciones (ai , αi ), i = 1, . . . , m, es conveniente hallar una relación matemática y = f (x) que represente “razonablemente bien” dichas mediciones; es decir, se busca encontrar una función f (x) de tal manera que f (ai ) ≈ αi , ∀i. Por ejemplo, en el caso lineal de dos variables, se tienen m puntos experimentales (a1 , α1 ), (a2 , α2 ), ... ,(am , αm ) y se busca una recta y=b ka + pb, que represente lo “mejor posible” tales puntos. En este caso, se tiene un sistema de m ecuaciones y 2 incógnitas k y p: ka1 + p = α1 ka2 + p = α2 .. . kam + p = αm , 13.
(14) 1.1. Planteamiento del problema. 14. que en la forma matricial es: Ax = . a1 a2 .. .. 1 1 .. .. am 1. . . k = p . α1 α2 .. .. = y. . αm. Este sistema de ecuaciones lineales tiene más ecuaciones que incógnitas (sistema sobredeterminado) y por lo general, esta clase de sistemas son inconsistentes (no tienen solución). Sin embargo, podemos calcular k y p de tal forma que se minimize la desviación “total” de los puntos αi . Geométricamente, se tiene. Puesto que hay infinitas rectas que, de alguna manera, se “ajustan” a los datos, la idea es encontrar la recta que “mejor se ajuste”. Para ello, haciendo uso de la norma 2 (también llamada norma euclidiana), nuestro problema se reduce a buscar aquella recta que minimiza la suma de los cuadrados de las desviaciones. Ası́, la desviación del i-ésimo dato es ei = αi − kai − p, que es la distancia entre el punto (ai , αi ) y el punto (ai , kai + p), entonces al minimizar la suma de los cuadrados de las desviaciones, tenemos mı́n. m X i=1. e2i. = mı́n. m X. (αi − kai − p)2 = mı́n kAb x − yk22 ,. i=1. donde x b es el estimador de mı́nimos cuadros lineales y las componentes del vector x b= (b k, pb)T son los parámetros que se deseaban encontrar..
(15) Capı́tulo 1. Mı́nimos Cuadrados Lineales. 15. Observación 1.1.1. Estas desviaciones (o distancias) se pueden medir de muchas formas, dependiendo de la norma que se utilize. Por lo general se utiliza la norma 2 (también llamada norma euclidiana) que es la que da el nombre de Mı́nimos Cuadrados. Algunos aspectos importantes de minimizar en la norma 2 son: La norma 2 es invariante bajo transformaciones ortogonales. La función definida mediante la expresión f (x) = kAx − yk22 es diferenciable, y ası́, los minimizadores de esta función satisfacen ∇f (x) = 0 Geométricamente hablando, lo anterior trata de encontrar el punto generado por las columnas de A más cercano al vector y en norma 2, es decir, encontrar la proyección ortogonal del vector y en el espacio columna de A. Además, esta proyección es única; sin embargo, en términos de las columnas de A, la representación de dicha proyección puede ser única o no, dependiendo de la independencia de los vectores de las columnas de A. En general, el problema de mı́nimos cuadrados lineales se puede plantear ası́: Dado el conjunto de mediciones (aTi , αi ), donde ai ∈ Rn , αi ∈ R para i = 1, . . . , m, con m ≥ n, el problema es estimar x, que es el vector de parámetros del modelo lineal αi = aTi x. Ası́, utilizando la norma 2 como una forma de medir distancia, tenemos que la estimación de x por el método de los mı́nimos cuadrados, se reduce a encontrar x b tal que kAb x − yk2 = mı́nn kAx − yk2 , x∈R. (1.1). donde A = [a1 , . . . , am ]T ∈ Rm×n y y = (α1 , . . . , αm )T ; este vector se denomina Estimador de Mı́nimos Cuadrados Lineales (EMCL).. 1.2.. Solución del problema. La condición para que la solución de un sistema de m ecuaciones lineales con n incógnitas, Ax = y, donde A es una matriz n × m, sea exacta se expresa fácilmente diciendo que “el vector y ∈ Rm debe estar en el espacio columna de A”, dado que el producto Ax es una combinación lineal de columnas de A. Si el vector y no cumple con la condición anterior, el sistema Ax = y no tiene solución; sin embargo queda la posibilidad de buscar una solución aproximada. Tal solución, x b, de Ax = y, en el sentido de mı́nimos cuadrados, es aquella que minimiza la desviación e = kAb x − yk..
(16) 1.2. Solución del problema. 16. En la siguiente figura, se ilustra geométricamente la representación del problema de MCL (cuando m = 3, n = 2), la cual hace referencia al sistema a11 a12 α1 x1 Ax = (A1 A2 )x = a21 a22 = α2 = y x2 a31 a32 α3. Nótese que la solución x b es la solución en el sentido de los mı́nimos cuadrados de (1.1), y además, Ab x es la proyección ortogonal de y sobre el espacio columna de A. Para resolver el problema planteado en (1.1), tomamos la proyección ortogonal, dado que, se conoce que el punto más cercano al vector y en el espacio generado por las columnas de la matriz A, es su proyección ortogonal sobre dicho espacio; es decir, si ci , i = 1, ..., n denota la i-ésima columna de A, entonces x satisface cTi (Ax − y) AT (Ax − y) AT Ax − AT y AT Ax. = = = =. 0 0 0 AT y. (1.2). La solución del problema de MCL, x b, satisface las ecuaciones (1.2), llamadas Ecuaciones Lineales Normales, por tanto el problema se reduce a resolver un sistema de ecuaciones lineales..
(17) Capı́tulo 1. Mı́nimos Cuadrados Lineales. 17. Ahora, en el caso que la matriz A ∈ Rm×n es de rango deficiente, el problema tiene infinitas soluciones; pero, bajo el supuesto que la matriz A ∈ Rm×n es de rango completo, tenemos que la matriz (AT A) también es de rango completo, y además es no singular; ası́, la solución del problema es única y está dada por x b = (AT A)−1 AT y. Todo lo anterior, puede verse de manera formal en el siguiente teorema. Teorema 1.2.1 ([2]). Sean A ∈ Rm×n , y ∈ Rm con m ≥ n. La solución del problema mı́n kAx − yk2 ,. x∈Rn. está dada por el conjunto E = {x : AT (Ax − y) = 0}. Además, si A es de rango completo, entonces E tiene un único elemento x b, dado por x b = (AT A)−1 AT y..
(18)
(19) Capı́tulo 2 Estimador Jackknife En este capı́tulo, presentamos la definición del método de estimación Jackknife y algunas de sus propiedades más importantes.. 2.1.. Descripción del método. En esta sección, veremos cómo se define el estimador Jackknife tanto ordinario como agrupado, propuestos por Quenouille en 1949 y 1956, respectivamente [1]. Sean α1 , . . . , αm una muestra aleatoria de una población caracterizada por un parámetro θ y T = tm (α1 , . . . , αm ) un estimador de dicho parámetro, basado en la muestra de tamaño m. Denotemos por Ti al estimador T evaluado para los (m − 1) elementos que quedan después de quitar el i-ésimo elemento de la muestra; es decir, Ti = tm−1 (α1 , α2 , . . . , αi−1 , αi+1 , . . . , αm ). Sea si = mT − (m − 1)Ti , i = 1, . . . , m, llamado como el i-ésimo pseudovalor. El Estimador Jackknife (EJ) de θ asociado al estimador inicial T y a la muestra α1 , . . . , αm es el promedio de estos pseudovalores m. TJ =. 1 X si . m i=1 19.
(20) 2.1. Descripción del método. 20. Escrito de otra forma, el EJ es m. TJ. 1 X = (mT − (m − 1)Ti ) m i=1 m. (m − 1) X = mT − Ti . m i=1. (2.1). Ahora, organizando las m observaciones en g grupos, cada uno de tamaño h, se obtiene la generalización del método del Estimador Jackknife conocido como el Estimador Jackknife Agrupado (EJA), de la siguiente manera. Sea Ti el estimador T evaluado en las observaciones que quedan después de remover el i-ésimo grupo de la muestra (i = 1, . . . , g). Ası́ los pseudovalores para este caso son ri = gT − (g − 1)Ti ,. i = 1, . . . , g. Entonces, el EJA de θ asociado al estimador inicial T y a la muestra α1 , . . . , αm dividida en g grupos de tamaño h con m = gh, es el promedio de estos pseudovalores g. TJA. 1X = ri . g i=1. Escrito de otra forma, el EJA es g. TJA. 1X = (gT − (g − 1)Ti ) g i=1 g. (g − 1) X = gT − Ti . g i=1. (2.2). Observación 2.1.1. Nótese que el Estimador Jackknife (2.1) es un caso particular del Estimador Jackknife Agrupado (2.2), cuando h = 1. Este método requerirá menos esfuerzo de cómputo a medida que g se hace pequeño, (h grande); sin embargo, a medida que g se hace pequeño, se pueden presentar situaciones que perjudiquen el estimador. Por tanto, se debe tratar de adoptar el Estimador Jackknife Agrupado que tenga las mejores propiedades deseables con el g más pequeño posible, logrando encontrar un “punto de equilibrio” entre el tamaño de g y las propiedades del estimador..
(21) Capı́tulo 2. Estimador Jackknife. 2.2.. 21. Propiedades. A continuación, veremos algunas propiedades del EJ y EJA, tales como la reducción y estimación del sesgo, la estimación de la varianza y la construcción de intervalos de confianza. Para una mayor ampliación y justificación de esta teorı́a, cite [1].. 2.2.1.. Reducción y estimación de sesgo. Supongamos que el estimador T para el parámetro θ tiene un sesgo de la forma ∞ X ak B(T ) = sesgo(T ) = , mk k=1. y el valor esperado de T es ∞ X ak E(T ) = θ + B(T ) = θ + . mk k=1. donde las ak son constantes independientes del tamaño de la muestra, m. Observación 2.2.1. Nótese que el sesgo de T es del orden O( m1 ). Sea TJA el EJA de θ correspondiente al estimador T y a la muestra aleatoria α1 , . . . , αm , con base en g grupos, cada uno de tamaño h, m = gh, y considérese el valor esperado g (g − 1) X E(TJA ) = E gT − Ti g i=1 g. (g − 1) X = gE[T ] − E[Ti ] , g i=1 donde, para i = 1, . . . , g, E(Ti ) = θ +. ∞ X k=1. ak . hk (g − 1)k.
(22) 2.2. Propiedades. 22. Luego tenemos que g ∞ ∞ X X ak (g − 1) X ak E(TJA ) = g θ + − θ+ k m g hk (g − 1)k i=1 k=1 k=1 ∞ ∞ X X ak ak = gθ + g − (g − 1)θ − (g − 1) k k k h g h (g − 1)k k=1 k=1 ∞ X ak 1 1 = θ+ − hk g k−1 (g − 1)k−1 k=1 ∞ X ak gk = θ+ g− . k k−1 m (g − 1) k=1. Haciendo gk b k = ak g − , (g − 1)k−1 . tenemos que ∞ X bk E(TJA ) = θ + . k m k=1. Por lo tanto, el sesgo de TJA es ∞ X bk . B(TJA ) = mk k=1. . 1 Observación 2.2.2. Nótese que, como b1 = 0, el sesgo de TJA es del orden O , lo m2 que conlleva a una mejora sustancial de la estimación de T en lo que al sesgo se refiere, ya que el sesgo de TJA es mucho menor que el sesgo de T .. 2.2.2.. Estimación de varianza. El Estimador Jackknife Agrupado a partir de su varianza, nos permite hallar la varianza del estimador inicial, lo cual evita realizar toda una cantidad de cálculos que pueden tornarse complejos. Supóngase que el estimador T del parámetro θ tiene propiedades deseables; sin embargo, debido a la relativa complejidad del modelo que involucra a θ o por la estructura del.
(23) Capı́tulo 2. Estimador Jackknife. 23. método de muestreo, se dificulta encontrar una expresión para la varianza del estimador. A continuación, se presenta una manera de aproximarse al conocimiento de la varianza de T (V ar(T )), por medio de la varianza de TJA (V ar(TJA )). g. X 1 V ar(T ) ≈ V ar(TJA ) = (ri − TJA )2 g(g − 1) i=1 2 g g (g − 1) X 1X = Ti − Ti . g g i=1 i=1 Observación 2.2.3. Quenouille, en 1956, demostró que bajo ciertas condiciones (no muy restrictivas) para los estimadores T y TJA , se cumple que 1 σTJA = σT 1 + O , m lo cual muestra la coincidencia asintótica de V ar(TJA ) con V ar(T ).. 2.2.3.. Construcción de intervalos de confianza. Otra aplicación de importancia, que podemos tener con la técnica de Jackknife Agrupado, es la posibilidad de construir intervalos de confianza aproximados para el parámetro θ. Tukey, en 1958, mostró que suponiendo que los pseudovalores ri = gT − (g − 1)Ti ,. i = 1, . . . , g,. son independientes, generan la cantidad TJA − θ . Pg 1 (ri − TJA )2 g(g − 1) i=1. 12 ,. que tiene aproximadamente distribución t-student con (g − 1) grados de libertad. Por tanto, podemos construir intervalos de confianza para el estimador TJA , aún cuando no se puedan construir intervalos de confianza para el estimador T ..
(24)
(25) Capı́tulo 3 Cálculo Eficiente del EJMCL En este capı́tulo, mostraremos el método Jackknife aplicado al estimador de MCL, el algoritmo estándar del EJMCL, seguido por los algoritmos con las modificaciones dadas por Martı́nez & Sanabria, los cuales reducen de O(m2 n2 ) + O(mn3 ) a O(mn) + O(mn2 ) el orden del número de operaciones en el cómputo del EJMCL, siendo m el tamaño de la muestra y n el número de parámetros a estimar. Estas modificaciones en el algoritmo estándar tienen como soporte algunos resultados del álgebra lineal, los cuales sólo enunciaremos; sus demostraciones respectivas pueden ser vistas en [3], [4] y [5].. 3.1.. Estimador Jackknife para MCL. Dado x b, el estimador hallado por el método de los Mı́nimos Cuadrados Lineales presentado en la sección 1.1 AT Ab x = AT y, le aplicamos el método de estimación Jackknife, obteniendo el Estimador Jackknife para Mı́nimos Cuadrados Lineales (EJMCL) xJ = mb x − (m − 1). m X xbi i=1. donde xbi , es tal que. m. ,. (3.1). kAi xbi − yi k2 = mı́nn kAi x − yi k2 , x∈R. (m−1)×n. con Ai ∈ R que es la matriz que resulta de eliminar la fila i de la matriz A y yi ∈ Rm−1 es el vector que resulta de eliminar la componente i de el vector y.. 25.
(26) 3.2. Algoritmo estándar. 3.2.. 26. Algoritmo estándar. Por lo descrito en el capı́tulo anterior, el algoritmo para calcular el EJMCL se divide en los siguientes tres pasos: Algoritmo estándar 0. Dados A ∈ Rm×n , y ∈ Rm . 1. Resolver mı́nx∈Rn kAx − yk22 . ⇒ Salida: x b. 2. Para i = 1, . . . , m. Resolver mı́nx∈Rn kAi x − yi k22 . ⇒ Salida: xbi . 3. Calcular xJ = mb x − (m − 1). m x P bi . ⇒ Salida: xJ . i=1 m. Si las matrices A y Ai para i = 1, . . . , m son de rango completo, los pasos 1 y 2 se reducen a encontrar las soluciones únicas de los sistemas de ecuaciones AT Ax = AT y. y. ATi Ai x = ATi yi ,. para i = 1, . . . , m,. en otra palabras, se reduce a calcular x b y los xbi , tal que x b = (AT A)−1 AT y. y. xbi = (ATi Ai )−1 ATi yi ,. para i = 1, . . . , m.. Ası́, utilizando el método de las ecuaciones normales para resolver los problemas planteados en los pasos 1 y 2, un algoritmo más detallado para el cálculo de EJMCL es el siguiente: Algoritmo estándar detallado 0. Dados A ∈ Rm×n , y ∈ Rm . 1. {Resolver AT Ax = AT y.} • Calcular S = AT A. • Calcular d = AT y. • Resolver Sx = d. ⇒ Salida: x b..
(27) Capı́tulo 3. Cálculo Eficiente del EJMCL. 27. 2. Para i = 1, . . . , m. {Resolver ATi Ai x = ATi yi .} • Calcular Si = ATi Ai . • Calcular di = ATi yi . • Resolver Si xi = di . ⇒ Salida: xbi . 3. Calcular xJ = mb x − (m − 1) ⇒ Salida: xJ .. m x P bi . i=1 m. Observación 3.2.1. El costo del computo de este algoritmo es del orden O(m2 n2 ) + O(mn3 ), donde m es el tamaño de la muestra y n es el número de parámetros a estimar; lo cual es bastante alto y hace que el método sea poco utilizable.. 3.3.. Algoritmo para A y Ai de rango completo. A continuación, haremos referencia a tres lemas y un teorema del álgebra lineal, que nos servirán de soporte para diseñar el algoritmo del EJMCL cuando el problema inicial (A) y los respectivos subproblemas (Ai ) sean de rango completo [3]. Lema 3.3.1 ([7]). Dada la matriz A = [a1 , ..., am ]T ∈ Rm×n , si la matriz Ai ∈ R(m−1)×n es la matriz que resulta de eliminar la fila i en la matriz A, entonces ATi Ai = AT A − ai aTi . Lema 3.3.2 ([3]). Dada la matriz A = [a1 , ..., am ]T ∈ Rm×n y el vector y = (α1 , . . . , αm )T , si la matriz Ai ∈ R(m−1)×n es la matriz que resulta de eliminar la fila i en la matriz A, y el vector yi ∈ Rm−1 es el vector que resulta de eliminar la componente i en el vector y, entonces ATi yi = AT y − αi ai . Lema 3.3.3 (Sherman-Morrison-Woodbury [3]). Sean M ∈ Rn×n una matriz no singular y u, v ∈ Rn vectores no nulos. Entonces, (M + uv T ) es no singular, si y sólo si, σ = 1 + v T M −1 u 6= 0 . Además, si σ 6= 0, (M + uv T )−1 = M −1 −. 1 −1 T −1 M uv M . σ.
(28) 3.4. Algoritmo para A de rango completo. 28. El siguiente teorema permite dar una caracterización del conjunto solución de ATi Ai x = AT yi , cuando las matrices A y Ai son de rango completo. Teorema 3.3.1 ([3]). Dada la matriz A = [a1 , ..., am ]T ∈ Rm×n , Ai ∈ R(m−1)×n es la matriz que resulta de eliminar la fila i en la matriz A. Dado el vector y = (α1 , . . . , αm )T , yi ∈ Rm−1 es el vector que resulta de eliminar la componente i en el vector y. Si A y Ai son matrices de rango completo, entonces xbi , la solución de ATi Ai x = ATi yi , está dada por T zi di xbi = x b+ − αi zi , (3.2) σi donde x b es la solución de AT Ax = AT y, zi es la solución de AT Az = ai , σi = 1 − aTi zi y T di = Ai yi . Teniendo en cuenta que lo más costoso del algoritmo estándar para el cómputo del EJMCL es el cálculo de la solución de los m sistemas ATi Ai x = ATi yi (que es el paso 2 del algoritmo estándar) y que el Teorema 3.3.1 establece que no es necesario calcular Si ni di y además, que la solución de estos sistemas se reduce al cálculo de algunos productos internos y a la solución de los sistemas AT Azi = ai , cuyo costo es del orden de O(n2 ) (después de haber resuelto el sistema AT Ax = AT y), Martı́nez & Sanabria proponen modificar el paso 2 del algoritmo mencionado en la sección anterior, de la siguiente manera: Para i = 1, . . . , m {Resolver ATi Ai x = ATi yi .} • Resolver Sz = ai . • Calcular δi = aTi zi . • Calcular σi = 1 − δi . • Calcular βi = ziT d − αi δi . βi • Calcular xbi = x b+ − αi zi . σi ⇒ Salida: xbi . Logrando reducir a O(mn) + O(mn2 ) el orden del número de operaciones a realizar [3]. Observación 3.3.1. El costo de este cómputo es del orden O(mn) + O(mn2 ), donde m es el tamaño de la muestra y n es el número de parámetros a estimar; lo cual es considerablemente bajo, en comparación con el costo de cómputo del algoritmo estándar.. 3.4.. Algoritmo para A de rango completo. Como, desafortunadamente, el algoritmo anterior sólo se puede implementar si tanto la matriz A, como la matrices Ai son de rango completo (σi 6= 0), Martı́nez & Sanabria.
(29) Capı́tulo 3. Cálculo Eficiente del EJMCL. 29. se propusieron encontrar una caracterización de la o las soluciones de ATi Ai x = ATi yi , basada en la solución de AT Ax = AT y, independientemente de si Ai es o no de rango completo, para ası́, modificar el algoritmo anterior manteniendo su eficiencia en el cálculo del EJMCL [4]. Observación 3.4.1. Nótese que no basta que A sea de rango completo, puesto que esto no implica que las matrices Ai sean también de rango completo. A continuación haremos referencia a un lema y dos teoremas del álgebra lineal, que nos servirán de soporte para diseñar el algoritmo del EJMCL cuando, únicamente, el problema inicial (A) es de rango completo [4]. Lema 3.4.1 ([4]). Dada la matriz A = [a1 , ..., am ]T ∈ Rm×n de rango completo y la solución x b de AT Ax = AT y, donde y = (α1 , . . . , αm )T ∈ Rm , si σi = 1 − aTi zi = 0, entonces aTi x b − αi = 0, donde zi es la solución de AT Az = ai . Los siguientes teoremas permiten una caracterización del conjunto solución de ATi Ai x = AT yi , basada en la solución de AT Ax = AT y, independientemente si las matrices Ai son o no de rango completo; puesto que sólo se requiere que la matriz A sea de rango completo. Teorema 3.4.1 ([4]). Dada la matriz A = [a1 , ..., am ]T ∈ Rm×n de rango completo y una solución x b de AT Ax = AT y, donde y = (α1 , . . . , αm )T ∈ Rm , si σi = 1 − aTi zi = 0, se tiene que xbi = x b + γzi , es solución de ATi Ai x = AT yi , para todo γ ∈ R, donde zi es la solución de AT Az = ai . Teorema 3.4.2 ([4]). Dada la matriz A = [a1 , ..., am ]T ∈ Rm×n y la solución x b de AT Ax = AT y, donde y = (α1 , . . . , αm )T ∈ Rm , si σi = 1 − aTi zi = 0, y xbi es una solución de ATi Ai x = AT yi , entonces xbi = x b + γzi , para algún γ ∈ R, siendo zi solución de AT Az = ai . Además, si σi 6= 0 entonces γi = ziT di − αi , donde di = ATi yi . σi Gracias al resultado obtenido en los Teoremas 3.4.1 y 3.4.2, Martı́nez & Sanabria implementaron una ligera modificación del segundo paso del algoritmo propuesto en la sección anterior, para ser eficientes en el cálculo del EJMCL con la condición única que A sea de rango completo. El algoritmo queda de la siguiente manera: Para i = 1, . . . , m {Resolver ATi Ai x = ATi yi .}.
(30) 3.5. Generalización del algoritmo. 30. • Resolver Sz = ai . • Calcular δi = aTi zi . • Calcular σi = 1 − δi . • Si σi 6= 0, {solución única} βi = ziT d − αi δi . γi = σβii − αi . • Si no (σi = 0,), {Escoja una de las infinitas soluciones} γi = 0. end si xbi = x b + γi zi . ⇒ Salida: xbi . Al comparar este algoritmo con el propuesto en la sección anterior, se concluye que la diferencia aparece por la posibilidad que el subproblema sea de rango deficiente (σi = 0), en cuyo caso el subproblema tiene infinitas soluciones. En este caso, se sugiere tomar como solución la misma del problema inicial (γi = 0 → xbi = x b). Observación 3.4.2. Esta modificación en el algoritmo no afecta el costo de cómputo.. 3.5.. Generalización del algoritmo. Dado que el Teorema 3.4.1 sólo garantiza el resultado para cuando la matriz A es de rango completo, Martı́nez & Sanabria continuaron la búsqueda de resultados que permitieran una caracterización de la o las soluciones de ATi Ai x = ATi yi basada en una solución de AT Ax = AT y, sin importar si las matrices A y Ai son o no de rango completo [5]. Lema 3.5.1. Dada la matriz A = [a1 , ..., am ]T ∈ Rm×n y una solución x b de AT Ax = AT y, T m T T donde y = (α1 , . . . , αm ) ∈ R , si σi = 1 − ai zi = 0, entonces ai x b − αi = 0, donde zi es T una solución de A Az = ai . El Lema 3.5.1 nos garantiza el mismo resultado del Lema 3.4.1 sin la necesidad que A sea de rango completo, ası́ el Teorema 3.4.1 queda garantizado aún para cuando A no es de rango completo. Martı́nez & Sanabria lograron hallar un conjunto solución de ATi Ai x = ATi yi aún para cuando A y Ai tienen rango deficiente, obteniendo el soporte.
(31) Capı́tulo 3. Cálculo Eficiente del EJMCL. 31. teórico para garantizar que el algoritmo propuesto en la sección anterior se puede generalizar aún para cuando A y Ai son de rango deficiente; es decir, el algoritmo de la sección anterior sigue siendo válido para hacer eficiente el cálculo del EJMCL, aún en el caso que A sea de rango deficiente..
(32)
(33) Capı́tulo 4 Cálculo Eficiente del EJA para MCL En este capı́tulo, abordaremos el problema central de este trabajo; veremos el planteamiento del Estimador Jackknife Agrupado para Mı́nimos Cuadrados Lineales (EJAMCL) y su algoritmo estándar; posteriormente, veremos algunos resultados del álgebra lineal y las modificaciones al algoritmo estándar que permiten hacer el cálculo del EJAMCL más eficiente.. 4.1.. Estimador Jackknife Agrupado para MCL. En esta sección, aplicaremos el método de estimación Jackknife Agrupado al Estimador de Mı́nimos Cuadrados Lineales y veremos, en detalle, el algoritmo estándar del EJAMCL.. 4.1.1.. Planteamiento. Dado el conjunto de observaciones (aTi , αi ), donde ai ∈ Rn y αi ∈ R para i = 1, . . . , m con m ≥ n; el problema es estimar x tal que αi = aTi x; lo cual, por el método de los mı́nimos cuadrados, se reduce a encontrar x b tal que kAb x − yk2 = mı́nn kAx − yk2 , x∈R. (4.1). donde A = [a1 , . . . , am ]T ∈ Rm×n y y = (α1 , . . . , αm )T . El vector x b se denomina Estimador de Mı́nimos Cuadrados Lineales (EMCL). Ahora, dividiendo las m muestras en g grupos de tamaño h (m = gh) y aplicando el 33.
(34) 4.1. Estimador Jackknife Agrupado para MCL. 34. método de estimación Jackknife Agrupado a x b, obtenemos el EJAMCL xJA = gb x − (g − 1). g X xbj j=1. g. ,. (4.2). donde xbj es la solución de los subproblemas kAj xbj − yj k2 = mı́nn kAj x − yj k2 , x∈R. donde Aj es la matriz resultante de extraer el grupo j−ésimo de filas de la matriz A y yj es el vector resultante de extraer el grupo j−ésimo de componentes del vector y. Observación 4.1.1. Dada A = [a1 , . . . , am ]T , con ai ∈ Rn , i = 1, . . . , m, donde m = gh; la matriz Aj ∈ R(m−h)×n es la matriz que resulta de quitar h filas a la matriz A. Ası́ Aj = [a1 , . . . , ak−1 , ak+h , . . . , am ]T . Denotaremos por Bj ∈ R(h×n) la matriz formada por las h filas que se le quitaron a la matriz A. Ası́ Bj = [ak , . . . , ak+h−1 ]T . (4.3) De igual forma, dado y = (α1 , . . . , αm )T , con αi ∈ R, i = 1, . . . , m, donde m = gh; el vector yj ∈ Rm−h es el vector que resulta de quitar h componentes al vector y. Ası́ yj = (α1 , . . . , αk−1 , αk+h , . . . , αm )T . Denotaremos por bj ∈ R(h×1) el vector formado por las h componentes que se le quitaron al vector y. Ası́ bj = (αk , . . . , αk+h−1 )T . (4.4). 4.1.2.. Algoritmo estándar para calcular el EJAMCL. Con base en lo descrito en la sección anterior, veamos ahora el algoritmo estándar para calcular el EJAMCL, el cual se divide en tres pasos. Algoritmo estándar 0. Dados A ∈ Rm×n , y ∈ Rm . 1. Resolver mı́nx∈Rn kAx − yk22 . ⇒ Salida: x b..
(35) Capı́tulo 4. Cálculo Eficiente del EJA para MCL. 35. 2. Para j = 1, . . . , g. Resolver mı́nx∈Rn kAj x − yj k22 . ⇒ Salida: xbj . 3. Calcular xJA = gb x − (g − 1). g x P bj . ⇒ Salida: xJA . j=1 g. Ası́, si las matrices A y Aj para j = 1, . . . , g son de rango completo, los pasos 1 y 2 se reducen a encontrar las soluciones únicas de los sistemas de ecuaciones AT Ax = AT y. y. ATj Aj xj = ATj yj ,. para j = 1, . . . , g,. en otras palabras, se reduce a calcular x b y los xbj , tal que x b = (AT A)−1 AT y. y. xbj = (ATj Aj )−1 ATj yj ,. para j = 1, . . . , g.. Ahora, resolviendo los problemas planteados en los pasos 1 y 2 por el método de las ecuaciones normales, un algoritmo más detallado para el cálculo de EJAMCL es el siguiente. Algoritmo estándar detallado 0. Dados A ∈ Rm×n , y ∈ Rm . 1. {Resolver AT Ax = AT y.} • Calcular C = AT A. • Calcular d = AT y. • Resolver Cx = d. ⇒ Salida: x b. 2. Para j = 1, . . . , g. {Resolver ATj Aj x = ATj yj .} • Calcular Cj = ATj Aj . • Calcular dj = ATj yj . • Resolver Cj xj = dj . ⇒ Salida: xbj . 3. Calcular xJA = gb x − (g − 1). g x P bj . j=1 g. ⇒ Salida: xJA .. Observación 4.1.2. Nótese que la cantidad de operaciones necesarias para resolver los 3 sistemas de ecuaciones lineales en el paso 1 son aproximadamente [mn2 + mn + n3 ] y en 3 el paso 2 son aproximadamente [ m ((m − h)n2 + (m − h)n + n6 )], donde m es el tamaño de h la muestra, h un número fijo dado por el método Jackknife Agrupado (h << m) y n es el número de parámetros a estimar (m ≥ n); por tanto, la parte más costosa del algoritmo es el paso 2 donde se deben calcular los respectivos xbj ..
(36) 4.2. Problema inicial y subproblemas de rango completo. 4.2.. 36. Problema inicial y subproblemas de rango completo. En esta sección estudiaremos algunos resultados importantes del álgebra lineal, que nos ayudarán y darán soporte para lograr nuestros propósitos. Además, plantearemos una modificación para el algoritmo estándar para calcular el EJAMCL.. 4.2.1.. Resultados del álgebra lineal. A continuación, veremos algunos resultados del álgebra lineal que serán de gran utilidad en este trabajo. Un primer lema es la generalización del resultado de Vargas [7], con el objeto de reducir el costo del cálculo de ATj Aj . Lema 4.2.1. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n , si la matriz Aj = [a1 , . . . , ak−1 , ak+h , . . . , am ]T , es la matriz que resulta de quitar h filas a la matriz A; entonces ATj Aj = AT A − BjT Bj , donde Bj es una matriz de la forma (4.3). Demostración. ATj Aj = [a1 , . . . , ak−1 , ak+h , . . . , am ][a1 , . . . , ak−1 , ak+h , . . . , am ]T =. k−1 X. ai aTi. +. i=1. =. =. k−1 X. m X i=k+h. ai aTi. +. k+h−1 X. i=1. i=k. m X. k+h−1 X. i=1. ai aTi. ai aTi −. ai aTi. −. k+h−1 X i=k. ai aTi. +. m X. ai aTi. i=k+h. ai aTi. i=k. = [a1 , . . . , am ][a1 , . . . , am ]T − [ak , . . . , ak+h−1 ][ak , . . . , ak+h−1 ]T = AT A − BjT Bj . .
(37) Capı́tulo 4. Cálculo Eficiente del EJA para MCL. 37. Este segundo lema, similar al anterior, nos permite simplificar el cálculo de ATj yj . Lema 4.2.2. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n y un vector y = (α1 , . . . , αm )T , si la matriz Aj = [a1 , . . . , ak−1 , ak+h , . . . , am ]T y los vectores yj = (α1 , . . . , αk−1 , αk+h , . . . , αm )T , son, respectivamente, la matriz y los vectores que resultan de quitar h filas a la matriz A y las h componentes correspondientes del vector y; entonces ATj yj = AT y − BjT bj , donde Bj es una matriz de la forma (4.3) y bj un vector de la forma (4.4). Demostración ATj yj = [a1 , . . . , ak−1 , ak+h , . . . , am ](α1 , . . . , αk−1 , αk+h , . . . , αm )T = α1 a1 + . . . + αk−1 ak−1 + αk+h ak+h + . . . + αm am = α1 a1 + . . . + αm am − αk ak − . . . − αk+h−1 ak+h−1 m X = αi ai − [ak , . . . , ak+h−1 ](αk , . . . , αk+h−1 )T i=1 T. = A y − BjT bj . A continuación, veremos un resultado clave para el logro de nuestro objetivo, conocido como la Matriz Identidad de Woodbury o la Fórmula de Sherman-Morrison-Woodbury. Lema 4.2.3 (Sherman-Morrison-Woodbury). Dadas las matrices W ∈ Rn×n no singular, U ∈ Rn×m , V ∈ Rm×n y la idéntica I ∈ Rm×m . Si (I + V W −1 U ) es no singular entonces (W + U V ) es no singular, y además (W + U V )−1 = W −1 − W −1 U (I + V W −1 U )−1 V W −1 ] Demostración Dadas las matrices W ∈ Rn×n , U ∈ Rn×m , V ∈ Rm×n y la matriz idéntica I ∈ Rm×m , tenemos que (W + = = = = =. U V ) · (W −1 − W −1 U (I + V W −1 U )−1 V W −1 ) I + U V W −1 − (U (I + V W −1 U )−1 V W −1 − U V W −1 U (I + V W −1 U )−1 V W −1 ) I + U V W −1 − (U + U V W −1 U )(I + V W −1 U )−1 V W −1 I + U V W −1 − U (I + V W −1 U )(I + V W −1 U )−1 V W −1 I + U V W −1 − U V W −1 I. .
(38) 4.2. Problema inicial y subproblemas de rango completo. 38. Ahora, haciendo uso de los lemas anteriores, podemos calcular las soluciones de los sistemas ATj Aj xj = ATj yj en el segundo paso del algoritmo, como se muestra en el siguiente teorema. Teorema 4.2.1. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n y un vector y = (α1 , ..., αm )T , si la matriz Aj = [a1 , . . . , ak−1 , ak+h , . . . , am ]T y los vectores yj = (α1 , . . . , αk−1 , αk+h , . . . , αm ) son respectivamente, la matriz y los vectores que resultan de quitar h filas a la matriz A y las h componentes correspondientes del vector y; y además, A y Aj son matrices de rango completo, entonces xbj , la solución de ATj Aj xj = ATj yj , está dada por xbj = x b + Zj (wj − bj ), donde x b es la solución de AT Ax = AT y, Zj es la solución de AT AZ = BjT , wj es la solución de (I − Bj Zj )w = ZjT dj con dj = ATj yj , Bj es una matriz de la forma (4.3) y bj un vector de la forma (4.4). Demostración Sean C = AT A, Cj = ATj Aj y d = AT y. Como A y Aj son de rango completo, entonces C y Cj son invertibles. Por el Lema (4.2.1), Cj = C − BjT Bj y por el Lema (4.2.2), dj = d − BjT bj . Como C y Cj son invertibles, por el Lema (4.2.3), tenemos que Cj−1 = C −1 + C −1 BjT (I − Bj C −1 BjT )−1 Bj C −1 . Ahora xbj = Cj−1 dj = [C −1 + C −1 BjT (I − Bj C −1 BjT )−1 Bj C −1 ]dj = C −1 dj + C −1 BjT (I − Bj C −1 BjT )−1 Bj C −1 dj = C −1 (d − BjT bj ) + C −1 BjT (I − Bj C −1 BjT )−1 Bj C −1 dj = C −1 d − C −1 BjT bj + C −1 BjT (I − Bj C −1 BjT )−1 Bj C −1 dj . Sea Zj la solución de CZ = BjT , entonces xbj = x b − Zj bj + Zj (I − Bj Zj )−1 Zj dj . Sea wj la solución de (I − Bj Zj )w = ZjT dj , entonces xbj = x b − Zj bj + Zj wj = x b + Zj (wj − bj ). .
(39) Capı́tulo 4. Cálculo Eficiente del EJA para MCL. 4.2.2.. 39. Algoritmo. Dado que lo más costoso del algoritmo estándar para el cómputo del EJAMCL es el cálculo de la solución de los (m − h) sistemas ATj Aj xj = ATj yj (paso 2 del algoritmo estándar), aplicamos el Teorema 4.2.1 que nos dice que no es necesario resolver todos los (m − h) sistemas anteriores, ni calcular explı́citamente todos los Cj y dj involucrados. Además, dado que tenemos x b que es la solución del sistema AT Ax = AT y, este teorema también nos dice que solucionar los sistemas ATj Aj xj = ATj yj se reduce a la solución de sistemas con la matriz AT A y al cálculo de algunos productos internos, haciendo que el costo del cálculo sea menor al costo de la solución de los sistemas iniciales. Por tanto, proponemos modificar el paso 2 del algoritmo estándar mencionado anteriormente de la siguiente manera. Para j = 1, . . . , g. {Resolver ATj Aj x = ATj yj .} • Resolver CZj = BjT . • Calcular Sj = Bj Zj . • Calcular rj = ZjT dj . • Resolver (I − Sj )wj = rj . • Calcular x b + Zj (wj − bj ). ⇒ Salida: xbj . Haciendo esta modificación al algoritmo estándar del EJAMCL, bajo el supuesto que A y Aj son de rango completo, podemos reducir el número de operaciones en el cálculo del 3 2 algoritmo de [ m ((m−h)n2 +(m−h)n+ n6 )] a [m(n2 +hn+2n+ h3 )], donde m es el tamaño h de la muestra, h un número fijo dado por el método Jackknife Agrupado (h << m) y n es el número de parámetros a estimar (m ≥ n). Queda como continuación de este trabajo en la siguiente sección, hacer una segunda modificación que permita el mismo resultado aún sin el supuesto de que las respectivas Aj sean de rango completo.. 4.3.. Problema inicial de rango completo. En esta sección, veremos otros resultados del álgebra lineal, que nos permitirán modificar el algoritmo planteado en la sección anterior, eliminando el supuesto que cada Aj sea de rango completo..
(40) 4.3. Problema inicial de rango completo. 4.3.1.. 40. Resultados de álgebra lineal. Claramente, el hecho que una matriz A sea de rango completo, no implica que las respectivas Aj también lo sean. Por ello, nos propusimos encontrar una caracterización de las soluciones de ATj Aj x = ATj yj basada en la solución de AT Ax = AT y, independientemente si las respectivas Aj son o no de rango completo. Para ello, necesitamos probar que el sistema (I − Bj Zj )p = Bj x b − bj tiene solución, aún cuando (I − Bj Zj ) es singular, como lo demostraremos en el siguiente lema. Lema 4.3.1. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n de rango completo, un vector y = (α1 , . . . , αm )T , x b solución de AT Ax = AT y, y Zj la solución de AT AZ = BjT , entonces Bj xbj − bj. es solución de. (I − Bj Zj )p = Bj x b − bj ,. donde Bj es una matriz de la forma (4.3) y bj un vector de la forma (4.4). Demostración Sean C = AT A, Cj = ATj Aj , d = AT y y dj = ATj yj , entonces Bj x b − bj = Bj C −1 d − bj = Bj C −1 (dj + BjT bj ) − bj = Bj C −1 dj + Bj C −1 BjT bj ) − bj = ZjT dj + (ZjT BjT − I)bj = ZjT Cj xbj + (ZjT BjT − I)bj = ZjT (C − BjT Bj )xbj + (ZjT BjT − I)bj = ZjT C xbj − ZjT BjT Bj xbj + (ZjT BjT − I)bj = Bj xbj − ZjT BjT Bj xbj + (ZjT BjT − I)bj = (I − ZjT BjT )Bj xbj + (ZjT BjT − I)bj = (I − ZjT BjT )(Bj xbj − bj ) = (I − Bj Zj )(Bj xbj − bj ). Veamos ahora, que para el caso en que la matriz (I − Bj Zj ) es singular, gracias al lema anterior, podemos determinar un conjunto solución de ATj Aj xj = ATj yj . Teorema 4.3.1. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n de rango completo, un vector y = (α1 , . . . , αm )T y x b solución de AT Ax = AT y, entonces xbj = x b + Zj uj ,.
(41) Capı́tulo 4. Cálculo Eficiente del EJA para MCL. 41. para todo uj ∈ Rh , tal que uj sea solución de (I − Bj Zj )u = Bj x b − bj , donde Zj es la T T solución de A AZ = Bj , Bj es una matriz de la forma (4.3) y bj un vector de la forma (4.4). Demostración Sean C = AT A, Cj = ATj Aj , d = AT y y dj = ATj yj , entonces Cj (b x + Zj uj ) = (C − BjT Bj )(b x + Zj uj ) = Cb x + CZj uj − BjT Bj x b − BjT Bj Zj uj b − BjT Bj Zj uj = d + BjT uj − BjT Bj x = d − BjT Bj x b + BjT (I − Bj Zj )uj = d − BjT Bj x b + BjT (Bj x b − bj ) = d − BjT bj = dj . Por el teorema anterior, garantizamos que todo elemento de la forma x b + Zj uj es solución de ATj Aj xj = ATj yj . Ahora, para completar una caracterización del conjunto solución de ATj Aj xj = ATj yj necesitamos ver que toda solución xbj es de la forma x b + Zj uj , lo cual establecemos en el siguiente resultado. Teorema 4.3.2. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n de rango completo, un vector y = (α1 , . . . , αm )T y x b solución de AT Ax = AT y. Si xbj es una solución de ATj Aj xj = T Aj yj , entonces xbj = x b + Zj uj , para algún uj ∈ Rh , solución del sistema (I − Bj Zj )u = Bj x b − bj , donde Zj es la solución de AT AZ = BjT , Bj es una matriz de la forma (4.3) y bj un vector de la forma (4.4). Demostración Sean C = AT A, Cj = ATj Aj , d = AT y y dj = ATj yj , entonces Cj xbj T (C − Bj Bj )xbj C xbj − BjT Bj xbj. = dj = d − BjT bj = d − BjT bj. C xbj = d − BjT bj + BjT Bj xbj . Sea vj = Bj xbj , entonces C xbj = d − BjT bj + BjT vj = d + BjT (vj − bj )..
(42) 4.3. Problema inicial de rango completo. 42. Sea uj = vj − bj , entonces C xbj = d + BjT uj xbj = C −1 (d + BjT uj ) = C −1 d + C −1 BjT uj = x b + Zj uj . Ası́, hemos logrado caracterizar el conjunto solución de ATj Aj xj = ATj yj , aún para cuando Aj no sea de rango completo. Observación 4.3.1. De los resultados anteriores, se puede demostrar que uj es de la forma wj − bj ; donde uj es solución de (I − Bj Zj )u = Bj x b − bj y wj es solución de T (I − Bj Zj )w = Zj dj . (I − Bj Zj )(wj − bj ) = (I − Bj Zj )wj − (I − Bj Zj )bj = ZjT dj + Bj Zj bj − bj = ZjT (d − BjT bj ) + Bj Zj bj − bj = ZjT d − ZjT BjT bj + Bj Zj bj − bj = (C −1 BjT )T d − (C −1 BjT )T BjT bj + Bj (C −1 BjT )bj − bj = Bj C −1 d − Bj C −1 BjT bj + Bj C −1 BjT bj − bj = Bj x b − bj = (I − Bj Zj )uj . Ahora, en el caso en que Aj sea de rango completo, la matriz (I − Bj Zj ) es no singular y ası́ el vector uj es único y es igual a (wj − bj ), donde wj es la solución de (I − Bj Zj )w = ZjT dj .. 4.3.2.. Algoritmo. Dados los resultados anteriores, ahora podemos realizar una pequeña, pero significante modificación al algoritmo dado en la sección anterior; manteniendo su eficiencia, sin la condición de que las respectivas Aj sean de rango completo; es decir, con la única condición de que sólo A sea de rango completo. Como existe la posibilidad que alguno de los subproblemas (Aj ) sean de rango deficiente (I − Bj Zj singular), el subproblema j tiene infinitas soluciones. En tal caso, proponemos.
(43) Capı́tulo 4. Cálculo Eficiente del EJA para MCL. 43. tomar uno de los uj que sean solución de (I − Bj Zj )u = Bj x b − bj y ası́ xbj = x b + Zj uj . Queda como continuación de este trabajo en la siguiente sección, tratar de extender un poco más este resultado, que serı́a lograr encontrar un conjunto solución del EJAMCL aún sin el supuesto de que el problema inicial A, sea de rango completo.. 4.4.. Problema inicial de rango deficiente. En esta sección, veremos algunos otros resultados del álgebra lineal, que nos permitirán hallar un conjunto solución de ATj Aj xj = ATj yj basado en la solución de AT Ax = AT y, sin necesidad de suponer que A o cada Aj sea de rango completo.. 4.4.1.. Resultados de álgebra lineal. A continuación veremos un lema que nos permitirá prescindir de la condición de que A sea de rango completo. Para ello, nótese que el sistema AT AZ = BjT siempre tiene solución (Zj ). Observación 4.4.1. Veamos que el sistema AT AZ = BjT puede verse como h sistemas de la forma AT Azi = ak+i−1 , donde zi y ak+i−1 , con i = 1, . . . , h, son los vectores columna de las matrices Z y BjT , respectivamente. Ahora, cada sistema AT Azi = ak+i−1 siempre tiene solución, puesto que, solucionar este sistema es equivalente a solucionar el sistema AT Azi = AT ek+i−1 que es un sistema de ecuaciones normales, el cual siempre tiene solución, donde ei es el iésimo vector canónico. Lema 4.4.1. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n , un vector y = (α1 , . . . , αm )T y x b solución de AT Ax = AT y, entonces Bj xbj − bj. es solución de. (I − Bj Zj )p = Bj x b − bj ,. donde Zj es una solución de AT AZ = BjT , Bj es una matriz de la forma (4.3) y bj un vector de la forma (4.4). Demostración Sean C = AT A, Cj = ATj Aj , d = AT y y dj = ATj yj . Como Cb x = d = dj + Bj bj , entonces ZjT Cb x = ZjT dj + ZjT Bj bj ..
(44) 4.4. Problema inicial de rango deficiente. 44. b = ZjT dj + ZjT Bj bj . Ası́, tenemos que Ahora, como CZj = BjT , entonces Bj x Bj x b − bj = ZjT dj + (ZjT BjT − I)bj = ZjT Cj xbj + (ZjT BjT − I)bj = ZjT (C − BjT Bj )xbj + (ZjT BjT − I)bj = ZjT C xbj − ZjT BjT Bj xbj + (ZjT BjT − I)bj = Bj xbj − ZjT BjT Bj xbj + (ZjT BjT − I)bj = (I − ZjT BjT )Bj xbj + (ZjT BjT − I)bj = (I − ZjT BjT )(Bj xbj − bj ) = (I − Bj Zj )(Bj xbj − bj ). Con el lema anterior, garantizamos el mismo resultado del Lema 4.3.1 con la diferencia, que ahora no necesitamos que la matriz A sea de rango completo. Ası́, podemos probar el siguiente teorema que es el análogo al Teorema 4.3.1 con la salvedad, que ya no se requiere que la matriz A sea de rango completo. Teorema 4.4.1. Dada una matriz A = [a1 , . . . , am ]T ∈ Rm×n , un vector y = (α1 , . . . , αm )T yx b solución de AT Ax = AT y, entonces xbj = x b + Zj uj , para todo uj ∈ Rh solución de (I − Bj Zj )u = Bj x b − bj , Zj es solución de AT AZ = BjT , Bj es una matriz de la forma (4.3) y bj un vector de la forma (4.4). Demostración Sean C = AT A, Cj = ATj Aj , d = AT y y dj = ATj yj , entonces Cj (b x + Zj uj ) = (C − BjT Bj )(b x + Zj uj ) = Cb x + CZj uj − BjT Bj x b − BjT Bj Zj uj = d + BjT uj − BjT Bj x b − BjT Bj Zj uj = d − BjT Bj x b + BjT (I − Bj Zj )uj b − bj ) = d − BjT Bj x b + BjT (Bj x = d − BjT bj = dj . De esta manera, obtenemos un conjunto solución de = basado en una soluT T ción de A Ax = A y, sin condición alguna, sobre el problema inicial o los subproblemas requeridos, es decir, que la matriz A y las respectivas matrices Aj no necesariamente sean de rango completo. ATj Aj xj. ATj yj.
(45) Capı́tulo 4. Cálculo Eficiente del EJA para MCL. 4.4.2.. 45. Algoritmo. Dados los resultados anteriores, ahora podemos generalizar el algoritmo propuesto anteriormente, manteniendo su eficiencia, sin condición alguna sobre el problema inicial o subproblemas requeridos (la matriz A y las respectivas matrices Aj pueden llegar a ser de rango deficiente). Con los anteriores resultados, tenemos el soporte teórico, para garantizar que el algoritmo propuesto es válido aún para cuando A y Aj son de rango deficiente; puesto que, la diferencia aparece en que el problema inicial (A) puede llegar a ser de rango deficiente (no tiene que ser necesariamente de rango completo), entonces el problema de Mı́nimos Cuadrados Lineales inicial (AT Ax = AT y) tendrı́a infinitas soluciones. En tal caso, tomamos como base una de las soluciones del problema inicial (un x b), una de las soluciones (Zj ) de T T b − bj . Ası́, A AZ = Bj y un vector uj adecuado, que sea solución de (I − Bj Zj )u = Bj x la solución de ATj Aj xj = ATj yj sigue siendo xbj = x b + Zj uj ; como se propuso en la sección anterior. Para finalizar, vale anotar que esa última modificación no altera la eficiencia lograda en los algoritmos de las secciones anteriores; puesto que la eficiencia se da al reducir el costo de solución de los subproblemas con base al problema inicial, aún ası́ estos subproblemas y el problema inicial sean de rango deficiente..
(46)
(47) Conclusiones En este trabajo, hemos logrado hacer más eficiente el cálculo del Estimador Jackknife Agrupado para estimadores de Mı́nimos Cuadrados Lineales, que era nuestro propósito central, de la siguiente manera. En primer lugar, nos dimos cuenta que la mayor cantidad de operaciones que realizaba el algoritmo estándar del EJAMCL, estaba en el segundo paso, el cual calcula las soluciones de los subproblemas. Con base en lo anterior, nos propusimos hallar propiedades del álgebra lineal que permitiesen disminuir las operaciones a realizar; logrando obtener un primer resultado, el cual consiste en que, suponiendo que el problema inicial y los respectivos subproblemas fuesen de rango completo, logramos reducir el número de operaciones de n3 h2 m 2 2 (m − h)n + (m − h)n + a m n + hn + 2n + , h 6 3 donde m es el tamaño de la muestra, h un número fijo dado por el método Jackknife Agrupado (h << m) y n es el número de parámetros a estimar (m ≥ n). Posteriormente, logramos caracterizar el conjunto solución de los subproblemas (paso 2 del algoritmo) con base en la solución del problema inicial, aún para cuando los respectivos subproblemas fuesen de rango deficiente; es decir, logramos mantener la eficiencia en el cálculo del EJAMCL bajo el único supuesto de que el problema inicial fuese de rango completo (sin importar si los subproblemas respectivos fuesen o no de rango completo). Por último, luego de encontrar un conjunto solución para los subproblemas con base en una solución del problema inicial, se logro garantizar la misma eficiencia en el cálculo, sin condición alguna sobre el problema inicial; es decir, sin importar si el problema inicial y los subproblemas respectivos son o no de rango completo. Ası́, logramos presentar un algoritmo modificado que calcula de una manera más eficiente las soluciones a los subproblemas, sin condición alguna sobre el problema inicial o los subproblemas requeridos. De manera equivalente, se logró generalizar el algoritmo obtenido por Martı́nez & Sanabria para el EJCML pero ahora para el EJAMCL.. 47.
(48) 4.4. Problema inicial de rango deficiente. 48. Finalmente, frente al contraste que hay entre el esfuerzo de cómputo del algoritmo (que necesita que g se haga pequeño) y las propiedades del estimador (que necesita que g se haga grande), se puede concluir que es preferible adoptar un Estimador Jackknife Agrupado que cumpla con la mayor cantidad de propiedades deseables y con un buen comportamiento de éstas, que hacer más favorable el cómputo; puesto que con las modificaciones presentadas en este trabajo, el costo de cómputo del EJAMCL es considerablemente bajo (con respecto al costo de cómputo del algoritmo estándar)..
(49) Bibliografı́a [1] Behar, R. y Yepes, M. Sobre algunas técnicas de remuestreo: El método Jackknife. Heurı́stica 5, No 6, 1991. [2] Martı́nez, H.J. y Pérez, R. Introducción al álgebra lineal numérica. Universidad del Cauca, 1990. [3] Martı́nez, H.J. y Sanabria, A.M. Cálculo eficiente del estimador jackknife para mı́nimos cuadrados lineales bajo condiciones de unicidad. Matemáticas: Enseñanza Universitaria, vol III, No 1 y 2, 2000. [4] Martı́nez, H.J. y Sanabria, A.M. Cálculo eficiente del estimador jackknife para mı́nimos cuadrados lineales de rango completo. Revista de la Académia Colombiana de Ciencias Exactas, Fı́sicas y Naturales, vol XXX, 2006. [5] Martı́nez, H.J. y Sanabria, A.M. Cálculo eficiente del estimador jackknife para mı́nimos cuadrados lineales de rango deficiente. En revisión por la Revista de la Académia Colombiana de Ciencias Exactas, Fı́sicas y Naturales, 2011. [6] Dennis, J.E. and Schanebel, R.B. Numerical methods for unconstrained optimization and nonlinear equations. Prentice Hall, New Jersey, 1983. [7] Vargas, J Modelo computacional para resolver problemas de regresión multiple con datos reales o simulados. Tesis de maestria, Universidad del Valle, 1995. [8] Martı́nez, H.J. y Sanabria, A.M. Álgebra lineal. Libro en proceso de publicación, Universidad del Valle, 2011.. 49.
(50)
Documento similar