Impacto de distintos Kernels en el tamaño de muestra para generar variables aleatorias con bootstrap

92 

Loading....

Loading....

Loading....

Loading....

Loading....

Texto completo

(1)

(2) PROYECTO DE GRADO. Presentado ante la ilustre UNIVERSIDAD DE LOS ANDES como requisito parcial para obtener el Título de INGENIERO DE SISTEMAS. IMPACTO DE DISTINTOS KERNELS EN EL TAMAÑO DE MUESTRA PARA GENERAR VARIABLES ALEATORIAS CON BOOTSTRAP. Por Br. Edén María Arreaza E. Tutor: Prof. Herbert Hoeger. Octubre 2008 ©2008 Universidad de Los Andes Mérida, Venezuela.

(3) Impacto de distintos kernels en el tamaño de muestra para generar variables aleatorias con bootstrap Br. Edén María Arreaza E. Proyecto de Grado — Investigación de Operaciones, 80 páginas Resumen: Este proyecto se basa en identificar el tamaño de muestra adecuado para generar variables aleatorias mediante bootstrap utilizando diferentes kernels. En la realización de este estudio se utilizarán muestras aleatorias de diferentes tamaños que se generan a partir de métodos clásicos, las cuales servirán de entrada para el método bootstrap. Al aplicar bootstrap se obtienen muestras, que se analizan a través de la aplicación de la prueba de Kolmogorov-Smirnov, con la finalidad de verificar que se ajusten a la distribución continua de las muestras que las originó. Se plantea analizar los resultados obtenidos para determinar el tamaño de muestra adecuado dependiendo del tipo de kernel utilizado y observando si algún kernel se comporta mejor que otro para alguna distribución en particular. Palabras clave: Bootstrap, kernel, generación de variables aleatorias..

(4) Dedicatoria A mi mamá por su apoyo incondicional a lo largo de mi carrera, así como su paciencia y comprensión en los momentos difíciles, gracias por enseñarme que con fe y amor todo en la vida se puede lograr..

(5) Índice Índice de Figuras .................................................................................................... vii Índice de Tablas ...................................................................................................... ix Agradecimientos ..................................................................................................... xi Capítulo 1 ............................................................................................................ 1 Introducción ........................................................................................................... 1 1.1 Antecedentes...................................................................................................... 2 1.2 Definición y Delimitación del Problema ...................................................................... 3 1.3 Objetivos .......................................................................................................... 4 1.3.1 Objetivo General .............................................................................................. 4 1.3.2 Objetivos Específicos .......................................................................................... 4 1.4 Metodología....................................................................................................... 5 1.4.1 Generación de muestras ...................................................................................... 5 1.4.2 Generación de muestras bootstrap .......................................................................... 5 1.4.3 Aplicación de prueba estadística ............................................................................. 6 1.4.4 Análisis de resultados.......................................................................................... 6 Capítulo 2 ............................................................................................................ 7 Marco teórico ......................................................................................................... 7 2.1 Muestra aleatoria ................................................................................................. 7 2.2 Variable aleatoria ................................................................................................. 8 2.3 Función de densidad de probabilidad .......................................................................... 8 2.4 Distribución de probabilidad ................................................................................... 9 2.5 Distribuciones continuas ........................................................................................ 9 2.5.1 Distribución Normal .......................................................................................... 9 2.5.2 Distribución Exponencial ................................................................................... 10 2.5.3 Distribución Chi-cuadrado ................................................................................. 10 2.5.4 Distribución Beta ............................................................................................ 11 2.5.5 Distribución Erlang .......................................................................................... 11 iv.

(6) 2.5.6 Distribución t-Student ...................................................................................... 12 2.5.7 Distribución Uniforme ...................................................................................... 13 2.5.8Distribución Weibull ........................................................................................ 13 2.5.9 Distribución Gamma ........................................................................................ 14 2.6 Densidad de distribución de kernel .......................................................................... 14 2.6.1 Kernel Epanechnikov........................................................................................ 15 2.6.2 Kernel Biweight .............................................................................................. 15 2.6.3 Kernel Triangular ............................................................................................ 16 2.6.4 Kernel Triweight ............................................................................................ 16 2.6.5 Kernel Normal ............................................................................................... 17 2.6.6 Kernel Rectangular .......................................................................................... 17 2.7 Bootstrap ........................................................................................................ 18 2.7.1 Bootstrap paramétrico ...................................................................................... 18 2.7.2 Bootstrap no paramétrico................................................................................... 18 2.7.3 Bootstrap para generar variables aleatorias ............................................................... 19 2.8 Prueba Kolmogorov-Smirnov ................................................................................ 22 Capítulo 3 .......................................................................................................... 24 Descripción de los procesos ....................................................................................... 24 3.1 Diagrama del proceso .......................................................................................... 24 3.2 Muestras de entrada............................................................................................ 25 3.3 Tamaño de muestras de entrada .............................................................................. 28 3.4 Tipos de kernel ................................................................................................. 28 3.5 Parámetro suavizador .......................................................................................... 31 3.6 Bootstrap ........................................................................................................ 31 3.7 Muestras obtenidas con bootstrap ........................................................................... 32 3.8 Aplicación de prueba Kolmogorov-Smirnov ............................................................... 32 Capítulo 4 .......................................................................................................... 34 Análisis de Resultados .............................................................................................. 34. v.

(7) 4.1 Criterios para el análisis ....................................................................................... 34 4.2 Distribuciones Continuas ..................................................................................... 35 4.2.1 Distribución Normal ........................................................................................ 35 4.2.2 Distribución Exponencial ................................................................................... 36 4.2.3 Distribución Erlang .......................................................................................... 37 4.2.4 Distribución Weibull ........................................................................................ 38 4.2.5 Distribución Chi-cuadrado ................................................................................. 38 4.3 Tamaño adecuado de muestra de entrada ................................................................... 38 4.3.1 Kernel Epanechnikov........................................................................................ 39 4.3.2 Kernel Triangular ............................................................................................ 42 4.3.3 Kernel Rectangular .......................................................................................... 46 4.3.4 Kernel Biweight .............................................................................................. 49 4.3.5 Kernel Triweight ............................................................................................ 52 4.3.6 Kernel Normal ............................................................................................... 55 4.4 Comportamiento de los diferentes kernels ................................................................. 58 Capítulo 5 .......................................................................................................... 62 Conclusiones......................................................................................................... 62 5.1 Recomendaciones .............................................................................................. 63 Bibliografía ........................................................................................................... 64 Apéndice A ........................................................................................................ 65 Tablas de Resultados................................................................................................ 65 A.1 Tablas para el Kernel Epanechnikov ........................................................................ 65 A.2 Tablas para el Kernel Triangular............................................................................. 68 A.3 Tablas para el Kernel Rectangular ........................................................................... 70 A.4 Tablas para el Kernel Biweight............................................................................... 73 A.5 Tablas para el Kernel Triweight ............................................................................. 75 A.6 Tablas para el Kernel Normal ................................................................................ 78. vi.

(8) Índice de Figuras Figura 2.1. Función de densidad del kernel Epanechnikov.................................................... 15 Figura 2.2. Función de densidad de kernel biweight ........................................................... 15 Figura 2.3. Función de densidad de kernel biweight ........................................................... 16 Figura 2.4. Función de densidad del kernel triweight ......................................................... 16 Figura 2.5. Función de densidad del kernel normal ............................................................ 17 Figura 2.6. Función de densidad de kernel rectangular ........................................................ 17 Figura 2.7. Encrucijada............................................................................................. 20 Figura 3.1. Diagrama del Proceso ................................................................................ 25 Figura 3.2. Distribución Normal ................................................................................. 26 Figura 3.3. Distribución Exponencial ............................................................................ 26 Figura 3.4. Distribución Weibull ................................................................................. 27 Figura 3.5. Distribución Erlang ................................................................................... 27 Figura 3.6. Distribución Chi-cuadrado .......................................................................... 27 Figura 3.7. Kernel Epanechnikov ................................................................................. 29 Figura 4.1. Kernel Epanechnikov - DistribuciónNormal ...................................................... 39 Figura 4.2. Kernel Epanechnikov - Distribución Exponencial ................................................ 40 Figura 4.3. Kernel Epanechnikov - Distribución Weibull ..................................................... 40 Figura 4.4. Kernel Epanechnikov - Distribución Erlang ....................................................... 41 Figura 4.5. Kernel Epanechnikov - Distribución Chi-cuadrado .............................................. 41 Figura 4.6. Kernel Triangular - Distribución Normal ......................................................... 43 Figura 4.7. Kernel Triangular - Distribución Exponencial .................................................... 43 Figura 4.8. Kernel Triangular - Distribución Weibull ......................................................... 44 Figura 4.9. Kernel Triangular - Distribución Erlang ........................................................... 44 Figura 4.10. Kernel Triangular - Distribución Chi-cuadrado ................................................. 45 Figura 4.11. Kernel Rectangular - Distribución Normal ...................................................... 46 Figura 4.12. Kernel Rectangular - Distribución Exponencial ................................................ 46 Figura 4.13. Kernel Rectangular - Distribución Weibull ..................................................... 47 Figura 4.14. Kernel Rectangular - Distribución Erlang ....................................................... 47 Figura 4.15. Kernel Rectangular - Distribución Chi-cuadrado ............................................... 48 vii.

(9) Figura 4.16. Kernel Biweight - Distribución Normal .......................................................... 49 Figura 4.17. Kernel Biweight - Distribución Exponencial .................................................... 49 Figura 4.18. Kernel Biweight - Distribución Weibull ......................................................... 50 Figura 4.19. Kernel Biweight - Distribución Erlang ........................................................... 50 Figura 4.20. Kernel Biweight - Distribución Chi-cuadrado ................................................... 51 Figura 4.21. Kernel Triweight - Distribución Normal ........................................................ 52 Figura 4.22. Kernel Triweight - Distribución Exponencial ................................................... 52 Figura 4.23. Kernel Triweight - Distribución Weibull ........................................................ 53 Figura 4.24. Kernel Triweight - Distribución Erlang .......................................................... 53 Figura 4.25. Kernel Triweight - Distribución Chi-cuadrado ................................................. 54 Figura 4.26. Kernel Normal - Distribución Normal ........................................................... 55 Figura 4.27. Kernel Normal - Distribución Exponencial ...................................................... 55 Figura 4.28. Kernel Normal - Distribución Weibull........................................................... 56 Figura 4.29. Kernel Normal - Distribución Erlang............................................................. 56 Figura 4.30. Kernel Normal - Distribución Chi-cuadrado .................................................... 57 Figura 4.31. Comparación de los kernels - Distribución Normal ............................................ 58 Figura 4.32. Comparación de los kernels - Distribución Exponencial....................................... 59 Figura 4.33. Comparación de los kernels – Distribución Weibull ........................................... 59 Figura 4.34. Comparación de los kernels - Distribución Erlang ............................................. 60 Figura 4.35. Comparación de los kernels - Distribución Chi-cuadrado ..................................... 60. viii.

(10) Índice de Tablas Tabla 2.1. Muestra.................................................................................................. 20 Tabla 4.1. Tamaño adecuado de la muestra- Kernel Epanechnikov ......................................... 42 Tabla 4.2. Tamaño adecuado de la muestra- Kernel Triangular.............................................. 45 Tabla 4.3. Tamaño adecuado de la muestra- Kernel Rectangular ............................................ 48 Tabla 4.4. Tamaño adecuado de la muestra- Kernel Biweight................................................ 51 Tabla 4.5. Tamaño adecuado de la muestra- Kernel Triweight .............................................. 54 Tabla 4.6. Tamaño adecuado de la muestra- Kernel Normal ................................................. 57 Tabla 5.1. Resumen de tamaños adecuados de muestras ...................................................... 62 Tabla 5.2. Tamaño adecuado para la muestra de entrada ..................................................... 63 Tabla A.1. Kernel Epanechnikov-Distribución Normal ....................................................... 65 Tabla A.2. Kernel Epanechnikov-Distribución Exponencial .................................................. 66 Tabla A.3. Kernel Epanechnikov-Distribución Weibull ....................................................... 66 Tabla A.4. Kernel Epanechnikov-Distribución Erlang ......................................................... 67 Tabla A.5. Kernel Epanechnikov-Distribución Chi-cuadrado ................................................ 67 Tabla A.6. Kernel Triangular-Distribución Normal ........................................................... 68 Tabla A.7. Kernel Triangular-Distribución Exponencial ..................................................... 688 Tabla A.8. Kernel Triangular-Distribución Weibull ........................................................... 69 Tabla A.9. Kernel Triangular-Distribución Erlang ............................................................. 69 Tabla A.10. Kernel Triangular-Distribución Chi-cuadrado ................................................... 70 Tabla A.11. Kernel Rectangular-Distribución Normal ........................................................ 70 Tabla A.12. Kernel Rectangular-Distribución Exponencial................................................... 71 Tabla A.13. Kernel Rectangular-Distribución Weibull ....................................................... 71 Tabla A.14. Kernel Rectangular-Distribución Erlang ......................................................... 72 Tabla A.15. Kernel Rectangular-Distribución Chi-cuadrado ................................................. 72 Tabla A.16. Kernel Biweight-Distribución Normal ............................................................ 73 Tabla A.17. Kernel Biweight-Distribución Exponencial ...................................................... 73 Tabla A.18. Kernel Biweight-Distribución Weibull ........................................................... 74 Tabla A.19. Kernel Biweight-Distribución Erlang ............................................................. 74 Tabla A.20. Kernel Biweight-Distribución Chi-cuadrado ..................................................... 75 ix.

(11) Tabla A.21. Kernel Triweight-Distribución Normal .......................................................... 75 Tabla A.22. Kernel Triweight-Distribución Exponencial ..................................................... 76 Tabla A.23. Kernel Triweight-Distribución Weibull .......................................................... 76 Tabla A.24. Kernel Triweight-Distribución Erlang ............................................................ 77 Tabla A.25. Kernel Triweight-Distribución Chi-cuadrado ................................................... 77 Tabla A.26. Kernel Normal-Distribución Normal ............................................................. 78 Tabla A.27. Kernel Normal-Distribución Exponencial ........................................................ 78 Tabla A.28. Kernel Normal-Distribución Weibull............................................................. 79 Tabla A.29. Kernel Normal-Distribución Erlang............................................................... 79 Tabla A.30. Kernel Normal-Distribución Chi-cuadrado ...................................................... 80. x.

(12) Agradecimientos A Dios Todopoderoso y a la Virgen María, por iluminarme y guiarme en el camino a seguir para llegar al final de mi carrera. A mi mamá Mercedes Edén Arreaza por su amor, dedicación y empeño para ayudarme y apoyarme en el logro de esta meta. Al profesor Herbert Hoeger, por apoyarme, guiarme y dedicarme parte de su tiempo en la elaboración de este proyecto de grado. A mi familia por todo el amor, apoyo y comprensión que me han brindado. A mis amigos con los cuales compartí grandes experiencias, gracias por su apoyo en cada etapa de estos años de estudio.. xi.

(13) Capítulo 1 Introducción Los métodos estadísticos son aplicados para realizar análisis y estudios, los cuales permiten realizar inferencias sobre el comportamiento de poblaciones a través de las estimaciones de parámetros. Este tipo de análisis es aplicado en diferentes áreas como la física, química, biología, geología, astronomía, entre otras. En los últimos años se han realizado grandes avances en el área computacional, permitiendo que métodos que necesitan procesar grandes cantidades de datos, puedan ser utilizados, lo cual de otra manera sería casi imposible, debido a la gran de cantidad de cálculos necesarios para su uso. Este es el caso de bootstrap, el cual necesita manejar grandes cantidades de datos que permitan el muestreo de las muestras. En esta investigación se generarán variables aleatorias continuas utilizando el método bootstrap, para ello se necesita de una muestra de entrada, la cual se obtendrá mediante métodos clásicos. El método bootstrap para generar variables aleatorias continuas toma un elemento al azar de la muestra, al cual se le adicionará un ruido y un parámetro suavizador, con la finalidad de obtener puntos que no se encuentran en la muestra original. Mediante pruebas estadísticas se determinará si las muestras obtenidas por bootstrap siguen la distribución de las muestras que las originó. La función de densidad llamada kernel, representa la densidad de distribución del ruido aleatorio. Para esta investigación se generan variables aleatorias continuas utilizando diferentes kernels, con la finalidad de determinar el tamaño de muestra de entrada adecuado para bootstrap dependiendo de cada tipo de kernel utilizado y además se realizarán recomendaciones que permitan determinar que kernel utilizar en determinados casos..

(14) 1.1 ANTECEDENTES. 2. Bootstrap es de gran utilidad en casos donde no se conoce la distribución de probabilidad de una muestra, ya que no se necesita realizar estudios para determinar el tipo la distribución de donde provienen los datos o dócimas de bondad de ajuste.. 1.1 Antecedentes El bootstrap consiste en tener una muestra aleatoria de tamaño n y crear nuevas muestras del mismo tamaño remuestreando aleatoriamente con reemplazo la muestra original. Este método fue introducido por Efron en el año 1979, motivado por problemas de gran importancia en el ámbito estadístico como son la determinación de un estimador de un parámetro particular y el análisis de la exactitud de un estimador a través de la determinación del error estándar del estimador e intervalos de confianza. Este método permite realizar pruebas de hipótesis, cálculos de intervalos de confianza, análisis de series de tiempo, regresión, entre otros, sin tener que conocer la distribución de la muestra, es decir no se tiene que ajustar a los criterios que se utilizan en los métodos paramétricos y tampoco se tienen que cumplir con suposiciones como normalidad de las distribuciones de la población y homogeneidad de las varianzas. Una de las ventajas del bootstrap es que se puede estimar una distribución empírica con la distribución de los estadísticos de las muestras obtenidas con bootstrap, lo cual es de gran utilidad cuando se desconoce la distribución de la población o cuando los datos no cumplen con supuestos como el de normalidad. Existen investigaciones relacionadas con bootstrap realizadas en la Universidad de los Andes, entre las cuales se puede citar: Briceño (2.006), utilizó la técnica bootstrap suavizado y las técnicas estadísticas clásicas para generar variables aleatorias continuas y con los resultados obtenidos pudo observar que las muestras.

(15) 1.2 DEFINICIÓN Y DELIMITACIÓN DEL PROBLEMA. 3. obtenidas con el método bootstrap siguen la distribución de la muestra original, la muestra utilizada fue siempre del mismo tamaño, arbitraria y relativamente grande (100), y el kernel utilizado para bootstrap fue el gaussiano. Además aplicó el método bootstrap en simulaciones, donde utilizó muestras de distribuciones híbridas generadas por métodos clásicos, las cuales comparó con simulaciones realizadas con las técnicas estadísticas clásicas, utilizando el lenguaje de simulación GLIDER. Con los resultados obtenidos, realizó comparaciones entre las medias de las simulaciones con técnicas clásicas y con el método bootstrap y concluyó que no existían diferencias significativas en los resultados. Linares (2.007), determinó el tamaño de muestra adecuado para bootstrap al generar variables aleatorias continuas utilizando un kernel gaussiano, a través del análisis de diferentes muestras de distintos tamaños. Con los análisis realizados, determinó que el tamaño adecuado para la muestra de entrada al método bootstrap cuando se utiliza un kernel gaussiano, esta alrededor de treinta y al aumentar el tamaño de la muestra mayor será la confiabilidad en el método.. 1.2 Definición y delimitación del problema Cuando se usa bootstrap para generar variables aleatorias no se necesita hacer un análisis de los datos de entrada para la simulación (estimación de parámetros, dócima de bondad de ajuste) ya que se usa la muestra directamente. Esto es particularmente relevante si los datos no provienen de una distribución conocida en cuyo caso por los métodos clásicos es muy difícil o imposible generar estas variables y por lo tanto no se podría completar, por ejemplo, la construcción de un modelo. Se plantea realizar una investigación donde se generen variables aleatorias continuas con bootstrap para observar que tan bien replican los datos, identificando si los mismos se ajustan a la distribución de la muestra que los originó, la cual se obtiene con la utilización de métodos clásicos. Para llevar a cabo el proceso descrito anteriormente se utilizarán diferentes kernels, con la finalidad de determinar el tamaño de muestra adecuado que se debe utilizar para bootstrap dependiendo.

(16) 1.3 OBJETIVOS. 4. de cada tipo de kernel y poder establecer si algunos kernels son mejores que otros para determinados tipos de variables.. 1.3 Objetivos 1.3.1 Objetivo general Determinar el tamaño adecuado de muestra para diferentes kernels para generar variables aleatorias continuas utilizando bootstrap.. 1.3.2 Objetivos específicos Revisar la generación de variables por métodos clásicos. Determinar los kernels que se van a utilizar al aplicar bootstrap. Programar la generación de variables aleatorias por bootstrap para los distintos kernels. Generar diferentes muestras bootstrap de distintos tamaños, a partir de una muestra de una distribución conocida generada por métodos clásicos. Aplicar la prueba de Kolmogorov-Smirnov a las muestras bootstrap y verificar si mantienen la distribución de la muestra original (generada por métodos clásicos)..

(17) 1.4 METODOLOGÍA. 5. Analizar el comportamiento de los distintos kernels sobre las distintas distribuciones, con el fin de hacer recomendaciones como por ejemplo que kernel usar en los distintos casos y los tamaños de muestras adecuados para la muestra de entrada al bootstrap.. 1.4 Metodología En esta parte se describirán las técnicas y métodos a utilizar para lograr los objetivos de la investigación. A continuación se especifican los pasos a seguir:. 1.4.1 Generación de muestras En esta fase se procede a generar muestras de distintos tamaños utilizando los métodos clásicos, las muestras generadas deben seguir distribuciones continuas, entre las cuales se pueden señalar la distribución normal, exponencial, Erlang, Weibull y chi-cuadrado. Estas muestras se van a utilizar como entrada al método bootstrap.. 1.4.2 Generación de muestras bootstrap En esta fase se procede a la generación de variables aleatorias continuas utilizando bootstrap suavizado. El bootstrap suavizado consiste en tomar un punto de una muestra y agregarle un ruido, a través de la generación de una variable aleatoria que debe seguir la distribución del kernel que se está utilizando, además se debe calcular un parámetro suavizador. Para el estudio que se quiere realizar se generarán muestras bootstrap que sigan diferentes distribuciones continuas y este procedimiento se realizará utilizando diferentes kernels y cambiando el tamaño de la muestra original..

(18) 1.4 METODOLOGÍA. 6. 1.4.3 Aplicación de prueba estadística Una vez generada las muestras bootstrap, se comprueba que las mismas se ajustan a la distribución de la muestra origen, que es la que se utilizó como entrada al aplicar el algoritmo de generación de variables aleatorias continuas con bootstrap. En esta investigación se utilizan distribuciones continuas. La prueba Kolmogorov-Smirnov se utiliza para distribuciones continuas y muestras pequeñas. Ésta prueba permite decidir si una muestra proviene potencialmente de una distribución continua en particular y se basa en que debe existir una diferencia pequeña entre la función de distribución acumulada observada y la función de distribución acumulada teórica.. 1.4.4 Análisis de resultados En esta fase se procederá a determinar con que frecuencia las muestras obtenidas con bootstrap pasan la prueba de Kolmogorov-Smirnov. Este procedimiento se aplicará para cada kernel, distribución y tamaño de muestra. Se realizarán gráficos donde se puede observar el porcentaje de muestras que pasaron la prueba de Kolmogorov-Smirnov, con la finalidad de analizar el comportamiento de las muestras para diferentes distribuciones y tipos de kernel. Los resultados obtenidos permitirán sacar conclusiones del tamaño de muestra adecuado para bootstrap según el tipo de kernel que se utilice y además se podría decidir si un kernel es mejor que otro para determinada distribución..

(19) Capítulo 2 Marco teórico Este capítulo contiene la explicación de cada uno de los conceptos que se relacionan con el estudio a desarrollar. Se comienza por definir muestra aleatoria y variable aleatoria, para luego entrar en la definición de función de densidad y distribución de probabilidad, realizando una descripción de las distribuciones de probabilidad continuas. Para finalizar, se explicarán los diferentes kernels, bootstrap y la prueba Kolmogorov-Smirnov.. 2.1 Muestra aleatoria Se puede definir como un conjunto de tamaño n, que se encuentra conformado por las observaciones realizadas a una población dada, en donde todo elemento disponible para observación debe tener la misma probabilidad de ser escogido. Es una sucesión de variables aleatorias , que debe cumplir con la condición de ser independientes, es decir, que cualquier suceso asociado a una variable aleatoria es independiente de cualquier suceso asociado a otra variable aleatoria Las muestras aleatorias se pueden tomar de dos maneras, con reemplazo y sin reemplazo. La primera consiste en que el elemento que se saca es devuelto nuevamente a la población, lo que hace que el número de la población no se vea afectado. La segunda toma un elemento sin devolverlo y el número total de la población se reduce en una unidad, lo que trae como consecuencia que la probabilidad de tomar cualquiera elemento restante de la población sea mayor, a medida que se saquen elementos..

(20) 2.2 VARIABLE ALEATORIA. 8. 2.2 Variable aleatoria Es una función de valor real cuyo dominio es un espacio muestral. Una variable aleatoria es discreta si puede tomar sólo un número finito, o un número contable, de valores posibles. Una variable aleatoria es continua si puede tomar un número infinito de valores posibles asociados con intervalos de números reales (Scheaffer Richard, 1.993).. 2.3 Función de densidad de probabilidad Es una medida de frecuencia que permite conocer la distribución de las probabilidades de un suceso. La función de densidad de probabilidad para una variable aleatoria continua debe cumplir con las siguientes condiciones:. f (x). 0 para toda. x. f ( x)dx 1. b. P(a. X. b). f ( x)dx a. Donde f(x) es la función de densidad de probabilidad.. En el caso de una variable aleatoria discreta denominada X y se tiene x como sus posibles valores, se debe cumplir las siguientes condiciones:.

(21) 2.4 DISTRIBUCIÓN DE PROBABILIDAD. 9. P(X = x) = p(x) ≥ 0 ∑x P(X = x) =1 Donde p(x) es la función de densidad de probabilidad.. 2.4 Distribución de probabilidad Se puede definir como la frecuencia relativa a largo plazo de los resultados numéricos asociados a un experimento (Scheaffer Richard, 1.993). La probabilidad de un suceso se puede considerar una función porque a cada valor distinto posible de una variable aleatoria X, le corresponde un número real y solo uno entre el intervalo cero y uno.. 2.5 Distribuciones continuas En el estudio a realizar las muestras deben seguir una distribución continua, por esta razón es necesario realizar una descripción de las mismas, entre las cuales se pueden definir las siguientes:. 2.5.1 Distribución Normal Esta distribución es muy utilizada debido a que existen muchos fenómenos aleatorios que se ajustan a ella. El primero en descubrir esta distribución fue Abraham de Moivre (1677-1754), quien dedujo la distribución utilizando el límite de la binomial, pero no se había dado a conocer su trabajo y solo fue hasta que Karl Friedrich Gauss (1777-1855) por sus trabajos realizados, dio a conocer dicha distribución y por esta razón es que se suele llamar distribución gaussiana..

(22) 2.5 DISTRIBUCIONES CONTINUAS. 10. La función de densidad se expresa de las iguiente manera:. 1 2. f ( x). e. 1 x 2. 2. para -∞ < X < ∞. La función de distribución es:. x. 1 e 2. F ( x). 1 x 2. 2. dx. 2.5.2 Distribución Exponencial Esta distribución es utilizada para representar tiempos de espera, tiempo de vida de maquinaria y tiene la característica de que la media es igual a la desviación típica. Su función de densidad se expresa como sigue:. f ( x). 1 e a. x. a. para x > 0. La función de distribución es:. F ( x) 1 e. xa. 2.5.3 Distribución Chi-cuadrado Se utiliza para inferir con respecto a varianzas muestrales. Es utilizada cuando se tiene la suma de cuadrados de distribuciones normales estándar. La función de densidad es:.

(23) 2.5 DISTRIBUCIONES CONTINUAS. 1. f ( x) 2. n 2. 11. x. n 1 2. e. x 2. para x > 0. ( n / 2). La función de distribución es:. (n / 2, X / 2) (n / 2). F ( x). 2.5.4 Distribución Beta Es muy utilizada para modelar el comportamiento de variables aleatorias, como proporciones o fracciones. Las variables que se representen por medio de esta distribución deben estar acotadas entre 0 y 1. La función de densidad es:. f ( x). x a 1 (1 x) b 1 para 0 ≤ x ≤ 1, a>0 y b>0 ( a, b). La función de distribución es: x. F ( x) 0. x a 1 (1 x) b 1 dx ( a, b ). 2.5.5 Distribución Erlang Esta distribución es utiliza cuando se quiere modelar tiempos de servicio, tiempo de reparación y tiempo entre fallas de equipos. La función de densidad es:.

(24) 2.5 DISTRIBUCIONES CONTINUAS. m 1. 12. x a. x e (m 1)!a m. f ( x). para x > 0 , a >0 y m entero positivo. La función de distribución es:. F ( x) 1 e. x a. m 1 i 0. xa i!. i. 2.5.6 Distribución t-Student Esta distribución tiene la apariencia muy similar a la normal y es simétrica con respecto a cero. A medida que el número de grados de libertad es mayor, la forma límite de la distribución t-Student es una distribución normal con media 0 y varianza 1. Es utilizada por lo general para calcular intervalos de confianza. La función de densidad es:. v 1 / 2 1 ( x 2 / v) v 1/ 2 (v / 2). f ( x). ( v 1) / 2. para -∞ < x < ∞ y v es entero positivo. La función de distribción es:. x. F ( x). v 1 / 2 1 ( x 2 / v) v. 1/ 2. (v / 2). ( v 1) / 2. dx.

(25) 2.5 DISTRIBUCIONES CONTINUAS. 13. 2.5.7 Distribución Uniforme Se utiliza para modelar cierto tipo de experimentos, donde ocurren eventos en un determinado rango de tiempo. Por ejemplo, la cantidad de autobuses que llegan a una determinada parada (Scheaffer Richard, 1.993). La función de densidad esta representa por:. f ( x). 1 b. para a ≤ x ≤ b y b>a. a. La función de distribución es:. F ( x). x a b a. para a ≤ x ≤ b. 2.5.8 Distribución Weibull Esta distribución es muy utilizada para realizar modelos que contengan datos de tiempo de vida útil de sistemas o equipos. Tiene la características que cuando b=1 se transforma en una densisdad exponencial. Su función de densidad esta representa por:. f ( x). x a. bxb 1 e ab. b. La función de distribución es:. F ( x). 1 e. x. b a. para 0 ≤ x <∞, a>0 y b>0.

(26) 2.6 DENSIDAD DE DISTRIBUCIÓN DE KERNEL. 14. 2.5.9 Distribución Gamma Es utilizada para modelar tiempo de vida de equipos, también es utilizada en modelos de colas con el propósito de modelar tiempos de servicio. Su función de densidad es:. x f ( x). b 1. e. x. a. a a (b). para 0 ≤ x < ∞, a>0 y b>0. La función de distribución es:. x. F ( x). ( x / a )b 1 e a (b) 0. x. a. 2.6 Densidad de distribución de kernel Las ideas básicas de estimación de densidad de kernel aparecen para el año de 1950. Rosenblatt y Parzen se dedicaron a la investigación sobre este tema. Aunque el método se introdujo a mediados del siglo pasado, hasta hace pocos años fue que se difundió, debido a la necesidad de utilizar la herramienta computacional para facilitar su aplicación (Dekking, 2005). Una función kernel es una función de probabilidad que debe cumplir con la condición de ser simétrica alrededor del cero. Para poder construir una estimación de densidad del kernel, se debe escoger el tipo de kernel a utilizar y el ancho de banda, el cual es un parámetro suavizador que se asocia al kernel, el mismo depende del tipo de análisis que se quiera realizar. Existen diferentes funciones de densidad de kernel como las se que especifican a continuación:.

(27) 2.6 DENSIDAD DE DISTRIBUCIÓN DE KERNEL. 15. 2.6.1 Kernel Epanechnikov K ( x). 3 (1 x 2 ) 4. para - 1 ≤ X ≤ 1. Figura 2.1. Función de densidad del kernel Epanechnikov. 2.6.2 Kernel Biweight. K ( x). 15 (1 x 2 ) 2 para - 1 ≤ X ≤ 1 16. Figura 2.2. Función de densidad de kernel biweight.

(28) 2.6 DENSIDAD DE DISTRIBUCIÓN DE KERNEL. 16. 2.6.3 Kernel Triangular. K ( x) 1 | x |. para - 1 ≤ X ≤ 1. Figura 2.3. Función de densidad de kernel biweight. 2.6.4 Kernel Triweight K ( x). 35 (1 x 2 )3 32. para - 1 ≤ X ≤ 1. Figura 2.4. Función de densidad del kernel triweight.

(29) 2.6 DENSIDAD DE DISTRIBUCIÓN DE KERNEL. 17. 2.6.5 Kernel Normal. K ( x). 1 e 2. 1 2 x 2. para -∞ < X < ∞. Figura 2.5. Función de densidad del kernel normal. 2.6.6 Kernel Rectangular K ( x). 1/ 2. para - 1 ≤x ≤ 1. Figura 2.6. Función de densidad de kernel rectangular.

(30) 2.7 BOOTSTRAP. 18. 2.7 Bootstrap Es un método estadístico que se basa en el remuestreo de muestras, con la finalidad de obtener propiedades de los estimadores, que permitan realizar inferencias estadísticas. El uso de bootstrap es muy amplio, se pueden realizar cálculos de intervalos de confianza, se aplica a problemas donde se necesita realizar análisis multivariante, para la estimación de matrices de covarianza, pruebas de hipótesis, regresión noparámetrica, entre otras. Al utilizar bootstrap es necesaria la herramienta del computador, porque se manejan gran cantidad de datos y además es necesario realizar cálculos, que sin un computador sería casi imposible de llevar a cabo.. 2.7.1 Bootstrap paramétrico Existen variaciones en el bootstrap, entre éstas se encuentra el bootstrap paramétrico que consiste en estimar los parámetros desconocidos a través del uso de procedimientos parámetricos, las muestras que se obtienen con bootstrap son tomadas a través de estimaciones paramétricas.. 2.7.2 Bootstrap no paramétrico El bootstrap no paramétrico utiliza métodos no parámetricos para construir la distribución empírica que se obtiene con los datos de la muestra. La idea es sustituir la distribución de la población que es desconocida por la distribución empírica conocida. Por ejemplo se tiene una muestra de tamaño n:. F. ( X 1 , X 2 ,..., X n ) ^. La distribución empírica F , se define como una distribución discreta que asigna una probabilidad de 1/n a cada valor. X i donde i=1,2,…,n..

(31) 2.7 BOOTSTRAP. 19. El procedimiento a seguir es el que se describe a continuación: 1. Tener una muestra aleatoria de tamaño n, denominada muestra original. 2. Se toma la muestra original y se remuestrea aleatoriamente n veces con reemplazo, donde se tiene que la probabilidad de escoger cualquier punto es 1/n. De esta manera se tiene una nueva muestra. 3. Obtener M muestras, donde M se considera un número grande y representa la cantidad de remuestras realizadas, después se debe calcular el estadístico de interés para cada una de las muestras obtenidas. Por ejemplo, si el estadístico que se calcula es la media, se puede obtener ésta para cada muestra y hacer cálculos de intervalos de confianza, así como este ejemplo se pueden realizar otros análisis (Hoeger, 2006). La función de distribución empírica es el estimador de máxima verosimilitud de la distribución de las observaciones, cuando no se hacen hipótesis paramétricas (Chernick, 1999).. 2.7.3 Bootstrap para generar variables aleatorias El bootstrap se basa en el remuestreo de una muestra, las muestras pueden seguir distribuciones discretas o continuas. Al momento de realizar el remuestreo de una muestra que siga una distribución discreta, el procedimiento que se debe seguir es simplemente tomar un número uniforme entre 1 y el tamaño de la muestra y devolver dicha muestra. Para explicar mejor este procedimiento se describirá un ejemplo que consiste en: Existe una encrucijada donde los carros tienen varias opciones para el camino que pueden seguir, se pueden cruzar a la derecha, cruzar a la izquierda o seguir la misma dirección en línea recta, a continuación se presenta un diagrama para observar el ejemplo planteado:.

(32) 2.7 BOOTSTRAP. 20. Cruzar a la Izquierda (I). En línea Recta (R). Cruzar a la Derecha (D) Figura 2.7. Encrucijada. Supongamos que se tiene una muestra X que sigue la siguiente distribución: 0.5 para x=I. f(x)= 0.3 para x=D 0.2 para x=R A continuación se puede observar la muestra X: X1. X2. X3. X4. X5. X6. X7. X8. X9. X10. I. I. I. I. I. D. D. D. R. R. Tabla 2.1. Muestra. Al realizar el muestreo de la muestra de la tabla anterior, los pasos a seguir son: 1. Genera un número uniforme i entre 1 y el tamaño de la muestra, que para el ejemplo que se planteó sería 10..

(33) 2.7 BOOTSTRAP. 21. 2. Devolver el x[i]. Los pasos que se describieron anteriormente se pueden utilizar cuando las muestras siguen distribuciones discretas, pero para el caso que se desee generar muestras de variables aleatorias continuas, este procedimiento no se considera el más adecuado debido a que solo se podrían generar los puntos que se encuentran en la muestra original. El bootstrap suavizado permite generar muestras que sigan una distribución continua, generando puntos en la muestra que no se encuentran en la muestra original, este procedimiento es de gran utilidad al modelar haciendo uso de distribuciones continuas. Para obtener las muestras bootstrap se le agrega un ruido a las observaciones, a través de la generación de una variable aleatoria que tiene la distribución del kernel, esta variable aleatoria se va a multiplicar por un parámetro suavizador, el cual es calculado previamente. Al aplicar el bootstrap se debe tener como entrada una muestra, la cual se denomina muestra original y con la misma se va a proceder a realizar el remuestreo, obteniendo nuevas muestras denominadas muestras bootstrap. El procedimiento que sigue el bootstrap suavizado es el siguiente: 1. Cálculo de un parámetro suavizador, con la utilización de la siguiente fórmula:. h Donde el valor de. (k )1.364min(s, R /1.34)n 1/5. (k) es 0.776, s representa la desviación estándar muestral, R el rango. intercuartílico y n el tamaño de la muestra. 2. Generar un número aleatorio i, uniforme en [1, n]. i=1,…, n y selecciona Xi. 3. Generar una variable aleatoria Z de la distribución kernel que se escogió para el estudio. 4. Retornar una variable aleatoria utilizando la siguiente fórmula: boot = x i + hZ..

(34) 2.8 PRUEBA DE KOLMOGOROV-SMIRNOV. 22. El procedimiento descrito anteriormente se va a aplicar para cada uno de los kernels seleccionados que se va a estudiar, con la finalidad de analizar las muestras generadas por bootstrap y lograr determinar el tamaño adecuado de la muestra de entrada, dependiendo del kernel que se utilice.. 2.8 Prueba Kolmogorov-Smirnov Ésta prueba se utiliza para determinar si hay evidencia que los datos de una muestra no siguen una distribución continua en particular, para ello se calcula la diferencia entre la función de distribución acumulada observada. K n ( x) y la función de distribución acumulada esperada Fx ( x) , en caso de que la. diferencia entre ambas sea grande se considera que los datos de la muestra no siguen dicha distribución. Para aplicar esta prueba se deben seguir los siguientes pasos: 1. Ordenar de menor a mayor la muestra que se quiere estudiar. 2. Calcular la función de distribución acumulada observada, la cual se expresa de la siguiente manera:. K n ( x). n. 1 n. 1 si xi ≤ x i 1. 3. Calcular D+ y D-, las cuales se representa como se muestra a continuación: D. max[ K n ( x) Fx ( x)]. D. max[ Fx ( x) K n ( x)]. x. x. Donde D+ mide la diferencia máxima cuando la función de distribución acumulada observada se encuentra sobre la función de distribución acumulada esperada y D - mide la diferencia máxima cuando la función de distribución acumulada observada se encuentra debajo de la función de distribución acumulada esperada.

(35) 2.8 PRUEBA DE KOLMOGOROV-SMIRNOV. 23. 4. Consultar en la tabla de la prueba de Kolmogorov-Smirnov el valor de D, utilizando el tamaño de la muestra y el valor de α. 5. No se puede descartar que la muestra proviene de una distribución en particular, si los valores de D+ y D- son menores que el valor D que se obtuvo de la tabla. A pesar de que la prueba busca evidencia de que los datos no sigan una distribución particular, es usual considerar que provienen de la distribución contra la cual se contrasta la muestra si dicha evidencia no se presenta..

(36) Capítulo 3. Descripción de los procesos En este capítulo se describen los elementos necesarios a utilizar para determinar el tamaño adecuado de la muestra de entrada para generar variables aleatorias con bootstrap utilizando distintos kernels. Se describirán las muestras de entradas, los tipos de kernel, las muestras obtenidas con bootstrap y la prueba Kolmogorov-Smirnov.. 3.1 Diagrama del proceso El proceso que se va a seguir para este estudio, comienza con la generación de muestras que sigan una distribución en particular, las cuales se generan con la aplicación de métodos clásicos, estas muestras serán tomadas como entrada para la aplicación del bootstrap. El siguiente paso consiste en la generación de muestras utilizando bootstrap, las cuales serán analizadas a través de la prueba estadística de Kolmogorov-Smirnov. Una vez obtenidos los resultados al aplicar la prueba de Kolmogorov-Smirnov a las muestras obtenidas con bootstrap utilizando diferentes kernels, se realizará un análisis del comportamiento de las muestras, para determinar el tamaño de muestra de entrada adecuado. A continuación se presenta un diagrama donde se puede observar las fases del proceso..

(37) 3.2 MUESTRAS DE ENTRADA. 25. Muestras de Entradas. Aplicar Bootstrap. Análisis de Resultados. Muestras Bootstrap. Prueba Estadística. Figura 3.1. Diagrama del Proceso. 3.2 Muestras de entrada En el estudio a realizar las muestras de entradas se obtendrán a partir de los métodos clásicos, estas muestras se utilizarán para aplicar bootstrap, con el objetivo de verificar que las muestras obtenidas con bootstrap siguen la misma distribución que las muestras originales, de esta forma se observará que tan bien replica bootstrap las muestras y se podrá determinar el tamaño adecuado de la muestra de entrada. Las muestras de entradas a utilizar para los distintos kernels van a seguir diferentes distribuciones continuas, se escogió las distribuciones normal, exponencial, Erlang, Weibull y chicuadrado. Al analizar el comportamiento de las muestras obtenidas con bootstrap, para cada distribución se tomarán diferentes parámetros, con la finalidad de observar el comportamiento de las distribuciones.

(38) 3.2 MUESTRAS DE ENTRADA. 26. cuando las mismas tienen características diferentes y de esta manera determinar si existe alguna diferencia significativa en una misma distribución para algunos de los kernels que se están analizando. A continuación se presentan las gráficas de las diferentes distribuciones que se van a utilizar, donde se puede observar cómo se comportan las misma para diferentes parámetros. Figura 3.2. Distribución Normal. Figura 3.3. Distribución Exponencial.

(39) 3.2 MUESTRAS DE ENTRADA. 27. Figura 3.4. Distribución Weibull. Figura 3.5. Distribución Erlang. Figura 3.6. Distribución Chi-cuadrado.

(40) 3.3 TAMAÑO DE MUESTRAS DE ENTRADA. 28. 3.3 Tamaño de muestras de entrada Para elegir el tamaño adecuado de muestra de entrada para aplicar bootstrap con un determinado kernel se deben realizar diferentes pruebas, tomando muestras de entradas que sigan una distribución en particular. Las muestras de entrada a utilizar serán de diferentes tamaños, comenzando con muestras de tamaño veinte aumentando de cinco en cinco hasta llegar a cincuenta. Cabe destacar que se quiere determinar que tan pequeño puede ser el tamaño de la muestra de entrada sin afectar la calidad de los valores generados por bootstrap. Tamaños de muestra pequeños implican menor trabajo y costo en su obtención.. 3.4 Tipos de kernel Se debe escoger cuales kernels se van a utilizar para el estudio, con la finalidad de seleccionar el tamaño adecuado para la muestra que se utilizará como entrada al bootstrap. Además se debe hacer una comparación entre los kernels con la finalidad de observar si alguno se comporta mejor que otro o si se obtienen mejores resultados para un kernel con una muestra de entrada que siga una distribución en particular. Se decidió utilizar seis tipos de kernels para el estudio, considerándose que es un número adecuado para realizar esta investigación. Los kernels escogidos son el Epanechnikov, triangular, rectangular, biweigth, triweigth y normal. Al aplicar bootstrap con cada uno de los kernels seleccionados, se programó la generación de variables aleatorias que siguiera la distribución de cada uno de los kernels. El código se realizó en el lenguaje de programación pascal. Para los kernels Epanechnikov, biweight y triweight se utiliza el método del rechazo. Al generar variables aleatorias que sigan la distribución del kernel Epanechnikov, el cual su función de densidad viene dada por f ( x). 3 *(1 x 2 ) , se deben generar dos números X y Y, donde X siga la 4.

(41) 3.4 TIPOS DE KERNEL. 29. distribución uniforme entre -1 y 1 y Y uniforme entre 0 y ¾. Se debe cumplir la condición y. f ( x) ,. sino se rechaza X y Y hasta que se cumpla la condición. Ver figura 3.7. Para los kernels biweight y triweight se sigue el mismo procedimiento descrito anteriormente.. Figura 3.7. Kernel Epanechnikov. Para generar las variables aleatorias que sigan la distribución del kernel triangular se utilizó el método de la transformación inversa, el cual consiste en tomar un número uniforme entre 0 y 1, r, y se calcula X haciendo. X F 1 (r ) .. La generación de variables aleatorias que sigan la distribución del kernel rectangular se realiza generando variables aleatorias continuas uniformes. Para generar variables aleatorias que sigan la distribución del kernel normal, se utiliza un algoritmo específico que se adapta a las características de la función de densidad normal. Para cada uno de los kernels se utilizaron los siguientes algoritmos: Algoritmo para generar variables aleatorias siguiendo la distribución del Kernel Epanechnikov: 1. Generar un número x uniforme entre -1 y 1. 2. Generar un número y uniforme entre 0 y 3/4. 3. Si. y 3/ 4*(1 x 2 ) , devolver el valor de x.. 4. De lo contrario volver al paso 1..

(42) 3.4 TIPOS DE KERNEL. 30. Algoritmo para generar variables aleatorias siguiendo la distribución del Kernel Biweight: 1. Generar un número x uniforme entre -1 y 1. 2. Generar un número y uniforme entre 0 y 15/16. 2 2 3. Si y 15/16*(1 x ) , devolver el valor de x.. 4. De lo contrario volver al paso 1.. Algoritmo para generar variables aleatorias siguiendo la distribución del Kernel Triweight: 1. Generar un número x uniforme entre -1 y 1. 2. Generar un número y uniforme entre 0 y 35/32. 2 3 3. Si y 35/32*(1 x ) , devolver el valor de x.. 4. De lo contrario volver al paso 1.. Algoritmo para generar variables aleatorias siguiendo la distribución del Kernel Triangular: 1. Generar un número r uniforme entre 0 y 1. 2. Si r 1/ 2 , se calcula x haciendo x. 2r. 1.. 3. De lo contrario se calcula x haciendo x 1. 2. 2r. .. 4. Devolver el valor de x.. Algoritmo para generar variables aleatorias siguiendo la distribución del Kernel Rectangular: 1. Generar un número x uniforme entre -1 y 1. 2. Devolver el valor de x.. Algoritmo para generar variables aleatorias siguiendo la distribución del Kernel Normal: 1. Generar dos números aleatorios U1 y U2.

(43) 3.5 PARÁMETRO SUAVIZADOR. 31. 2. Aplicar la ecuación x. *(. 2ln(u1 ) *cos(2 u2 )) , donde. es la media y. la desviación estándar. 3. Devolver el valor de x.. 3.5 Parámetro suavizador El parámetro suavizador se utiliza en la aplicación del bootstrap suavizado, el mismo se calcula a través de la aplicación de la fórmula que se muestra a continuación:. h Donde. (k )1.364min(s, R /1.34)n 1/5. (k ) tiene un valor de 0.776, la s representa la desviación estándar de la muestra de. entrada que se utiliza para bootstrap y R representa el rango intercuartílico que viene dado por la diferencia entre el tercer cuartil y el primer cuartil. Los cuartiles representan tres valores que permiten dividir una muestra ordenada en cuatro partes iguales. Se va a utilizar el mismo parámetro suavizador para todos los kernels que se van a analizar.. 3.6 Bootstrap Al aplicar bootstrap se pueden encontrar diferentes tipos como son el bootstrap paramétrico, no paramétrico y suavizado. En el estudio que se está realizando, se utilizan variables aleatorias continuas y se desea generar puntos que no necesariamente tienen que estar en la muestra original, estos puntos deben seguir la misma distribución que los datos de la muestra de entrada que se está muestreando. El bootstrap suavizado se adapta al procedimiento que se quiere realizar ya que consiste en tomar un punto de la muestra, agregarle un ruido y un parámetro suavizador. El ruido está conformado.

(44) 3.7 MUESTRAS OBTENIDAS CON BOOTSTRAP. 32. por una variable aleatoria que sigue la distribución de un kernel. Esto permite obtener nuevos puntos en la muestra que deben seguir la misma distribución que la muestra de entrada. Es importante señalar que las distribuciones continuas exponencial, Weibull, Erlang y chicuadrado no están definidas para números negativos, al aplicar bootstrap suavizado se pueden obtener puntos en la muestra negativos lo cual no sería adecuado, existe la posibilidad de descartar este punto o utilizar el valor absoluto. Se decidió tomar el valor absoluto, basándose en el planteamiento presentado en Hörmann and Leydold en su artículo Automatic Random Variate Generation For Simulation Input.. 3.7 Muestras obtenidas con bootstrap Para obtener las muestras bootstrap, se utilizará cincuenta muestras de entradas diferentes, a cada una de estas muestras se le aplicará bootstrap diez veces, obteniendo quinientas muestras bootstrap las cuales van hacer analizadas con las prueba de Kolmogorov-Smirnov, para verificar que sigan la misma distribución de las muestras originales. El tamaño de las muestras bootstrap es de treinta y cinco. El procedimiento descrito anteriormente se realizará con muestras de entradas que sigan las diferentes distribuciones, con parámetro y tamaños de muestras distintos, con la finalidad de observar el comportamiento de las muestras bootstrap. Se realizarán pruebas para cada uno de los kernels que se están analizando.. 3.8 Aplicación de prueba Kolmogorov-Smirnov Para realizar el análisis se debe conocer si las muestras obtenidas con bootstrap siguen la distribución de la muestra original, estas muestras siguen las distribuciones continuas normal, exponencial, Weibull, Erlang y chi-cuadrado..

(45) 3.8 APLICACIÓN DE PRUEBA KOLMOGOROV-SMIRNOV. 33. La prueba de Kolmogorov-Smirnov, permite verificar si hay evidencia de que los datos de una muestra siguen una distribución continua en particular. Para el caso en estudio, se conoce la distribución que siguen los datos de las muestras originales, debido a que las mismas se obtuvieron aplicando los métodos clásicos. Las muestras obtenidas con la aplicación de bootstrap, se le aplica esta prueba para verificar si los datos de las muestras siguen la misma distribución de la muestra original que se utilizó como entrada. Se aplicará esta prueba utilizando dos niveles de significancia 0.1 y 0.05, lo que significa que la prueba tendrá un nivel de confianza del 90% y 95% respectivamente. Una vez aplicada la prueba de Kolmogorov-Smirnov, se procede a analizar los resultados de cada kernel con cada una de las distribuciones..

(46) Capítulo 4 Análisis de Resultados Con los resultados obtenidos al aplicar bootstrap para los diferentes kernels utilizando distintos tamaños de muestras de entrada, se realizaron gráficos los cuales serán analizados con la finalidad de obtener el tamaño de muestra de entrada apropiado al utilizar los diferentes kernels. Además se realizarán comparaciones entre los distintos kernels, para determinar si un kernel se comporta mejor que otro.. 4.1 Criterios para el análisis Al realizar el análisis de resultados se chequea que las muestras obtenidas por bootstrap sigan la misma distribución de la muestra original, para esto se aplica la prueba de Kolmogorov-Smirnov, y se quiere que el tamaño de muestra de entrada sea lo más pequeña posible. Al momento de tomar la decisión del tamaño adecuado de la muestra de entrada para cada tipo de kernel, se toma en cuenta el porcentaje de muestras bootstrap que pasaron la prueba de Kolmogorov-Smirnov y se fija que el mismo debe ser mayor o igual que 80%. Es importante señalar que para cada uno de los tamaños de muestra en estudio, los cuales son 20,25,30,35,40,45 y 50, se aplicó bootstrap utilizando muestras que siguen las siguientes distribuciones: normal, exponencial, Weibull, Erlang y chi-cuadrado..

(47) 4.2 DISTRIBUCIONES CONTINUAS. 35. 4.2 Distribuciones Continuas Al aplicar bootstrap para un determinado kernel se utilizaron muestras de entradas que siguen diferentes distribuciones continuas utilizando parámetros distintos, con la finalidad de observar el comportamiento de la muestra.. 4.2.1 Distribución Normal Al realizar pruebas con muestras que sigan la distribución normal, se pudo observar que un cambio en los parámetros de la distribución no afecta los resultados. Para explicar lo expuesto anteriormente se realizará un ejemplo. Se desea generar dos valores de la distribución normal, uno con media 0 y desviación estándar 1 y otro con media 2 y desviación estándar 5. Para generarlos se aplica el método de Box Muller utilizando:. x. *(. 2ln(u1 ) *cos(2 u2 )). Para ello se deben generar dos números aleatorios y supongamos que son:. u1. 0.24. u2. 0.35. Generando X1 y X2 para cada distribución respectivamente, se obtiene X1=1.69 y X2=10.44. Se calcula las probabilidades acumuladas para X1 y X2, la cual es 0.9545 para ambos casos. Cabe destacar que para diferentes medias y desviaciones estándar, al utilizar las mismas semillas para generar los números aleatorios, las probabilidades acumuladas no cambian. Esto es lo que sucede al aplicar bootstrap suavizado, la media y la desviación estándar no influye en el resultado final, es decir cuando se desea comprobar si las muestras bootstrap siguen la distribución de la muestra original a través de la aplicación de la prueba Kolmogorov-Smirnov, la cantidad de.

(48) 4.2 DISTRIBUCIONES CONTINUAS. 36. muestras que pasan la prueba cuando se utilizan muestras con diferentes parámetros siempre es la misma cuando se utiliza la misma semilla para generar los números aleatorios. Por esta razón se decidió realizar las pruebas tomando muestras de entradas que sigan la distribución normal con media 0 y desviación estándar 1.. 4.2.2 Distribución Exponencial Al generar variables aleatorias que sigan la distribución exponencial se utiliza:. x. a ln(u). Donde a es la media y u es un número uniforme entre 0 y 1. Para realizar el cálculo de la probabilidad acumulada para un valor x de una distribución exponencial se utiliza la distribución de probabilidad acumulada, la cual se define como:. F ( x). 1 e. x a. Se sustituye la fórmula para generar variables aleatorias exponenciales en la expresión matemática de la distribución de probabilidad acumulada, quedando de la siguiente manera:. F ( x) 1 e. a ln( u ) a. F ( x) 1 e. ln( u ). Como se puede observar, el valor de la probabilidad acumulada es independiente del valor de la media que se utilice para generar variables aleatorias exponenciales, siempre que se tomen las mismas semillas para generar los números aleatorios uniformes entre 0 y 1. Se determinó que las pruebas a realizar con muestras que siguieran la distribución exponencial el parámetro a utilizar es media igual a 1..

(49) 4.2 DISTRIBUCIONES CONTINUAS. 37. 4.2.3 Distribución Erlang Para generar variables aleatorias que sigan la distribución Erlang se utiliza la siguiente fórmula:. m. x. a ln(. ui ) i 1. Donde a y m son parámetros de la distribución, u es un número aleatorio uniforme entre 0 y 1 La función de probabilidad para la distribución Erlang se define como:. F ( x) 1 e. x a. m 1 i 0. xa i!. i. Este caso es similar al explicado en la distribución exponencial, porque la distribución Erlang es una suma de distribuciones exponenciales, donde el parámetro a se define como la media de la exponencial y el parámetro m como la cantidad de exponenciales. Esto lleva a la conclusión que la media que se utilice para generar los números aleatorios es independiente al momento de realizar el cálculo de la probabilidad acumulada, siempre que se utilicen las mismas semillas para generar los números aleatorios. Al realizar las pruebas con bootstrap suavizado cuando las muestras siguen una distribución Erlang, en el caso que se deje el mismo valor para el parámetro m , pero se cambie el valor del parámetro a , la cantidad de muestras bootstrap que aprueban la prueba de Kolmogorov-Smirnov es la misma, debido a que el procedimiento que se sigue es independiente del valor del parámetro a . En el caso donde el valor del parámetro m se cambia, los resultados al analizar el porcentaje de muestras bootstrap que aprueban la prueba de Kolmogorov -Smirnov si cambian, pero el cambio no es muy notable. Se puede concluir que al aplicar bootstrap con muestras de entradas que siguen la distribución Erlang con diferentes parámetros, no existen cambios significativo en la cantidad de muestras bootstrap que aprueban la prueba de Kolmogorov-Smirnov, esta fue la razón para decidir utilizar muestras de entradas con parámetros: a =4 y m =2..

(50) 4.3 TAMAÑO ADECUADO DE MUESTRA DE ENTRADA. 38. 4.2.4 Distribución Weibull Al aplicar bootstrap con muestras de entradas que sigan la distribución Weibull, se pudo observar que al cambiar los parámetros a y b los resultados se mantenían casi iguales. Observación similar se da al mantener uno de los parámetros fijos y cambiar el otro. Por esta razón se decidió realizar las pruebas tomando las muestras de entrada que siguieran la distribución Weibull con parámetros a =20 y b =10.. 4.2.5 Distribución Chi-cuadrado Se aplicó bootstrap con muestras de entradas que sigan la distribución chi-cuadrado, tomando diferentes grados de libertad, donde se pudo observar al igual que en los casos anteriores que no existe diferencia significativa al cambiar los parámetros en una misma distribución. Se utilizó para el análisis que se realizó 4 grados de libertad.. 4.3 Tamaño adecuado de muestra de entrada Para determinar el tamaño adecuado de la muestra de entrada se elaboraron varios gráficos, para analizar el comportamiento de cada kernel con las diferentes distribuciones continuas, se graficó los porcentajes de muestras obtenidas con bootstrap que pasaron la prueba de Kolmogorov-Smirnov para cada tamaño de muestra. Se determinó que el tamaño de muestra adecuado para una determinada distribución de un kernel en particular, debe ser el más pequeño posible con un 80% de las muestras bootstrap aprobadas por la prueba de Kolmogorov-Smirnov. Los datos de los gráficos se tomaron de resultados obtenidos al realizar las pruebas respectivas, los cuales se pueden verificar en el Apéndice A, donde se encuentran las tablas con las muestras que aprobaron la prueba de Kolmogorov-Smirnov con los niveles de significancia 0.1 y 0.05. Para la.

(51) 4.3 TAMAÑO ADECUADO DE MUESTRA DE ENTRADA. 39. elaboración de los gráficos se utilizaron los resultados obtenidos con la prueba de Kolmogorov-Smirnov con un nivel de significancia de 0.05, lo que representa un nivel de confianza del 95%.. 4.3.1 Kernel Epanechnikov Para realizar el análisis del tamaño adecuado de la muestra de entrada para el kernel Epanechnikov con cada una de las distribuciones, se realizaron cinco gráficos donde las muestras utilizadas como entrada seguían las distribuciones normal, exponencial, Weibull, Erlang y chicuadrado. Los gráficos representan los porcentajes de muestras que pasaron la prueba KolmogorovSmirnov para cada tamaño de muestra analizado. Además se realiza una tabla donde se resume los resultados del tamaño de muestra adecuado para cada una de las distribuciones, para luego tomar un tamaño general cuando la muestra sigua cualquier distribución. A continuación se presentan los gráficos:. Distribución Normal % pruebas pasadas. 100 80 60 40 20 0 20. 25. 30. 35. 40. 45. Tamaño de muestras. Figura 4.1. Kernel Epanechnikov - DistribuciónNormal. 50.

(52) 4.3 TAMAÑO ADECUADO DE MUESTRA DE ENTRADA. 40. Distribución Exponencial % pruebas pasadas. 100 80 60 40 20 0 20. 25. 30. 35. 40. 45. 50. Tamaño de muestras. Figura 4.2. Kernel Epanechnikov - Distribución Exponencial. Distribución Weibull % pruebas pasadas. 100 80 60. 40 20 0 20. 25. 30. 35. 40. 45. Tamaño de muestas. Figura 4.3. Kernel Epanechnikov - Distribución Weibull. 50.

(53) 4.3 TAMAÑO ADECUADO DE MUESTRA DE ENTRADA. 41. Distribución Erlang % pruebas pasadas. 100 80 60 40 20 0 20. 25. 30. 35. 40. 45. 50. Tamaño de muestras. Figura 4.4. Kernel Epanechnikov - Distribución Erlang. Distribución Chi-cuadrado % pruebas pasadas. 100 80 60 40 20 0 20. 25. 30. 35. 40. 45. 50. Tamaño de muestras. Figura 4.5. Kernel Epanechnikov - Distribución Chi-cuadrado.

(54) 4.3 TAMAÑO ADECUADO DE MUESTRA DE ENTRADA. 42. En la tabla 4.1 se presenta los resultados obtenidos del tamaño de muestra adecuado cuando las muestras de entradas siguen una determinada distribución, al utilizar el bootstrap suavizado con el kernel Epanechnikov. Se tomó el tamaño de muestra más pequeño que tuviese un 80% de las muestras bootstrap aprobadas por la prueba Kolmogorov-Smirnov.. Distribución. Tamaño adecuado de la muestra. Normal. 25. Exponencial. 25. Weibull. 30. Erlang. 25. Chi-Cuadrado. 30. Tabla 4.1. Tamaño adecuado de la muestra- Kernel Epanechnikov. Al analizar el kernel Epanechnikov para las cinco distribuciones, se puede concluir que el tamaño adecuado de la muestra de entrada es 30, cuando las muestras siguen cualquier distribución.. 4.3.2 Kernel Triangular Para determinar el tamaño de muestra adecuado para el kernel triangular, se realizó un análisis del comportamiento de bootstrap cuando las muestras siguen las distribuciones normal, exponencial, Weibull, Erlang y chi-cuadrado. Las gráficas se muestran a continuación:.

(55) 4.3 TAMAÑO ADECUADO DE MUESTRA DE ENTRADA. 43. Distribución Normal % pruebas pasadas. 100 80 60 40 20 0 20. 25. 30. 35. 40. 45. 50. Tamaño de muestras. Figura 4.6. Kernel Triangular - Distribución Normal. Distribución Exponencial % pruebas pasadas. 100 80 60 40 20 0 20. 25. 30. 35. 40. 45. Tamaño de muestras. Figura 4.7. Kernel Triangular - Distribución Exponencial. 50.

Figure

Actualización...

Referencias

Actualización...