Ajustando Distribución (Datos Censurados)

(1)

Ajustando Distribución (Datos Censurados)

Resumen

El procedimiento Ajustando Distribución (Datos Censurados) ajusta cualquiera de las 45 distribuciones de probabilidad a una columna numérica de datos censurados. La censura ocurre cuando alguno de los valores de los datos no son conocidos exactamente. Por ejemplo, cuando medimos tiempos de falla, algunos artículos bajo estudio pueden no haber fallado cuando termino el estudio, resultando en una cota inferior para el tiempo de falla para estos artículos. Ejemplo StatFolio: distfit censored.sgp

Datos del Ejemplo:

El archivo absorbers.sf3 contiene n = 38 observaciones identificando el numero de kilómetros de

uso para una muestra de amortiguadores de choque del vehículo, tomadas de Meeker y Escobar (1998). Cuando se inspecciono, algunos de los amortiguadores de choque del vehículo habían fallado mientras que otros no. La siguiente tabla muestra una lista parcial de los datos de este archivo: Distance (Distancia) Censores (Censurado) 6700 0 6950 1 7820 1 8790 1 9120 0 9660 1 9820 1 11310 1 11690 1 11850 1 11880 1 12140 1

El archivo contiene 11 observaciones que corresponden a amortiguadores de choque que han fallado. Los datos de estos amortiguadores son tiempos de falla. El archivo también contiene 27 amortiguadores que no hay fallado. Estos datos representan información censurada por la derecha en los tiempos de falla de estos amortiguadores, ya que la verdadera distancia de falla es más grande que el número registrado.

Cuando analizamos datos censurados, STATGRAPHICS requiere que crees una columna con un indicador de censura, definida por:

0 si el valor no ha sido censurado

1 si el valor es censurado por la derecha (el valor verdadero es más grande) -1 si el valor es censurado por la izquierda (el valor verdadero es más pequeño)

(2)

Entrada de Datos

Los datos que serán analizados consisten de una columna numérica que contiene n observaciones

y una segunda columna que contiene indicadores de censura.

• Datos: columna que contiene las n observaciones que serán ajustadas. El número de datos no

perdidos debe ser al menos tan grande como el número de parámetros que serán estimados.

• Censura: columna que contiene los indicadores de censura. Esta columna debería contener un 0 para cualquier renglón en el que el dato no sea censurado, un 1 si es censurado por la derecha y -1 si es censurado por la izquierda.

Resumen del Análisis

El Resumen del Análisis muestra el número de observaciones, los rangos de los datos, y los

valores de los parámetros estimados para cada distribución que es ajustada a los datos. Datos Censurados - Distance

Datos/Variable: Distance Censura: Censored

38 valores con rango desde 6700.0 a 28100.0 Número de observaciones censuradas a la izquierda: 0 Número de observaciones censuradas a la derecha: 27 Distribuciones Ajustadas

Normal Valor Extremo Inferior Weibull

media = 24570.9 modo = 26896.4 forma = 3.16047 desviación estándar = 8356.32 escala = 5668.58 escala = 27718.7

Los parámetros desplegados dependen de la distribución seleccionada (ver la documentación del procedimiento Distribuciones de Probabilidad). Los estimadores son obtenidos usando

(3)

Estimación de Máxima Verosimilitud (EMV). Puedes ajustar entre1 y 5 distribuciones al mismo tiempo usando Opciones del Análisis.

En la tabla anterior, 3 distribuciones han sido ajustadas a n = 38 distancias. La distribución normal es definida por su media y desviación estándar. La distribución de valores extremos para mínimos es definida por su moda y el parámetro de escala. La distribuciónWeibull esta definida

por un parámetro de forma y un parámetro de escala. Opciones del Análisis

• Distribución: selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución es descrita en detalle en la documentación de Distribuciones de Probabilidad. Para ayudar a

determinar cual distribución ajusta, el panel Comparación de Distribuciones Alternas

descrito abajo puede ser de gran ayuda. Las siguientes tablas pueden ser también de ayuda. Distribuciones Discretas

Distribución Rango de los Datos Uso común

Bernoulli 0 o 1 Modelo para eventos con solo dos posibles resultados.

Binomial 0, 1, 2, …, m Numero de éxitos en m ensayos Bernoulli.

Uniforme Discreta a, a+1, a+2, …, b Modelo para enteros con limites fijos

Geométrica 0, 1, 2, … Numero de ensayos hasta el primer éxito Bernoulli.

Hipergeométrica 0, 1, 2, …, m Conteo cuando se muestrea de una población

finita.

Binomial Negativa 0, 1, 2, … Numero de ensayos hasta el k-esimo éxito Bernoulli.

(4)

Distribuciones Continuas

Distribución Rango de los Datos Uso común

Beta 0 ≤ X ≤ 1 Distribución de una proporción aleatoria. Beta (4-parámetros) a ≤ X ≤ b Modelo para datos con umbrales superior e

inferior.

Birnbaum-Saunders X > 0 Tempo de Fallas.

Cauchy all real X Medidas que exhiben colas pesadas. Chi-Cuadrada X ≥ 0 Distribución de referencia para la varianza

muestral.

Erlang X > 0 Tiempo entre k arribos en un proceso Poisson.

Exponencial X > 0 Tiempo entre consecutivos eventos Poisson.

Exponencial(2-parms)

X > a Tiempos de vida con umbral inferior fijo. Exponencial power all real X Datos simétricos con kurtosis variable.

F X ≥ 0 Razón de dos estimadores de varianzas

independientes.

Folded Normal X ≥ 0 Valores absolutos de datos de una distribución normal

Gamma X ≥ 0 Modelo para medidas positivamente sesgada. Gamma

(3-parámetros) X ≥ a Datos positivamente sesgados con umbral inferior. Gamma

Generalizada X > 0 Incluye varias distribuciones con casos especiales. Logística

Generalizada

All real x Usada para el análisis de valores extremos. Normal Truncada X ≥μ Datos normales doblados alrededor de su media. Gausiana Inversa X > 0 Primer paso de tiempo en el movimiento

Browniano.

Laplace todos los reales X Datos con picos pronunciados y colas pesadas. Valores Extremos

Máximos todos los reales X Valores más grandes en una muestra.

Logistica todos los reales X Modelo de crecimiento; alternativa común a la normal.

Loglogistica X > 0 Logs de datos de una distribución logística. Loglogistica

(3-parámetros)

X > a Logs de datos con umbral inferior fijo. Lognormal X > 0 Datos positivamente sesgados.

Lognormal (3-parámetros)

X > a Datos positivamente sesgados con umbral inferior.

Maxwell X > a Velocidad de una molécula en un gas ideal. Chi-cuadrada No

central X ≥ 0

Calculo de potencia de una prueba chi-cuadrada. F No central X ≥ 0 Calculo de potencia de una prueba F.

t No central todos los reales X Calculo de potencia de una prueba t Normal todos los reales X Datos con muchas fuentes de variabilidad. Pareto X ≥ 1 Cantidades socio-económicas con colas pesadas

en la derecha

(5)

parámetros) inferior. Rayleigh X > a Distancia entre objetos vecinos.

Valores Extremos Mínimos

todos los reales X Valore más pequeños en una muestra. t de Student todos los reales X Distribución de referencia para la media. Triangular a ≤ X ≤ b Modelo áspero en ausencia de datos. Uniforme a ≤ X ≤ b Datos con la misma probabilidad sobre un

intervalo.

Weibull X ≥ 0 Tiempo de vida de productos. Weibull

(3-parámetros) X ≥ a

Tiempo de vida de productos con umbral inferior.

• Ensayos Binomial – cuando se ajusta la distribución binomial, debes especificar el tamaño de la muestra n.

• Ensayos Hypergeométrica – cuando se ajusta la distribución hypergeométrica, puedes especificar el tamaño de la muestra n. puedes especificar el parámetro tamaño de la

población N o estimarlo de los datos.

• Ensayos Binomial Negativa– cuando se ajusta la distribución binomial negativa, puedes especificar el parámetro k o estimarlo de los datos.

• Parámetros del umbral extendidos– cuando se ajusta distribuciones que tienen uno o mas parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las distribuciones relevantes son:

Beta (4-parámetros) – inferior y superior

Exponencial (2-parámetros) – inferior solamente Normal truncada (2-parámetros) – inferior solamente Gamma (3-parámetros) – inferior solamente

loglogistica (3-parámetros) – inferior solamente lognormal (3-parámetros) – inferior solamente Maxwell (2-parámetros) – inferior solamente Pareto (2-parámetros) – inferior solamente Rayleigh (2-parámetros) – inferior solamente Weibull (2-parámetros) – inferior solamente

(6)

Prueba de Bondad-de-Ajuste

El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es

razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las hipótesis de interés son:

• Hipótesis Nula: los datos son muestras independientes de la distribución especificada

• Hipótesis Alternativa: los datos no son muestras independientes de la distribución especificada

La prueba que será corrida es seleccionada usando las Opciones del Panel. Pruebas de Bondad-de-Ajuste para Distance

Prueba de Kolmogorov-Smirnov

Normal Valor Extremo Inferior Weibull

DMAS 0.0760417 0.0818301 0.0901357

DMENOS 0.0903629 0.122783 0.087023

DN 0.0903629 0.122783 0.0901357

Valor-P 0.915578 0.615589 0.917047

Las prueba de bondad-de-ajuste es descrita con detalle en la documentación de Ajustando Distribución (Datos No Censurados). Para datos censurados, las pruebas son modificadas de

forma que dependan de cómo los datos fueron censurados. Usando las Opciones del Panel, se

puede seleccionar entre 3 tipos de censura: Aleatoria, Tipo I, o Tipo II, situadas en dicho panel.

Modificaciones para las pruebas son descritas en las secciones de cálculos al final de este documento.

De acuerdo a la prueba desplegada en la tabla anterior, cualquiera de las 3 distribuciones ajusta bien los datos, ya que los P-valores son iguales o no exceden 0.10.

(7)

Opciones del Pane l

• Incluir: Seleccione una o mas pruebas a realizar. Para la prueba chi-cuadrada, selecciones

use clases equiprobables para agrupar los datos en clases con frecuencia esperadas iguales. .

Si esta opción no es elegida las clases serán creadas del Histograma de Frecuencias.

• Calculo de los P-Valores en la distribución específica – Si es seleccionado, los Valores-P serán basados en tablas o formulas específicamente desarrolladas para la distribución que es probada. De otra manera, los P-Valores serán basados en tablas o formulas generales que aplican a todas las distribuciones. La aproximación general es mas conservadora (no rechazar una distribución tan fácilmente) pero puede ser preferida cuando comparamos Valores-P entre distribuciones diferentes.

• Censura – Seleccione el tipo de censura. Los tipos son definidos:

Aleatoria – Indica que los datos han sido aleatoriamente censurados. La censura aleatoria

ocurre cuando los valores son censurados por varias razones, no caen dentro de los mecanismos Tipo I o Tipo II.

Tipo I - Indica que los datos son “censura por tiempo”, i.e., artículos han sido removidos

de una prueba en un tiempo preespecificado. Si este tipo de censura es seleccionado, todos los valores censurados deben de ser igual o un mensaje de error será generado.

Tipo II – Indica que la prueba fue detenida después de que ocurrió un número

predeterminado de fallas. Si este tipo de censura es seleccionado, todos los valores censurados deben de ser igual o un mensaje de error será generado.

(8)

Histograma de Frecuencias

El Histograma de Frecuencias muestra un histograma de los datos como un conjunto de barras

verticales, junto con la densidad de probabilidad estimada o funciones de masa. Histograma para Distance

0 0.5 1 1.5 2 2.5 3 (X 10000.0) Distance 0 2 4 6 8 fr ec ue n c ia Distribución Normal Valor Extremo Weibull

Si los datos contienen muchas observaciones censuradas, como en la grafica anterior, las distribuciones ajustadas pueden no parecer emparejar las barras.

Opciones del Panel

• Numero de Clases: El numero de intervalos en los cuales los datos serán divididos. Los intervalos son adyacentes y tienen igual anchura. El numero de intervalos en los cuales los datos serán divididos por defecto es fijado en la pestaña EDA de la caja de dialogo de Preferencias en el menú Editar.

(9)

• Limite Superior: Limite superior del primer intervalo.

• Mantener: Mantiene el número de intervalos y limites iguales aunque la fuente de datos cambie. Por defecto, el número de clases y los límites son recalculados cuando los datos cambian. Es necesario que todas las observaciones sean desplegadas por si algún dato actualizado cae más allá de los límites originales.

• Desplegar: La manera en la cual las frecuencias son desplegadas. Un Histograma escala las

barras de acuerdo al número de observaciones en cada clase. Un Rotograma escala las barras

de acuerdo a la raíz cuadrada del número de observaciones. Un Rotograma Suspendido

escala por la raíz cuadrada y suspende las barras de la curva. La idea de usar raíces cuadradas es para igualar la varianza de las desviaciones entre las barras y la curva, lo cual de otra forma incrementaría con una frecuencia creciente. La idea de suspender las barras de la curva es permitir una comparación visual sencilla con la línea horizontal graficada en 0, ya que la comparación visual con una línea curva puede ser engañosa.

Comparación de Distribuciones Alternas

Este panel automáticamente muestra una colección de distribuciones diferentes y las despliega en orden de acuerdo a que tan bien ajustan los datos.

Comparación de Distribuciones Alternas

Distribución Parámetros Est. Log Verosimilitud KS D

Weibull 2 -404.991 0.0901357

Normal 2 -406.4 0.0903629

Logística 2 -408.408 0.103344

Laplace 2 -413.516 0.108477

Valor Extremo Inferior 2 -409.469 0.122783 Valor Extremo Superior 2 -405.653 0.128409

Gamma 2 -404.845 0.128419 Loglogística 2 -406.131 0.131113 Lognormal 2 -405.125 0.155015 Uniforme 2 -400.338 0.159942 Exponencial 1 -427.009 0.329046 Pareto 1 -510.249 0.448162 La tabla muestra:

• Distribución – El nombre de la distribución ajustada. Tú puedes seleccionar distribuciones adicionales usando las Opciones del Panel.

• Parámetros Est. – El numero de parámetros estimados para esta distribución.

• Log Verosimilitud – El logaritmo natural de la función de verosimilitud. Valores mas grandes tienden a indicar mejores ajustes de las distribuciones.

• KS D, A^2, y otras estadísticas – Valores de varias estadísticas de bondad-de-ajuste, seleccionadas usando el botón Pruebas en la caja de dialogo de las Opciones del Panel. Valores mas pequeños tienden a indicar mejores ajustes de las distribuciones.

Las distribuciones son ordenadas de mejor a peor de acuerdo a una de las columnas de bondad-de-ajuste. Esta columna es seleccionada usando el botón Pruebas en la caja de dialogo de las Opciones del Panel. La tabla anterior muestra las distribuciones ordenadas de acuerdo al valor de

(10)

la estadística Kolmogorov-Smirnov D. De acuerdo a esta estadística, la distribución de valores extremos para mínimos ajusta mejor

• Distribución: Seleccione las distribuciones que ajustaran los datos. Las distribuciones seleccionadas actualmente son transparentadas ya que ellas siempre estarán incluidas.

• Más Común – Presionar este botón para seleccionar las distribuciones mas comúnmente usadas (continuas).

• Todas Discretas – Presionar este botón para seleccionar todas las distribuciones discretas.

• Todas Continuas – Presionar este botón para seleccionar todas las distribuciones continuas.

• Localización-Escala – Presionar este botón para seleccionar todas las distribuciones que son parametrizadas por un parámetro de localización (como la media) y uno de escala (como la desviación estándar).

• Umbral - Presionar este botón para seleccionar todas las distribuciones que contienen un parámetro umbral inferior.

• Todas – Presionar este botón para seleccionar todas las distribuciones.

• Limpiar – Presionar este botón para deseleccionar todas las distribuciones.

• Pruebas – Presionar este botón para desplegar la caja de dialogo usada para especificar las estadísticas deseadas de bondad-de-ajuste:

(11)

• Incluir – Las estadísticas de bondad-de-ajuste que serán incluidas en la tabla. La lista incluye funciones de verosimilitud y varias estadísticas desplegadas en el panel Bondad-de-ajuste.

• Ordenar Por – Seleccione una de las estadísticas para ordenar las distribuciones de mejor a peor.

Gráfico Cuantil

El Gráfico Cuantil muestra la fracción de observaciones en o por debajo de X, junto con la

función de distribución de acumulación de la distribución ajustada.

Gráfico Cuantil 0 0.5 1 1.5 2 2.5 3 (X 10000.0) Distance 0 0.2 0.4 0.6 0.8 1 p ro b a b ilid a d a c u m u la d a Distribución Normal

Valor Extremo Inferior Weibull

Para crear la grafica, los datos son ordenados del más pequeño al más grande y los valores no censurados son graficados en las coordenadas

( )

(12)

donde pi son las probabilidades de Kaplan-Meier. Las probabilidades de Kaplan-Meier son calculadas de acuerdo a

∏

≤ ∈ ⎟⎟⎠ ⎞ ⎜⎜ ⎝ ⎛ + − − + − − + − + − − = i j S j i R n j c c j n c n c n p 2 1 1 2 1 1 (2)

para todas las observaciones no censuradas mayores que el valor mas grande de los datos censurados por la izquierda, donde SR es el conjunto de todos los valores los cuales no son

censurados por la derecha, y

∏

≥ ∈ ⎟⎟⎠ ⎞ ⎜⎜ ⎝ ⎛ + − − + − + − = i j S j i L j c c j c n c n p 1 1 2 1 (3)

para todas las observaciones no censuradas menores o iguales a el valor mas grande de los datos censurados por la izquierda, donde es el conjunto de todos los valores los cuales no son censurados por la izquierda, y c = 0.3175.

Idealmente, los puntos deberían estar cerca de la línea de la distribución ajustada, como es el caso en la grafica anterior

Áreas de Cola

Este panel muestra el valor de la distribución de acumulación hasta en 5 valores de X.

Áreas de Cola para Distance Área Cola Inferior (<=)

X Normal Valor Extremo Inferior Weibull

10000.0 0.040606 0.0494898 0.0390841

20000.0 0.29219 0.256386 0.299858

30000.0 0.74206 0.822526 0.723066

40000.0 0.967583 0.999959 0.958716

50000.0 0.998829 1.0 0.998423

Área Cola Superior (>)

X Normal Valor Extremo Inferior Weibull

10000.0 0.959394 0.95051 0.960916 20000.0 0.70781 0.743614 0.700142 30000.0 0.25794 0.177474 0.276934 40000.0 0.0324166 0.000041464 0.0412835 50000.0 0.00117082 0.0 0.00157716 La tabla muestra:

• Área de Cola Inferior – La probabilidad de que la variable aleatoria sea menor o igual a X.

• Área de Cola Superior – La probabilidad de que la variable aleatoria sea mayor o igual a X.

(13)

Por ejemplo, la probabilidad de ser menor o igual a X = 10,000 para la distribución normal es

aproximadamente 0.0406.

• Valores Críticos: Valores de X en los cuales la probabilidad acumulada será calculada.

Valores Críticos

Este panel calcula el valor de una variable aleatoria X debajo del cual yace una probabilidad especificada.

Valores Críticos para Distance

Área Cola Inferior (<=) Normal Valor Extremo Inferior Weibull

0.01 5131.13 820.116 6466.15

0.1 13861.8 14140.0 13600.0

0.5 24570.9 24818.8 24683.6

0.9 35279.9 31624.2 36089.5

0.99 44010.6 35553.4 44939.6

La tabla muestra los valores mas pequeños de X tal que la probabilidad de ser menor o igual a X es al menos el área de cola deseada. La tabla anterior muestra que la c.d.f. de una distribución normal ajustada es igual a 0.01 en X = 5,131.13.

(14)

• Áreas de Cola: Valores de la c.d.f. por lo menos para determinar porcentajes de las distribuciones ajustadas.

Gráfico Cuantil-Cuantil

El gráfico Cuantil-Cuantil muestra la fracción de observaciones en o por debajo de X graficadas

versus los percentiles equivalentes de las distribuciones ajustadas.

Gráfica Cuantil-Cuantil 0 0.5 1 1.5 2 2.5 3 (X 10000.0) Normal distribución 0 0.5 1 1.5 2 2.5 3 (X 10000.0) Di s ta n ce Distribución Normal

Una distribución, seleccionada usando Opciones del panel, es usada para definir el eje X y es

representada por la línea diagonal. Las otras son representadas por curvas.

En la grafica anterior, la distribución ajustada normal ha sido usada para definir el eje X. Con una muestra pequeña, es muy difícil elegir entre las distribuciones.

• Distribución de Escala para el Eje X: La distribución usada para escalar el eje horizontal, correspondiente a la línea diagonal.

• Resolucióndel Eje X: El número de valores de X en los cuales las funciones son graficadas. Incrementa este valor si las líneas no son suficientemente suaves.

(15)

Funciones de Distribución 1 y 2

Estos dos paneles grafica varias funciones para las distribuciones ajustadas.

Función de Densidad 0 1 2 3 4 5 6 (X 10000.0) Distance 0 2 4 6 8 (X 0.00001) d ens idad Distribución Normal

Usando Opciones del Panel, se pueden graficar cualquiera de las siguientes:

1. Densidad de Probabilidad o función de masa 2. Función de Distribución Acumulada

3. Función de Supervivencia 4. Log Función de Supervivencia 5. Función de Riesgo

Para las definiciones de estas funciones, ver la documentación para Distribuciones de Probabilidad.

• Graficar: La función a graficar.

• Resolucióndel Eje X: El número de valores de X en los cuales las funciones son graficadas. Incrementa este valor si las líneas no son suficientemente suave.

(16)

Cálculos

Estimación de Parámetros

Los estimadores de los parámetros son obtenido usando Estimación de Máxima Verosimilitud (EMV), donde la función de verosimilitud es dada por

∏

= = n i i x l L 1 ) ( (4) y ⎪ ⎩ ⎪ ⎨ ⎧ − = ) ( 1 ) ( ) ( ) ( i i i i x F x f x F x l if xi is censored right uncensored censored left − − (5)

Prueba Chi-Cuadrada – Cuando realizamos esta prueba, después de que los intervalos iniciales son construidos, todas las clases incluyendo la observación más grande de las censuradas por la izquierda son combinadas en una sola clase inferior. Adicionalmente, todas las clases incluyendo la las observación mas pequeña de las censuradas por la derecha son combinadas en una sola clase superior. En algunos casos, esto puede no dejar suficientes clases para realizar la prueba.

Prueba EDF – Para la prueba Kolmogorov-Smirnov y otras pruebas EDF, las pruebas son realizadas modificando la c.d.f. empírica. Para censura aleatoria, las estadísticas

Kolmogorov-Smirnov y Kuiper son calculadas remplazando la simple función de pasos i/n por el estimador

de Kaplan-Meier 0 ) (x = F_n , x < x(1) (6)

∏

≤ ∈ ⎟⎟⎠ ⎞ ⎜⎜ ⎝ ⎛ + − − − x x S j j j n j n ) ( 1 1 , x(1) ≤ x ≤ x(n) (7) 1 x > x(n) (8)

donde S es el conjunto de todas las observaciones no censuradas. Ninguna de las otras

estadísticas son calculadas en este caso. Para la censura de Tipo I y Tipo II, la muestra de los

valores no censurados es transformada una muestra completa sobre la región no censurada modificando la c.d.f. ajustada de acuerdo a

A B A X F X F i i ₋ − = ˆ( ) ) ( ˆ* (9)

Para la censura de Tipo I, A es la c.d.f. ajustada evaluada en los valores de censura inferior (si hay), mientras que B es la c.d.f. ajustada evaluada en los valores de censura superior (si hay). Para la censura de Tipo II, A es la fracción de las observaciones que son censuradas por la izquierda, y B es la fracción de las observaciones que son censuradas por la derecha. Las

(17)

formulas usuales e.d.f. son entonces usadas, remplazando n por el numero de datos no

censurados y definiendo

( )

i

i F x