FIABILIDAD (VII): MODELOS DE REGRESIÓN
PARA OBSERVACIONES CENSURADAS
Autores: Ángel A. Juan Pérez ([email protected]), Rafael García Martín ([email protected]).RELACIÓN CON OTROS MATH-BLOCS__________________________________
Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la Fiabilidad de componentes desde un punto de vista estadístico:
• Conceptos Básicos (I).
• Identificación y descripción gráfica de los datos (II). • Análisis paramétrico de los tiempos de fallo (III). • Análisis no paramétrico de los tiempos de fallo (IV). • Comparación no paramétrica de muestras (V). • Tests de vida acelerada (VI).
• Modelos de regresión para observaciones censuradas (VII). • Análisis Probit (Éxito / fracaso) (VIII).
ESQUEMA DE CONTENIDOS___________________________________________
Fiabilidad (VII): Modelos
de regresión para obs.
censuradas
Ejemplo reg. múltiple con obs. cens. (Minitab) Regresión múltiple
INTRODUCCIÓN_____________________________________________________
En cualquier investigación sobre análisis de fiabilidad puede resultar de sumo interés identificar aquellas variables que estén correlacionadas con los tiempos de fallo. Básicamente, hay dos razones por las cuales este proceso de identificación no se puede realizar utilizando las técnicas comunes de regresión múltiple:
1) La variable dependiente (tiempos de fallo) no suele distribuirse de forma normal (condición necesaria para aplicar regresión por mínimos cuadrados).
2) La existencia de observaciones censuradas
El objetivo de la regresión con observaciones censuradas será encontrar una expresión matemática que nos describa el tiempo de fallo de una determinada proporción de unidades (percentil de T ó Tp) en función de una o varias v.a. independientes (temperatura, horas de trabajo al día, grupo a que pertenecen los datos, etc.).
Para llevar a cabo de forma efectiva estos tests de vida acelerada, será conveniente recurrir a software especializado. En este capítulo se hará uso del programa MINITAB a fin de ejemplificar con casos prácticos los conceptos involucrados en este tipo de estudios.
REGRESIÓN MÚLTIPLE CON OBS. CENSURADAS_________________________
Por defecto, MINITAB usará un modelo de regresión lineal a la hora de explicar la relación existente entre las variables independientes X1, X2, ..., Xn y la variable dependiente Tp (percentil de orden p de T). Sin embargo, es posible construir modelos no lineales sin más que transformar las variables explicativas del modelo.
Además, según la distribución que sigan los tiempos de fallo T (exponencial, Weibull, etc.), puede resultar conveniente (ver tabla) realizar alguna de las siguientes transformaciones del percentil Tp:
( )
p p( )
pp p
p T Y Ln T Y Log T
Y = ; = ; = 10
El modelo de regresión lineal múltiple tendrá pues la forma:
p n n p b b X b X Y = 0+ 1⋅ 1 +...+ ⋅ +σ⋅ε donde:
• b0, b1, ..., bn son el término independiente y los coeficientes de regresión
• σ = parámetro de escala (escala = 1 / forma)
• εp = percentil de orden p de la distribución de los residuos (ε), la cual vendrá determinada por la distribución de T (ver tabla).
En la tabla siguiente se relaciona la distribución de los tiempos de fallo T con: 1) Las transformaciones idóneas para Tp , y
Yp Distrib. de tiempos de fallo (T) Distrib. de ε
Weibull exponencial
valores extremos (0,1)
log-normal base e normal (0,1)
Ln Tp
log-logística logística (0,1)
Log10 Tp log-normal base 10
normal
normal (0,1) valores extremos valores extremos (0,1) Tp
logística logística (0,1)
EJEMPLO REGRESIÓN MÚLTIPLE CON OBS. CENSURADAS________________
Continuando con el ejemplo de las capas aislantes para motores (ver el math-block Fiabilidad VI), supóngase ahora que se desean estimar los tiempos en que una determinada proporción de protecciones aislantes fallan, en función no sólo de las temperaturas, sino también de la planta donde fueron construidas (planta 1 o planta 2), i.e., se buscará una expresión de la forma:
p
p a bX cX
Y = + 1+ 2+σ⋅ε
Entrada de datos (input): se debe indicar la variable donde se han registrado los tiempos de fallo T, la distribución que siguen dichas observaciones, y las variables independientes del modelo (en este caso ArrTemp X1 y Planta X2). Indicaremos también la columna de censura y aquellas columnas donde se guardan los valores de las variables independientes para los cuales se desean hacer predicciones (ArrNuevaT y NuevaPlant).
Finalmente, se pedirá un gráfico de probabilidad para los residuos, a fin de estimar si la distribución escogida es o no adecuada:
Salida de datos (output):
Regression with Life Data: T versus ArrTemp; Planta Response Variable: T
Censoring Information Count Uncensored value 66 Right censored value 14 Censoring value: Censura = C
Estimation Method: Maximum Likelihood Distribution: Weibull
Regression Table
Standard 95,0% Normal CI Predictor Coef Error Z P Lower Upper Intercept -15,1603 0,9468 -16,01 0,000 -17,0160 -13,3047 ArrTemp 0,83925 0,03397 24,71 0,000 0,77267 0,90584 Planta -0,18077 0,08457 -2,14 0,033 -0,34652 -0,01501 Shape 2,9431 0,2707 2,4577 3,5244 Log-Likelihood = -562,525
Anderson-Darling (adjusted) Goodness-of-Fit Standardized Residuals = 0,5078
Table of Percentiles
Información sobre la distribución elegida
Valores estimados de a, b1, b2, y 1/σ (shape=1/scale), así como los p-valores asociados al test con H0: “el coeficiente es 0” (i.e., no tiene razón de existir en el modelo)
Predicciones (basadas en el modelo creado) para los tiempos de fallo del 50% de dispositivos bajo los valores de temperatura y planta indicados: (80º,1), (80º,2),(100º,1),y (100º,2)
La tabla de regresión proporciona los coeficientes del modelo. En este caso, dado que se ha usado una Weibull, la ecuación del modelo sería:
p p ArrTemp Planta T Ln =− + ⋅ − ⋅ + ε 9431 , 2 1 18077 , 0 83925 , 0 1603 , 15
donde la variable Planta puede tomar los valores 1 ó 2, y ε sigue una distrib. de valores extremos (0,1).
A partir de los p-valores asociados a cada coeficiente (0,000 para ArrTemp, y 0,033 para Planta), los cuales son significativos para α = 0,05, se puede afirmar que: (1) la temperatura influye de forma decisiva sobre los tiempos de fallo (más altas temperaturas significan menor tiempo hasta el fallo), y (2) la calidad de la capa aislante dependerá de la planta de producción en la que fue construida (las capas aislantes fabricadas en la planta 1 duran más).
La tabla de percentiles muestra el percentil de orden 50 asociado a cada combinación de temperatura y planta de producción. Dado que este percentil es una buena aproximación a la esperanza de vida de una unidad, es posible pronosticar lo siguiente: a 80º C, las protecciones fabricadas en la planta 1 durarán unas 182.093,6 horas (o 20,77 años), mientras que la duración esperada de las de la planta 2 será de tan sólo 151.980,8 horas (17,34 años). Análogas conclusiones se pueden extraer para una temperatura de 100º C.
Aunque MINITAB hace todos los cálculos de forma automática, resulta interesante entender cómo el programa obtiene sus predicciones a partir del modelo. Por ejemplo, para una protección fabricada en la planta 1 (Planta = 1), y sometida una temperatura de 80º C (ArrTemp = 32,85998), el modelo anterior sería:
p p
T
Ln =−15,1603+0,83925⋅32,85998−0,18077⋅1+0,33978⋅ε
Se sabe que los residuos siguen en este caso una distribución de valores extremos (0,1), cuya f.d. viene dada por:
{ }
ex x X P x F( )= ( ≤ )=1−exp−Por tanto, el percentil de orden 50 de esta distribución será:
0,50 = P(X <= ε50) = 1-exp{-exp{ε50}} Æε50 = -0,36651
Finalmente, sustituyendo en la expresión del modelo y tomando exponenciales, se obtiene el valor para T50 de 182.093,6 horas que aparece en la tabla de percentiles.
están “suficientemente” cerca de la recta de probabilidad, por lo que se puede dar por bueno el ajuste mediante la Weibull:
BIBLIOGRAFÍA______________________________________________________
[1]. Hager, H. W., and L. J. Bain. 1970. Inferential procedures for thegeneralized gamma distribution J. Am. Stat. Assoc. 65: 1601-1609.
[2]. Harter, H. L. 1967. Maximum-likelihood estimation of the parametersof a four-parameter generalized gamma population for complete and censored samples. Technometrics 9: 159-165.
[3]. Kaplan, E. L., and P. Meier. 1958. Nonparametric estimation from incomplete observations. J. Am. Stat. Assoc. 53: 457-481.
[4]. Nelson, W. 1990. Accelerated Testing: Statistical Models, Test Plansand Data Analyses. John Wiley. pp: 75-85.
[5]. Nelson, W. B., and G. J. Hahn. 1972. Linear estimation of regression relationships from censored data, Part I-Simple methods and their application (with discussion). Technometrics 14: 247-276.
[6]. Stacy, E.W., and G. A. Mihram. 1965. Parameter estimation for a Generalized Gamma distribution. Technometrics 7: 349-358.
[7]. Stacy, E. W. 1962. A generalization of the Gamma distribution. Ann.Math. Stat. 33: 1187-1192.
[8]. Parr, V. H., and J. T. Webster. 1965. A method for discriminating between failure density functions used in reliability predictions.Technometrics 7: 1-10.
[9]. Prentice, R. L. 1974. A Log Gamma Model and its maximum likelihood estimation. Biometrika 61: 539-544.
[10]. Farewell, V. T., and R. L. Prentice 1977. A study of distributional shape in life testing. Technometrics 19: 69-75. -8 -4 0 0,1 1 2 3 5 10 20 30 40 50 60 70 80 90 95 99 99,9 Standardized Residuals P er cent
Probability Plot for SResids of T Extreme value Distribution - ML Estimates - 95,0% CI
Censoring Column in Censura
Failure Censor AD* 66 14 0,5078
ENLACES___________________________________________________________
Los siguientes artículos son un excelente material para quien desee profundizar más sobre este tema:
[W1] http://www.colpos.mx/agrocien/Bimestral/2000/jul-ago/art-9.pdf