1. Funciones básicas y distribuciones
1.1 Definición de tiempos de falla ¿Qué es el análisis de supervivencia?. Es el análisis estadístico de datos de tiempo a la ocurrencia de un evento (time to event data), o mejor dicho tiempo entre la ocurrencia de dos eventos, inicio y fin. Por lo general estos tiempos se conocen como tiempos de vida, tiempos de supervivencia o tiempos de falla, dependiendo de la aplicación. Las posibles aplicaciones del análisis de supervivencia son: o Biomédicas: tiempos de recuperación de un paciente, tiempos de vida de pacientes con cierta enfermedad, tiempo en que aparece un tumor, tiempo de recaída de una enfermedad, etc. o Industriales: duración de aparatos electrónicos hasta que presentan la primera falla, duración de un billete, etc. o Financieros y económicos: períodos de desempleo, pérdida económica entre dos eventos, etc. Independientemente de las unidades de medición del “tiempo” (discretas o continuas). Los datos de tiempo a la ocurrencia de un evento sonrealización de de variables aleatorias no negativas. En este sentido el análisis de supervivencia se puede entender como el análisis de variables aleatorias no negativas. Los tiempos de falla, o de vida, deben de estar determinados de manera precisa. Es decir, necesitamos definir un evento de origen, una escala de
medición y un evento de fin para cada individuo. El evento de origen no
necesita ocurrir en el mismo tiempo calendario para todos los individuos. Ejemplos:
o En ensayos clínicos, el evento de origen puede ser la entrada del paciente al estudio y el evento de fin puede ser la recuperación o a muerte.
o En aplicaciones industriales, el evento de origen puede ser el momento de creación del billete o el momento en el que sale a circulación, y el evento de fin puede ser el momento en el que llega al banco central como deteriorado, o el momento en el que se decide destruir. o La escala de medición por lo general es el tiempo real, aunque también se puede considerar como el tiempo de operación de un sistema, o el kilometraje de un auto.
Algo que caracteriza al análisis de supervivencia de otros análisis estadísticos es la presencia de información parcial. Es decir, en algunos
casos no se conocerá de manera exacta el valor observado de la variable de interés T, sino que solo se tendrá cierta información parcial. La información parcial se clasifica en dos tipos: censura y truncamiento. A su vez estos dos tipos pueden ocurrir por la derecha o por la izquierda. 1.2 Ejemplos de datos de supervivencia A continuación se presentan algunos ejemplos de datos de supervivencia. Estos ejemplos fueron obtenidos de Klein & Moeshberger (1997). EJEMPLO 1: Duración de remisión de un ensayo clínico para leucemia aguda.
Resultados de un ensayo clínico en donde se quería compara la efectividad de la droga 6‐MP versus placebo en 42 niños con leucemia aguda. El evento de inicio es remisión parcial de la enfermedad después de haber sido tratados con la droga prednisone. El evento de fin es recaída o muerte. La escala de medición es tiempo calendario en meses. Algunos individuos no presentaron el evento de fin al término del estudio. Estos casos son marcados con un + y son llamados censurados por la derecha. Más adelante los veremos con detalle.
EJEMPLO 2: Transplante de médula ósea en pacientes con leucemia.
Transplante de médula es un procedimiento estándar en pacientes con leucemia aguda. La recuperación después del transplante es un proceso complejo. La prognosis para la recuperación puede depender de factores que se conocen al momento del transplante, como edad y sexo del paciente y donador, etapa de la enfermedad inicial, tiempo entre el diagnóstico y el transplante, etc. La prognosis final depende de cómo evoluciona el paciente después del transplante. Puede generar aversión o
rechazo de la medula transplantada (GVHD), que el conteo de plaquetas se vuelva normal o desarrollar infecciones, etc. El transplante se considera fracaso cuando el paciente recae o muere.
EJEMPLO 3: Tiempos de muerte de adultos mayores residentes de un asilo. Channing House es una casa de retiro en California. Datos con las edades de muerte de 462 individuos (97 hombres y 365 mujeres) que estuvieron en la residencia durante el periodo de enero de 1964 y julio de 1975. Se reportó la edad a la muerte o al momento en que se salían del asilo (en meses) y la edad a la que los individuos entraron al asilo.
Estos datos son un ejemplo de truncamiento por la izquierda que más adelante veremos con detalle. Un individuo tiene que sobrevivir lo suficiente para estar en edad de entrar al asilo. Individuos que mueren previamente a la edad de retiro son excluidos del estudio.
EJEMPLO 4. Tiempo al primer uso de marihuana. En este estudio a 191
estudiantes de preparatoria se les preguntó: ¿Cuál fue la primera vez que probaste la marihuana?. Las respuestas fueron, “la edad exacta a la que la probaron”, “nunca la he probado”, y “la probé pero no recuerdo cuando
fue la primera vez”. En este último caso tenemos una censura por la izquierda. El evento de interés ha ocurrido en algún momento previo a la edad actual del estudiante!.
EJEMPLO 5. Tiempo a desarrollar sida. Se reportan datos con tiempos de
infección y de inducción para 258 adultos y 37 niños que fueron infectados con el virus del VIH y desarrollaron sida antes del 30 de junio de 1986. Los datos consisten de los tiempos (en años) desde que adultos fueron infectados por el virus por transfusión de sangre contaminada, y el tiempo de espera hasta el desarrollo de sida. Para la población pediátrica, los niños fueron infectados en útero o al nacer. El tiempo base de medición es el 1 de abril de 1978.
En este estudio, sólo los individuos que han desarrollado sida antes del término del estudio son considerados. Individuos que no han desarrollado sida no son incluidos en el estudio. Este tipo de datos es llamado truncados por la derecha y más adelante los veremos con detalle.
1.3 La función de supervivencia y la función de riesgo
Como se mencionó anteriormente, el análisis de supervivencia es el estudio de variables aleatorias no negativas. Sea T una v. a. no negativa que puede ser discreta o continua.
De los cursos de probabilidad recordamos que toda variable aleatoria T es caracterizada por su función de densidad f(t) o por su función de distribución (acumulada) F(t). Dependiendo si T es una variable aleatoria discreta o continua tenemos la siguiente relación entre f(t) y F(t)
discreta v.a. es T si , ) u ( f continua v.a. es T si , du ) u ( f t T P t F t 0 u t 0 , y de manera inversa,
discreta v.a. es T si , t F t F continua v.a. es T si , t F dt d t f ,donde F
t es un límite por la izquierda definido como
t limF
t u
F 0 u . En análisis de supervivencia existen otras funciones más útiles y más interpretables que las funciones de densidad y de distribución. Estas son
la función de supervivencia, denotada por S(t), y las funciones de riesgo (tasa o intensidad y acumulada), denotadas por h(t) y H(t) respectivamente.
FUNCIÓN DE SUPERVIVENCIA.
La función de supervivencia S(t) es la función más importante para describir el comportamiento de tiempos de falla y se define como la probabilidad de que un individuo sobreviva más allá del tiempo t, es decir, la probabilidad de que un individuo presente su evento de fin en un tiempo posterior a t. En notación matemática tenemos,
t P T t
1 F
tS .
¿Cómo se interpreta una función de supervivencia?. Como presentar el evento de fin no es algo necesariamente bueno, es preferible tener una probabilidad mayor de que el evento de fin ocurra posterior al tiempo t.
Las funciones de supervivencia pueden diferir en forma, pero todas mantienen las mismas propiedades básicas: i. Son monótonas no crecientes, ii. iguales a uno al tiempo cero y tienden a cero cuando el tiempo tiende a infinito. La tasa de decaimiento de las funciones de supervivencia varía de acuerdo al riesgo de presentar el evento de fin. Eventos más riesgosos presentan una tasa de decaimiento mayor.
A continuación presentamos una figura con ejemplos de funciones de supervivencia:
La función de riesgo es una función fundamental en análisis de supervivencia. Se le conoce también como la tasa de falla condicional en análisis de confiabilidad, tasa de mortalidad en demografía o función de intensidad en procesos estocásticos.
Como el tratamiento y la interpretación de la función de densidad es distinto dependiendo si la v. a. T es discreta o continua, definiremos la función de riesgo por separado en los casos discreto y continuo.
FUNCIÓN DE RIESGO DISCRETA.
Sea T una v. a. discreta con soporte en
u1,u2,
. La función de riesgo discreta se define como la probabilidad condicional de presentar el evento de fin en el tiempo t, dado que se ha sobrevivido al tiempo t. Se denota por h(t). En notación matemática,
t P
T tT t
h .o Sea hk la función de riesgo en el tiempo uk, la cual se puede obtener a
través de la función de densidad y de la función de supervivencia como
1 k k k k k k u S u f u T P u T P u h h ,o Como la función de densidad se expresa en términos de la función de supervivencia como
uk Suk 1
Suk f , entonces
kk1
k u S u S 1 h , por lo tanto
t u : k k t u : k k. 1 k k k h 1 u S u S t S .o De la misma manera, la función de densidad en términos de la función de riesgo se obtiene como
j k k j j h 1 h u f . En demografía, la función de riesgo se interpreta como la probabilidad de morir en el momento t dado que se llegó vivo al tiempo t. Las funciones de riesgo discretas no tienen ninguna restricción más que ser no negativas. Las formas que presentan son variadas. A continuación se presentan algunos ejemplos:
FUNCIÓN DE RIESGO ACUMULADO DISCRETA.
La función de riesgo acumulado discreta es simplemente la acumulación de la función de riesgo hasta el momento t y se denota por H(t). En notación matemática,
t u : k k k h t H .Existe una definición alternativa de la función de riesgo acumulado discreta, la cual obedece a la relación que prevalece en el caso continuo. Esta es:
t u : k k k h 1 log t H . En cualquiera de las dos definiciones, las funciones de riesgo acumulado discretas son funciones monótonas no decrecientes. FUNCIÓN DE RIESGO CONTINUA.Sea T una v. a. continua con soporte en [0,). La función de riesgo continua se define como la tasa instantánea de fallo al tiempo t, dado que se ha sobrevivido al tiempo t. Se denota por h(t) al igual que en el caso discreto. En notación matemática,
t lim1P
t T t T t
h 0 , la cual puede ser expresada como
t S t f t S t F t F lim t h 0 o Al observar que f
t S'
t entonces
logS
t dt d t h al integrar ambos lados tenemos
t
0 du u h t S log finalmente, como S(0)1 obtenemos que
t 0 du u h exp t So La función de densidad en términos de la función de riesgo se expresa como
t 0 du u h exp t h t f . La expresión h
t se pude ver como la “probabilidad aproximada” de que un individuo de edad t experimente el evento de fin en el siguiente instante.
Al igual que en el caso discreto, hay muchas formas para la función de riesgo. La única restricción es que sea no negativa.
o Una función de riesgo creciente implica un envejecimiento natural.
o Una función de riesgo decreciente es menos común pero indica un rejuvenecimiento.
o Más comúnmente son las funciones de riesgo en forma de “tina de baño” que representan el riesgo de mortalidad en poblaciones que se siguen desde el nacimiento.
o Una función de riesgo en forma de montaña representaría el comportamiento del riesgo de muerte por enfermedad después de un tratamiento. A continuación se muestran algunos ejemplos:
FUNCIÓN DE RIESGO ACUMULADO CONTINUA. La función de riesgo acumulado continua es la integral hasta el momento t de la función de riesgo se denota por H(t). En notación matemática,
t
0 du u h t H . Esta función está relacionada con la función de supervivencia por
t exp
H
t
S . Si S
0, entonces H
.
Nota: Existe una formulación general de las funciones de supervivencia y riesgo que engloba a los dos casos continuo y discreto. Para ello se requiere de conocer integrales de Reimann‐Stieltjes y de las integrales‐ producto.
1.4 Algunos parámetros poblacionales
Debido a la presencia de información parcial en el Análisis de Supervivencia, es conveniente definir algunos parámetros de interés en términos de la función de supervivencia. MEDIA:
1 k k 1 k k kf u S u u T E , si T es variable aleatoria discreta, y
0 0 dt t S dt t f t T E , si T es variable aleatoria continua. En ambos casos, la última igualdad se puede obtener con un cambio de variable. VARIANZA:
2 1 k k 1 k k k 2 u S u S u 2 T Var
si T es una v.a. discreta, y
2 0 0 2 Var T 2 t S t dt S t dt
, Si t es una v.a. continua. CUANTILES DE ORDEN p: El cuantil o percentil de orden p de la variable aleatoria T, tp es el mínimo valor de t tal que
t 1 p S . Si T es v.a. continua, tp satisface
t 1 p S p . En particular, el tiempo de vida mediano es t0.5 tal que S
t0.5 0.5. VIDA MEDIA RESIDUAL: La vida media residual es un cuarto parámetro que resulta de interés en análisis de supervivencia. Para individuos de edad x, este parámetro mide la esperanza de vida que les queda. Se define como,
x S dt t S x S dt t f x t x T x T E x vmr x x
. Ejemplos:
1.5 Algunos modelos paramétricos
Existen varias familias de modelos paramétricos que se usan para el análisis de tiempos de fallo. Algunos de estos modelos son populares porque representan de manera adecuada el comportamiento aleatorio de los fenómenos y otros porque sus parámetros tienen una interpretación simple.
Dentro de las familias univariadas más importantes están: exponencial, Weibull, log‐normal, log‐logistic y gamma.
Alguna veces existe información acerca del proceso de envejecimiento o del proceso de fallo en la población que sugiere una distribución en particular, aunque por lo general esta información es muy específica como para acotar a una sola familia de modelos.
La motivación para usar un modelo en particular es, por lo general, empírica. Por ejemplo, si se ha demostrado que un modelo describe satisfactoriamente el comportamiento de los tiempos de fallo en poblaciones similares a la que se está estudiando.
1) FAMILIA EXPONENCIAL.
Debido a su importancia histórica, a su simplicidad matemática y a sus propiedades importantes, se presenta primero el modelo exponencial.
o Función de riesgo: Se caracteriza por tener una función de riesgo constante.
t h , t0, 0 o Función de supervivencia:
t e t S , t0 o Función de densidad:
t e t f , t0o Propiedad de pérdida de memoria:
T t xT t
P
T x
P , i.e., no hay desgaste. Esta es una consecuencia directa de la función de riesgo constante. o Parámetros:
1 T E , Var
T 12 c.v.
T 1
xT x E T 1 T E
1 p
log 1 tp Aunque la distribución exponencial ha sido históricamente muy popular, la función de riesgo constante es muy restrictiva en aplicaciones en salud e industria.2) FAMILIA WEIBULL.
La distribución Weibull es quizás el modelo más utilizado para tiempos de fallo. Se usa tanto para modelar tiempos de duración de piezas manufacturadas como para modelar tiempos de aparición de tumores en medicina. o Función de riesgo:
1 t t h , t0, , 0 es un parámetro de forma y es un parámetro de escala o Función de supervivencia:
t exp
t
S , t0 o Función de densidad: f t λαt exp λt , t0 o Parámetros:
T
11
1 E , Var
T
12
11
2
2, donde
1
1
1 p log 1 p 1 tsi 1, entonces es el cuantil de orden 0.632 independientemente del valor de . En ingeniería es llamado la “vida característica” de la distribución.
El modelo Weibull es suficientemente flexible para acomodar funciones de riesgo crecientes (1), decrecientes (1), o constantes (1).
3) FAMILIA LOG‐NORMAL.
La distribución log‐normal ha sido popular en el modelado de tiempos de fallo debido a su relación con el modelo normal. El tiempo de vida T se dice que sigue una distribución log‐normal, si Ylog(T) se distribuye normal con parámetros y 2. Haciendo el cambio de variable T eY obtenemos la distribución log‐normal.
o Función de densidad:
2 12 1 logt 2 2 1 exp t 2 t f , t0, , 20 donde y 2 son la media y la varianza de Ylog(T).La función de supervivencia y de riesgo dependen de (t), la función de distribución normal estándar. o Función de supervivencia:
1 logt t S , t0 o Función de riesgo:
t f t S t h , t0 o Parámetros:
T exp
2
E 2 , Var
T
exp
2 1
exp 22
,
p
p exp z
t , donde zp es el percentil de orden p de una variable
normal estándar. En particular t0.5 e.
La función de riesgo del modelo log‐normal es en forma de montaña, toma el valor de cero al tiempo t0, crece hasta alcanzar un valor máximo y luego decrece a cero conforme t.
Este modelo es criticado porque es decreciente para valores grandes de t, lo que pareciera improbable en algunas situaciones.
Este comportamiento ocurre cuando la población es una mezcla de individuos que tienden a tener tiempos de vida cortos y largos,
respectivamente. Por ejemplo, tiempo de supervivencia después de un tratamiento para algunos pacientes de cáncer, donde las personas que son curadas se convierten en sobrevivientes de periodo largo. Otro ejemplo es la duración de los matrimonios, donde después de cierto número de años, el riesgo de disolución del matrimonio por divorcio decrece.
A continuación presentamos algunos comportamientos de la función de riesgo.
4) FAMILIA LOG‐LOGÍSTICA.
Una variable aleatoria T se dice que tiene una distribución log‐logística, si su logaritmo YlogT sigue una distribución logística. La distribución logística se parece mucho a la normal, con soporte en todos los reales, pero con expresiones más sencillas. La función de densidad logística es,
2 y exp 1 y exp y f , yo Función de densidad: Haciendo el cambio de variable T eY, obtenemos la función de densidad log‐logística
2 1 t 1 t t f , t0con 1 0 y exp
0. o Función de supervivencia:
t 1 1 t S , t0 o Función de riesgo:
t 1 t t h 1 , t0 o Parámetros:
1
1
1
1 1 T E 1 csc , si 1
T
1 2
1 2
E
T Var 2 2 2 2 csc 2 E2
T , si 2
1 p p 1 p t . El numerador de la función de riesgo es igual a la función de riesgo Weibull, pero el denominador causa que la función de riesgo cambie de forma.
La función de riesgo es monótona decreciente para 1, y para 1 la función de riesgo crece inicialmente hasta alcanzar un máximo en el tiempo
1
1 y luego decrece a cero conforme t.
Esta distribución es similar al modelo Weibull y exponencial por sus expresiones simples para h(t) y S(t). Su función de riesgo es similar a la de la log‐normal, excepto en el extremo de la cola derecha, pero su ventaja es la simplicidad de su función de riesgo h(t) y de su función de supervivencia S(t).
A continuación presentamos algunos comportamientos de la función de riesgo.
5) FAMILIA GAMMA.
El modelo gamma tiene propiedades similares al modelo Weibull, sin embargo no es tan fácilmente tratable matemáticamente. o Función de densidad:
t
t exp
t
f 1 , t0, , 0 es un parámetro de forma y es un parámetro de escala.
La función de supervivencia y la función de riesgo no tienen una forma analítica explícita y dependen de la función gamma incompleta
t 0 u 1 du e u 1 , t Ig o Función de supervivencia:
t 1Ig
t,
S , t0 o Función de riesgo:
t S t f t h , t0 o Parámetros:
T E , Var
T 2 Al igual que el modelo Weibull, el modelo gamma incluyen al modelo exponencial como caso particular (1), se aproxima a una distribución normal cuando y coincide con una distribución Ji‐cuadrada con 2 grados de libertad cuando es un entero y 1/2.
La función de riesgo es monótona creciente para 1, con h
0 y 0
t t h . Es monótona decreciente cuando 1, con h
0 y
t t h . Cuando 1, la moda de la distribución es t
1
. El modelo gamma no es tan usado para modelar tiempos de fallo como los modelos Weibull, log‐normal y log‐logístico, sin embargo sí ajusta algunos comportamiento de manera adecuada.
A continuación presentamos algunos comportamientos de la función de riesgo. 6) OTRAS FAMILIAS.
Existen muchos otros modelos paramétricos que se utilizan para representar el comportamiento de tiempos de fallo. Algunos de estos son:
o Distribución gama generalizada:
t exp t t f 1
, t Ig 1 t S , para , , 0. Esta distribución se reduce al modelo exponencial cuando 1, al modelo Weibull cuando 1, al gamma cuando 1, y tiende a una log‐normal cuando . Se usa para bondad de ajuste.
o Más familias se pueden encontrar en el siguiente cuadro resumen de Klein & Moeshberger (1997):
Comentarios finales:
o En el modelo exponencial se cumple que H
t t. Entonces, de manera empírica podemos verificar el ajuste a una exponencial graficando H(t) vs. t. La gráfica debe de ser una línea recta que pasa por el origen con pendiente .
o En el modelo Weibull se cumple que H
t t . De igual manera, podemos verificar el ajuste a una Weibull graficando logH(t) vs. logt. La gráfica debe de ser una línea recta con perndiente y ordenada al origen log.o Todas las distribuciones aquí presentadas pueden ser modificadas para que incluyan un parámetro de “umbral” o “tiempo de garantía” . Este parámetro es un tiempo 0 antes del cual un individuo no puede presentar el evento de fin. Esto se hace definiendo un nuevo tiempo
T ' T , donde T0 sigue cualquiera de las distribuciones anteriores.