Instituto Tecnológico v de Estudios Superiores de Monterrey
Campus Monterrey
Monterrey, Nuevo León a
", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO.
El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.
De la misma manera, desligo de toda responsabilidad a EL INSTITUTO por cualquier violación a los derechos de autor y propiedad intelectual que cometa el suscrito frente a terceros.
Nombre y Firma AUTOR (A)
de 200
Lic. Arturo Azuara Flores:
Director de Asesoría Legal del Sistema
Predicción del Porcentaje de Células Progenitoras Sanguineas a
Partir de la Pre-Cosecha de Varias Células en el Torrente
Sanguíneo -Edición Única
Title Predicción del Porcentaje de Células Progenitoras
Sanguineas a Partir de la Pre-Cosecha de Varias Células en el Torrente Sanguíneo -Edición Única
Authors Helia Yohanina Haaz Melgarejo
Affiliation ITESM-Campus Monterrey
Issue Date 2005-12-01
Item type Tesis
Rights Open Access
Downloaded 19-Jan-2017 12:37:59
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY
CAMPUS MONTERREY
PROGRAMA DE GRADUADOS EN TECNOLOGÍAS
DE INFORMACIÓN Y ELECTRÓNICA
PREDICCIÓN DEL PORCENTAJE DE CÉLULAS PROGENITORES SANGUÍNEAS A PARTIR DE LA PRE-COSECHA DE VARIAS
CÉLULAS EN EL TORRENTE SANGUINEO
T E S I S
PRESENTADA COMO REQUISITO PARCIAL
PARA OBTENER EL GRADO ACADÉMICO DE:
MAESTRO EN CIENCIAS
ESPECIALIDAD EN ESTADÍSTICA APLICADA
POR:
INSTITUTO TECNOLÓGICO DE ESTUDIOS SUPERIORES DE
MONTERREY
DIVISIÓN DE TECNOLOGÍAS DE INFORMACIÓN Y
ELECTRÓNICA
CLAUSTRO DE LA MAESTRÍA EN ESTADÍSTICA APLICADA
Los miembros del comité de tesis recomendamos que la presente
tesis de Helia Yohaina Haaz Melgarejo sea aceptada como requisito parcial
para obtener el grado académico de Maestro en Ciencias con especialidad
en Estadística Aplicada.
Comité de tesis:
Dra. Rebeca Romero
Asesora
Dr. Francisco García
Sinodal
Dr. Rafael Borbolla
Sinodal
Dr. David Alejandro Garza Salazar
Director del Programa de Graduados en
Tecnologías de Información y Electrónica
Dedicatoria
Agradecimientos
A Dios.
A Victoria, gracias por darme las fuerzas para terminar
A mi mamá, mi papá, mi hermana Elo y Arlette: por el empujón para atreverme a estudiar estadística. Y a Memo por apoyarme a pesar de sí.
A Lalito, Blanquita, Paola, Conchis, Alex, Hugo y Leo por tooodas las porras. A mis profesores y amigos: Jorge Sierra, Christian Garrigoux, José G. Ríos, Olivia Carrillo, José Luis Garza y José Luis González, por ayudarme a abrir una sección inusitada de mi mente.
Al Ing. Patricio López del Puerto y Eduardo Salcedo por todos los refrendos firmados.
Al Dr. Rafael Borbolla por dejarme participar en este maravilloso proyecto de sanación.
Resumen
En el siguiente trabajo se utilizan el Análisis Discriminante y la Regresión Logística con el objeto de predecir el número de procedimientos de extracción (aféresis) necesarias para que un paciente o donante de médula ósea complete la cantidad de células requerida para el trasplante, y de esa manera, facilitar la práctica clínica en la extracción de células madre sanguíneas.
Tabla de Contenido
Dedicatoria ii Agradecimientos iii Resumen iv Tabla de Contenido v Lista de Figuras vi Lista de Tablas vii
Capítulo 1 Introducción 1 1.1 Problema de Estudio 1 1.2 Importancia y Justificación del Estudio 2 1.3 Objetivo 3 1.4 Antecedentes 3 1.5 Comentarios 4 1.6 Estructura de la Tesis 4
Capítulo 2 Material 5 2.1 Introducción 5 2.2 Población de Interés 5 2.3 Características de la Muestra 5
Capítulo 3 Metodología 12 3.1 Introducción 12 3.2 Análisis Discriminante 12 3.2.1 Resultados del Análisis Discriminante 13 3.3 Regresión Logística 18 3.3.1 Resultados de la Regresión Logística 19 3.4 Regresión Ridge 21 3.4.1 Resultados de la Regresión Ridge 22
Capítulo 4 Conclusiones 30 4.1 Introducción 30 4.2 Discusión acerca de Metodología y Resultados 30 4.2.1 Modelos que Predicen el Número de Aféresis Requeridas para 30 Completar la Cantidad de Células Madre Necesarias para el Transplante. 4.2.1 Modelos que Predicen la Cantidad de Células Madre en una
Cosecha 31 4.3 Discusión General 32
Anexo 1 Material del Marco Teórico 34 Anexo 2 Datos 36 Anexo 3 Metodología Estadística 39
Lista de Figuras
Figura 1.1 Calendario de actividades de un individuo que completa la cantidad de células CD34+ necesarias para el trasplante en cuatro procesos de aféresis
Figura 2.1 Número de individuos por diagnóstico Figura 2.2 Descripción de la muestra por aféresis Figura 2.3 Descripción de la muestra por edad Figura 2.4 Descripción de la muestra por peso Figura 2.5 Leucocitos
Figura 2.6 Hematocrito Figura 2.7 Neutrófilos Figura 2.8 Linfocitos Figura 2.9 Monocitos
Figura 2.10 CD34+ precosecha Figura 2.11 Matriz de dispersión
Figura 2.12 Porcentaje de CD34+ en la cosecha
Figura 3.1 Residuales de grupo (O o 1) contra número de observación Figura 3.2 Transformación Box-Cox de CD34+/ Kg. de peso del paciente
en la primera cosecha
Figura 3.3 Gráficos de residuales contra predicción de los modelos uno, dos, tres y cuatro
Anexo 2
Figura 1 Gráfico Box-Cox de iteraciones de lambda para CD34+ cosecha/ Kg. de peso del paciente
Anexo 3
Figura 1 Ejemplo de cruce de variables x1 y x2 para ilustrar el concepto de
distancia cuadrada de Mahalanobis
Figura 2 Segundo ejemplo de cruce de variables x1 y x2 para ilustrar el
concepto de distancia cuadrada de Mahalanobis
Figura 3 Gráfica de probabilidad de ser sujeto de crédito asociada a la solvencia económica del individuo
Figura 4 Gráfico de factor de inflación de la varianza (VIF) asociado a
diferentes valores de c
2 6 6 7 7 7 8 8 8 9 9 10 11 21
29
29
38
39
40
43
Lista de Tablas
Tabla 2.1 Variables predictoras 5 Tabla 2.2 Individuos por género 6 Tabla 2.3 Individuos por diagnóstico 6 Tabla 2.4 Descripción de la muestra por número de aféresis 6 Tabla 2.5 Descripción de la muestra por edad 7 Tabla 2.6 Descripción de la muestra por peso 7 Tabla 2.7 Leucocitos 7 Tabla 2.8 Distribución para hematocrito 8 Tabla 2.9 Distribución para neutrófílos 8 Tabla 2.10 Distribución para linfocitos 8 Tabla 2.11 Distribución para monocitos 9 Tabla 2.12 Distribución para CD34+ precosecha 9 Tabla 2.13 Matriz de correlación de las variables predictoras 9 Tabla 2.14 Distribución para porcentaje de CD34+ en la cosecha 11 Tabla 3.1 Coeficientes del Análisis Discriminante 14 Tabla 3.2 Clasificación de individuos con base en el Análisis
Discriminante 14
Tabla 3.3 Reclasifícación utilizando crossvalidation 15
Tabla 3.4 Prueba de normalidad de Kolmogorov-Smirnof para las variables predictoras del Análisis Discriminante 15 Tabla 3.5 Prueba de Box de homogeneidad de covarianzas 16 Tabla 3.6 Pruebas de igualdad de medias entre los grupos 16 Tabla 3.7 Distancia cuadrada de Mahalanobis 17 Tabla 3.8 Prueba de T cuadrada de Hotelling para diferencias de media
entre grupos asociada a la distancia cuadrada de Mahalanobis 17 Tabla 3.9 Coeficientes de correlación de las variables predictoras 17 Tabla 3.10 Clasificación de individuos con base en la Regresión Logística... 20 Tabla 3.11 Factores de inflación de la varianza para las variables predictoras
del modelo uno 23 Tabla 3.12 Factores de inflación de la varianza para las variables predictoras
del modelo dos 23 Tabla 3.13 Factores de inflación de la varianza para las variables predictoras
del modelo tres 23 Tabla 3.14 Factores de inflación de la varianza para las variables predictoras
del modelo cuatro 23 Tabla 3.15 Tabla comparativa de factores de inflación de la varianza,
coeficientes, ajuste, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el
modelo uno 24 Tabla 3.16 Tabla comparativa de factores de inflación de la varianza,
coeficientes, ajuste, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el
Tabla 3.17
Tabla 3.18 Tabla
Tabla Tabla Tabla Tabla
3.19 3.20 3.21 3.22 3.23
Tabla 3.24 Tabla 3.25
Tabla comparativa de factores de inflación de la varianza, coeficientes, ajuste, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo tres , Significancia de las variables predictoras para el modelo
cuatro
Anova para el modelo uno con K=0.20 Anova para el modelo dos con K=0.20 Anova para el modelo tres con K=0.20 Anova para el modelo cuatro con K=0.20
Factor de correlación entre las variables de los modelos uno y
dos
Factor de correlación entre las variables de los modelos tres y cuatro
Distribución para transformación Box-Cox de CD34+ primera cosecha / Kg. de peso del paciente
Tabla 1
Tabla 1 Tabla 2 Tabla 3
Tabla Tabla
1
2
Anexo 1
Resumen de artículos médicos para el marco teórico
Anexo 2
Características de los individuos
Resultados de la biometría hemática precosecha y de la cosecha de CD34+ y datos transformados
Valores de la última iteración de lambda para Box-Cox
Anexo 3
Ejemplo de una matriz de clasificación para el Análisis Discriminante
Ejemplo de una matriz de clasificación para la Regresión Logística
25
26 26 27 27 27
28
28
29
34
36
37 38
41
Capítulo uno: Introducción
1.1. Problema de Estudio
Los pacientes de cáncer son frecuentemente tratados con quimio o radioterapia, lo cual, como efecto secundario, puede afectar a las células sanas. Se ha comprobado que el trasplante de médula ósea asegura una mejor recuperación hematopoyética después de este tipo de tratamientos [NYBC, 2001]. Esto es, si el paciente recibe células progenituras sanguíneas (trasplante de médula ósea) después de haber recibido quimioterapia de alta dosis, éste recuperará la cantidad regular de células en su torrente sanguíneo más rápidamente [Stiff et al, 2000; Horning et al, 2001].
Existen dos tipos de transplante: el autólogo, cuando las células son extraídas del mismo paciente; y el alogénico, cuando una persona sana dona sus células a un paciente. En cualquiera de los dos casos, la práctica común indica que el paciente debe recibir 5 millones de células madre (médula ósea) por cada kilogramo de peso.
El procesó de extracción (cosecha) de células madre, básicamente, consiste en los siguientes cuatro pasos:
1. Movilización. Las células madre (CD34+) son movilizadas de la célula ósea al torrente sanguíneo con ayuda de un agente movilizador inyectado durante varios días. En este estudio se inyectó factor estimulante de colonias de granulocitos (Neupogen™) al donante durante cinco días, al termino de los cuales se supone que ya se encuentra una cantidad suficiente de células madre en el torrente sanguíneo, por lo que la cosecha se lleva a cabo el sexto día.
2. Muestra de sangre previa (PHBS). La mañana previa a la extracción, una
pequeña muestra de sangre es extraída y analizada. Con base en su experiencia profesional, los hematólogos piensan que a mayor cantidad de leucocitos en esta prueba, mejor será la cosecha de CD34+.
3. Aféresis. El paciente se sienta en la sala de aféresis y su sangre es extraída y bombeada a un citómetro de flujo, donde las células son separadas por fuerza centrífuga, y esta "cosecha" es colocada en una bolsa de plástico, mientras que el resto de la sangre es regresada al torrente sanguíneo. Esta parte del proceso puede tomar de cuatro a cinco horas, ya que la sangre pasa a través de la máquina varias veces.
Si la cantidad de células necesaria para asegurar un buen trasplante no se alcanza,
entonces se administra otra dosis de Neupogen™ esa misma tarde, y al día siguiente se realiza una segunda cosecha, así sucesivamente hasta completar habitualmente un máximo de cuatro aféresis seguidas (Ver Figura 1.1).
Figura 1 . 1 . Calendario de actividades de un individuo que complcíu la cantidad de células (1)34 ; necesarias para el trasplante en cuatro procesos de aféresis
Staundo día
Primera inyección de
Neupogen I M Segunda inyección deNeupogen ' Xl Torcera inyección deNeupogcn I M Cuarta invección deNeupogen I M Quinta inyección deNeupogen1 vl
Muestra y decisión de aféresis
Aféresis de CD34, contabilización y decisión
de otra aféresis
Sexta inyección de Neupogen ' M
Segunda muestra
Aféresis de CD34. coniíibilizaeión \ decisión
de otra aféresis
Séptima inyección de Neupogen'' Xl
Tercera muestra
Aféresis de CD34. contabili/'ación y decisión
do otra aféresis
Octava inyección de Neupogen I M
Cuarta muestra
Aféresis de CD34. contabili/acion y decisión
di1 otra aféresis
De aquí que, el hematólogo desea asegurarse de tener una buena cosecha desde el primer día. para no sentar al paciente en vano. Así. el sexto día. con base en la cuenta de células obtenidas en la muestra previa, decide si es conveniente o no practicarle la aféresis al paciente o donante.
1.2. Importancia y Justificación del Estudio
1.3. Objetivo
Médico
Utilizar la información de la prueba de sangre, precosecha, para decidir si es adecuado o no realizar la cosecha un día dado y, si se decide realizar la aféresis, obtener un estimado de la cantidad de células progenituras sanguíneas necesarias por cada kilogramo del paciente.
Estadístico
Determinar la relación entre la cantidad de células sanguíneas (linfocitos, leucocitos, monocitos, neutrófilos, hematocrito) precosecha y la cantidad de células progenitoras cosechadas en el torrente sanguíneo.
1.4. Antecedentes
Hasta ahora, los investigadores, interesados en encontrar un parámetro de predicción de la cosecha, han abordado el problema estadístico relacionando la cuenta de varias células en la precosecha con la CD34+ cosechada (Ver Tabla 1, Anexo 1).
En el artículo "Impact of Prelenkapheresis Cell Counís on Collection Results
and Correlation of ProgenitorCell Pose With Engraftment After HishDose Chemotherapy in Patients With Germ Cell Cáncer" [Schwella et al, 1996] se
utiliza el factor de correlación de Pearson sobre 185 resultados arrojados por 71 pacientes con cáncer germinal; es decir, de dos a cinco repeticiones de la muestra por paciente. Esto es, no se toma en cuenta que la cantidad de células cosechadas en cada individuo debe estar correlacionada con el número de aféresis realizadas al mismo.
En el artículo "Minimal Number of circulatins CD34+ cells to ensure successful
leukapheresis and engraftment in autologons peripheral blood progenitor cell transplantation " [Pérez-Simón et al, 1998] se analizan 263 aféresis realizadas a
71 pacientes con diferentes tipos de cáncer, como si cada una de esas cosechas fuese de un individuo distinto. También se realiza una ANOVA con el fin de identificar diferencias entre la media de CD34+ cosechadas entre los individuos que padecen cada tipo de cáncer; sin embargo, además de no considerar que las aféresis son realizadas a través del tiempo, no se muestra la validación de supuestos para el análisis.
En "77?g predictive valué of white cell or CD34+ cell count in the peripheral
blood for timing apheresis and maximizing yield" [Yu et al, 1999] se toman los
datos de 93 pacientes, a los cuales se realizaron 216 aféresis. En "Direct
Measurement ofCD34+ Blood Stem Cell Counts by Flow Cytometry" [Fukuda
et al, 1998], de manera similar, se toman 49 resultados arrojados por 22
pacientes. Y en el artículo "The CD316+56+ NK cell count independently
predicts autolosous blood stem cell mobilizatiorf [Stewart et al, 2000] se
supuesto de normalidad, en sus artículos no se menciona la comprobación del resto de supuestos que se requieren para validar el uso de esta metodología estadística (Mínimos Cuadrados Ordinarios).
En estos estudios, el factor de correlación más alto es hallado entre las células madre de la muestra previa y la cantidad de CD34+ obtenidos en la cosecha. En todo caso, medir esta célula es algo complicado, porque aún tratándose de una pequeña cantidad de sangre, la célula tallo debe separarse del resto de las células sanguíneas con ayuda del citómetro de flujo.
1.5. Comentarios
Es cierto que es imposible aleatorizar estos estudios médicos, y que nos vemos obligados, al igual que el resto de los investigadores, a trabajar con los datos disponibles. Pero a pesar de esta limitante, abordamos el estudio considerando que naturalmente existe cierto balance celular en el torrente sanguíneo ante la aplicación del movilizador de médula ósea, y que las aféresis son realizadas al mismo individuo; es decir, existen altas correlaciones en las medidas de las células de la precosecha, así como una dependencia entre las cosechas del mismo paciente.
Aplicamos los métodos estadísticos que pudieran modelar mejor la estructura de los datos, asegurándonos del cumplimiento de supuestos para no poner en riesgo la validez de los análisis. Si bien hay maneras más sofisticadas de analizar los datos, como se menciona en el capítulo tres, el hecho de considerar métodos más comunes refleja el principal interés de tomar la decisión de realizar o no las aféresis a los pacientes, en determinado momento.
1.6 Estructura de la Tesis
Capitulo 2; Material
2.1. Introducción
En este capítulo presentamos la información disponible para llevar a cabo el presente estudio. Las características principales de la muestra permiten identificar la distribución de los datos, sus valores atípicos y la correlación de las variables. Lo cual nos ayudará posteriormente, en el capítulo tres, a validar algunos de los supuestos necesarios para aplicar los métodos estadísticos.
2.2. Población de Interés
La población que nos interesa analizar está conformada por pacientes y donadores sanos que se someten al procedimiento de aféresis de CD34+. En estos casos es difícil aleatorizar el experimento, dadas las circunstancias del procedimiento médico; por lo que se deriva a utilizar todos los resultados de las aféresis efectuadas.
Las variables predictoras son las células que se miden en una biometría hemática de rutina, a saber:
Tabla 2.1. Variables predictoras
Variable
Hemaíocríto
Leucocitos
Neulrófilo.i
Linfocitos
Monocitos
CD34+
Definición
El hcmatocrito es la proporción de células rojas que se circulan en la sangre
Células blancas de la sangre, carentes de hemoglobina, son parte del sistema inmunológico y se dividen en cinco diferentes tipos de células Uno de los tipos de células polimorfonuclcarcs que circulan en la sangre y están relacionadas con la eliminación de microorganismos infecciosos Un tipo de leucocitos mononuclcarcs, son responsables del
reconocimiento y la eliminación de agentes externos específicos También son leucocitos mononuclcarcs y su función está más directamente relacionada a la limpieza, después de la destrucción de los agentes dañinos
Célalas tallo o células progenituras sanguíneas. Reciben este nombre por estar cubiertas con la proteína cci34+
Medida
Porcentaje
Unidades
Porcentaje
Porcentaje
Porcentaje
Porcentaje
2.3. Características de la Muestra
Género. El número de hombres y mujeres sanos y con cáncer en quienes se realizaron la aféresis de células progenituras.
Tabla 2.2. Individuos por genero
Género
Masculino Femenino Total
Frecuencia 13 16
29
Porcentaje 45
55 100
Diagnóstico. Se especifica el padecimiento principal de los pacientes por el cuál se sometieron a un trasplante autólogo y el número de personas sanas que donaron médula ósea a algún familiar.
Tabla 2.3. Individuos por diagnóstico Figura 2.1. Número de individuos por diagnóstico
Diagnóstico
Ca Mama SANO
LMC LANL-M2
LNH
Mieloma LAL-T
LANL-M5
MM Total
Frecuencia
7 6
5 3
3
2 1 1
1 29
Porcentaje
24 21
17 10
10
7 3
3 3 100
Número de procedimientos. Cantidad de aféresis realizadas para completar la cantidad necesaria de células CD34+.
Tabla 2.4. Descripción de la muestra por número
de aféresis Figura 2.2. Descripción de la muestra por aféresis
Aféresis Una Dos Tres Cuatro
Total
Frecuencia 9 15
3 2 29
Porcentaje
31
52 10
7
Edad y peso. La edad de los individuos varía entre 4 y 56 años, y sus pesos de 17.50a 105.3 kilogramos.
Tabla 2.5. Edad
Tabla 2.6. Peso
Figura 2.3. Descripción de la muestra por edad
Media
Desviación Estándar Varianza
Sesgo Curtosis CV
30.9 14.3
205.3
0.4 0.8 46.4
Valor Máximo 3er Cuartil Mediana 1er Cuartil Valor Mínimo
56 43 35 17 4
Media
Desviación Estándar Varianza
Sesgo Curtosis CV
61.9 20.0
400.5
0.5 0.5 32.3
Valor Máximo 3er Cuartil Mediana 1er Cuartil Valor Mínimo
105.3 76.0 63.0 54.3 17.0
Figura 2.4. Descripción de la muestra por peso
20 40 60 80 100 120
• Variables predictoras. Se muestran sus estadísticos básicos, su distribución y sus valores atípicos.
Leucocitos precosecha: se encontró un sesgo derecho considerable, un valor
atípico de la paciente IPT con 71,300 unidades.
Tabla 2.7. Distribución para los leucocitos Figura 2.5. Leucocitos precosecha
Media
Desviación Estándar Varianza
Sesgo Curtosis CV
28379.31 16689.65 278544557
0.60 0.44
58.81
Valor Máximo 3er Cuartil Mediana 1" Cuartil
Valor Mínimo
71300 37000 25900 19700
Capitulo 3; Metodología
3.1. Introducción
A primera vista parece evidente la necesidad de abordar el estudio de los datos con un análisis que considere que las aféresis son realizadas a través del tiempo, y que existe una variación en la cantidad cosechada de células de la primera a la segunda cosecha y de la segunda a la tercera, etc. Un análisis longitudinal nos daría la ventaja de ponderar toda la información considerando el tiempo. Sin embargo, debido al tamaño reducido de muestra y a la estructura tan pobre de la matriz de correlación, se requiere abordarlo de otra manera, misma que nos ayude a hacer inferencias igualmente válidas.
En este capítulo se presenta la aplicación de los tres métodos estadísticos utilizados: Análisis Discriminante y Regresión Logística, los cuales nos sirven para predecir el número de aféresis necesario para que el paciente complete el número de células requeridas; y la Regresión Ridge, la cual se utiliza para predecir la cantidad de células CD34+ cosechadas en la primera y segunda aféresis.
3.2 Análisis Discriminante
Objetivo
Este método se utiliza para separar observaciones de una muestra o población en varios grupos o clases. Dependiendo del uso de la información se utiliza como un método descriptivo o predictivo. En nuestro caso, lo emplearemos para predecir, a partir de las medidas de las células sanguíneas de la muestra previa, el número de aféresis que requeriría el individuo para completar la cantidad de células progenitoras para el trasplante.
De esta manera, el modelo tiene una variable dependiente categórica, el número de aféresis, y diversas variables independientes numéricas (las células de la muestra precosecha).
Para el caso de estudio, los grupos o clases de la variable dependiente quedan definidos como:
Grupo A. Los donantes que solamente necesitaron un solo procedimiento de aféresis para alcanzar el número de células madre.
Grupo B. Aquellos individuos que se sometieron a dos aféresis, para completar la cantidad necesaria de células madre.
Grupo del Individuo (A, B, C) = Ordenada al origen + Leucocitos + Hematocrito + Neutrófílos + Linfocitos + Monocitos + Peso + Diagnóstico.
Una vez obtenida la fórmula predictora, se utiliza el método de Cross Validation para
verificar su efectividad; es decir, la proporción de acierto en la clasificación. (Ver Anexo 3, Análisis Discriminante, Ajuste).
De esta manera obtendremos una tabla comparativa de las predicciones del Análisis Discriminante contra el grupo al que de hecho pertenece el individuo.
Supuestos del modelo
Aunque el Análisis Discriminante es bastante robusto3, se tienen que validar los
supuestos requeridos para hacerlo válido [Tabachnik & Fidell, 2001].
a) Independencia', las variables predictoras no se encuentran correlacionadas.
b) Aleatoriedad'. la muestra fue tomada al azar.
c) Normalidad: cualquier combinación lineal de variables predictoras se distribuye
de manera normal.
d) Ausencia de Valores Atípleos: no se detectan valores muy distantes de la media
en cada una de las variables predictoras.
e) Homogeneidad de Varianza y Matriz de Covarianza: el intervalo en el que se
encuentran los valores de las variables predictoras es equivalente, de modo que se puede realizar comparaciones entre ellas.
f) Linealidad: hay una relación lineal entre pares de variables predictoras dentro de
cada grupo. Esto se traduce a que los grupos se encuentran 'separados' dado a que existen diferencias entre la relación lineal de las variables predictoras con la variable dependiente para cada grupo.
g) Ausencia de Multicolinealidad y Singularidad: la multicolinealidad aparece
cuando las variables predictoras son muy redundantes, haciendo con esto que la inversión de la matriz de datos sea poco confiable (sea singular).
3.2.1. Resultados del Análisis Discriminante
Antecedentes
Con el objeto de obtener un modelo con un alto ajuste y el menor número de variables independientes, se realizaron varias combinaciones con las variables predictoras. Así mismo, se eliminaron de la muestra original los valores atípicos y los datos de los donadores sanos, de manera que pudiera validarse el supuesto correspondiente.
3 Aquí robusto se refiere a que el porcentaje de error causado por utilizar este proceso de clasificación no
Los análisis que se presentan a continuación son el resultado obtenido con el software estadístico SPLUS™.
Modelo
La combinación de variables predictoras con mayor acierto de clasificación incluía: leucocitos precosecha, neutrófílos porcentuales precosecha, linfocitos porcentuales precosecha y monocitos porcentuales precosecha.
Tabla 3.1. Coeficientes del Análisis Discriminante
Constante
Leucocitos precosecha
% Neutrófílos precosecha
% Linfocitos precosecha
%Monocitos precosecha
Grupo A
23050.87
0.0096
466.6791
467.2602
416.8939
Grupo B
22784.4
0.0096
464.0082
464.3960
414.5565
Grupo C
23322.96
0.0098
469.4X1 1
470.1304
419.0079
Resultados de Clasificación
En la siguiente matriz podemos observar cómo se clasifican los datos con base en el modelo discriminante, en comparación con el verdadero grupo al que pertenecen los individuos. El porcentaje total de individuos clasificados correctamente es de 90% (18 individuos de 20). Y únicamente dos individuos se colocan erróneamente en el grupo de una aféresis, cuando realmente requieren dos, lo cual en la práctica no significa un error grave porque el doctor se daría cuenta, después de la primera aféresis, que el paciente requiere de una segunda cosecha.
Tabla 3.2. Clasificación de individuos con base en el Análisis Discriminante
Grupo de .Predicción
Grupo Verdadero
Grupo A
Grupo B
Grupo C
Grupo A Grupo B
10
Grupo C Error
0%
16%
0%
Tabla 33. Reclasificación utilizando CrossVatidation
^Grupo de ^Predicción
Grupo Verdadero
Grupo A
Grupo U
Grupo C
Grupo A Grupo B Grupo C Error
25%
25%
25%
Validación de supuestos
a) Independencia: No se cumple
En este caso no se cumple el supuesto ya que se trata de células sanguíneas, y su balance natural implica cierta dependencia lineal.
b) Aleatoriedad: No se cumple
Dada la naturaleza del procedimiento clínico no se puede tomar una muestra aleatoria. Se utilizaron resultados obtenidos en el Centro Médico Nacional y en el Hospital San José de Monterrey.
c) Normalidad: Se cumple
Este supuesto lo verificarnos con la prueba de Kolmogorov-Smirnov [SPLUS™]; la cual tiene como hipótesis nula que: "los datos se distribuyen normales". Dado que los P-valores son superiores a .05, podemos decir que las variables predictoras tienen una distribución normal.
Tabla 3.4. Prueba de normalidad de Kolmogorov-Smimov para las variables predictoras del Análisis Discriminante
Leucocitos precosecha
% Neutrófilos precosecha
%Linfocitos precosecha
%Monocitos precosecha
Estadístico de Prueba
0.1122863
0.1000204
0.1182283
0.1295203
Pvalor
0.9384140
0.9762104
0.9119979
0.8485997
d) Ausencia de valores atípleos: Se cumple
e) Homogeneidad de Varianza y Matriz de Covarianza: Se cumple
La prueba de Box's M tiene la hipótesis nula de que las matrices de covarianza no difieren entre grupos. Se busca que esta prueba resulte no significativa, para así poder considerar que los grupos no difieren.
Se considera que hay homogeneidad de varianzas y covarianzas, después de aplicar la prueba de Box [SPLUS™], con un P-valor de .76
Tabla 3.5. Prueba de Box de homogeneidad de covarianzas
BOX.M
M.ajustada
Estadístico
15.23253
7.60450
Grados de Libertad
20
20
Pvalor
0.7629510
0.9941778
f) Linealidad: Se cumple
Si bien, como se observa en la figura 2.11, existe una relación lineal entre las variables predictoras, la comprobación de este supuesto se verifica no solamente de manera gráfica, sino comprobando que esta relación existe pero que los grupos se encuentran separados entre sí y que fácilmente se puede asociar cada observación al grupo al que pertenece.
Así, verificamos primero que la media de los grupos (su centroide) fuera estadísticamente diferente, con tres pruebas de igualdad de medias (Ver Tabla 3.6) como los P-valores en estas tres pruebas son menores a .05, rechazamos la hipótesis de la igualdad de medias entre los grupos.
Tabla 3.6. Pruebas de igualdad de medias entre los grupos
Lamda de Wilks
Traza de Filial
Traza de Hotelling Lawley
Estadísticos
0.2534
0.9077
2.3099
Valor f
3.4525
3.1165
3.7537
Primer valor de grados de libertad
8
8
8
Segundo valor de grados de
libertad
28
30
26
Pvalor
0.006876
0.011020
0.004819
Tabla 3.7. Distancia cuadrada de Mahalanobis
Grupo A
Grupo B
Grupo C
Grupo A
0.000000
Grupo B
2.82561
0.00000
Grupo C
6.95754
11.21732
0.00000
Posteriormente verificamos, como se muestra en la Tabla 3.8, que estas distancias sean significativas. Así, se considera estadísticamente significativa la distancia entre los grupos A-C y B-C de acuerdo con los P-valores; sin embargo, la distancia entre A-B * no es tan evidente, ya que su significancia es tan sólo de 80%
Tabla 3.8. Prueba de T cuadrada de Hotelling para diferencias de media entre grupo asociada a la distancia cuadrada de Mahalanobis
Grupo A Grupo B
Grupo A Grupo C
Grupo B Grupo C
Valor F
1 .745230
2.864871
6.928346
Primer valor de grados de
libertad 4
4
4
Segundo valor de grados de
libertad 14
14
14
Pvalor
0.1960876
0.0631067
0.0027106
g) Ausencia de multicolinealidady singularidad: No se cumple
Este supuesto no se cumple dada la correlación entre las variables predictoras, como se observó en la matriz de correlaciones al final del capítulo dos. Aún recalculando los coeficientes de correlación con la muestra tamaño 20, seguimos observando que hay colinealidad alta (Ver Tabla 3.9).
Tabla 3.9. Coeficientes de correlación de las variables predictoras
Leu.pre
Neu.pre
Linfos.pre
Monos.pre
Leu.pre
1.0000000
0.5533997
-0.4586558
-0.2628890
Neu.pre
0.5533997
1.0000000
-0.9234967
-0.3306570
Linios. pre
-0.45865584
-0.92349669
1.00000000
-0.04433206
Monos.pre
-0.26288903
-0.33065699
-0.04433206
3.3. Regresión Logística
Objetivo
La Regresión Logística es usualmente utilizada para realizar predicciones binarias basadas en variables independientes continuas. En nuestro caso la predicción se reduce a determinar si el individuo puede alcanzar el número deseado de células progenitoras en una sola aféresis o no.
Así, nuestras variables predictoras siguen siendo las mismas que en el caso del Análisis Discriminante pero nuestros grupos se reducen a:
Grupo 0. Si el individuo requiere una sola aféresis.
Grupo 1. Si el individuo requiere dos o más aféresis.
Cabe mencionar que el hecho de que contemos con tan pocas observaciones tiene un impacto negativo en el poder de la prueba; es decir, en su capacidad de predicción y su certeza; ya que este método requiere tanto de un número de observaciones considerable, como de un equilibrio en el tamaño de los grupos.
Modelo
De acuerdo con el modelo que se explica detalladamente en el Anexo 3, el nuestro se puede expresar como:
Grupo del Individuo (1 ó 0) = Ordenada al origen + Leucocitos + Hematocrito + Neutrófílos + Linfocitos + Monocitos + Peso + Diagnóstico.
Suponemos que los resultados del modelo de regresión logística deben coincidir (o aproximarse) con los obtenidos en el Análisis Discriminante; sin embargo, podrían ser diferentes.
Supuestos del modelo
Si bien la Regresión Logística no supone la normalidad de las variables predictoras y tampoco la homogeneidad de la matriz de varianza-covarianza, la potencia del modelo aumenta cuando estos supuestos se cumplen [Tabachnik & Fidell, 2001].
Sin embargo, es necesario validar el cumplimiento de:
a) Proporción Variables y Casos: se debe tener una cantidad de observaciones
en cada grupo.
c) Linealidad: existe una relación lineal entre las variables predictoras
continuas y la variable dependiente.
d) Ausencia de Multicolinealidad: no hay una alta correlación entre las
variables predictoras.
e) Ausencia de Valores Atípleos: no se detectan valores muy distantes de la
' media en cada una de las variables predictoras.
í) Independencia de Residuales: el error del modelo no está relacionado con el
orden en que se realizaron las mediciones.
3.3.1. Resultados de la Regresión Logística Antecedentes
Con este método, al igual que con el Análisis Discriminante, se probaron varias combinaciones de las variables predictoras, y se excluyó un valor atípico para poder validar los supuestos y obtener un mejor ajuste.
Modelo
Grupo ( O ó l ) = -2.1006487 0.0433212 Peso
3.6422312 Diagnóstico (1 enfermo, O sano) -0.0000727 Leucocitos
Significancia de los Coeficientes
Como podemos observar el coeficiente menos significativo entre las variables predictoras es el peso, con una significancia de 85%; sin embargo, al excluirlo como variable independiente se reduce la capacidad predictora del modelo.
Error Estándar Chisquare Pvalor
Ordenada al origen 2.2709845 0.86 0.354969
Peso 0.0300642 2.08 0.149597 Diagnóstico 1.5502616 5.52 0.018802 Leucocitos 0.0000388 3.51 0.061138
Resultados de la Clasificación
Con ayuda de este modelo se puede predecir un valor estimado, el cual redondeado es el valor de la variable binomial 1 ó O (Ver Anexo 3, Regresión Logística).
individuos erróneamente clasificados, pues en la primera aféresis completarían su cantidad necesaria, y ya no se presentarían a un segundo procedimiento.
Tabla 3.10. Clasificación de individuos con base en la Regresión Logística
Grupo Verdadero
Grupo I
Grupo O
Grupo I
17
Grupo O Error
15.00%
37.50%
Supuestos
a) Proporción Variables y Casos: Se cumple
Únicamente se excluyó el valor atípico GPR, y el número de casos utilizados fue 28 con 3 variables predictoras.
b) Bondad de Ajuste: Se cumple
Si bien la proporción de los grupos no es del todo equilibrada 28.57% - 71.43%, la predicción tiene un ajuste de 78.57%. Lo que muestra la eficacia de clasificación del modelo para la muestra utilizada.
c) Linealidad: Se cumple
Aunque es difícil probar este supuesto, se valida, ya que los coeficientes del modelo no se acercan a cero, lo que supone una relación lineal fuerte entre variable dependiente y predictora.
d) Ausencia de Multicolinealidad: Se cumple
Las variables predictoras de este modelo no están correlacionadas.
e) Ausencia de Valores Atípleos: Se cumple
Se valida puesto que se excluyó el valor atípicos GPR de la muestra original.
J) Independencia de Residuales: Se cumple
Figura 3.1. Residuales de grupo (O o 1) contra número de observación
K
3
3.4 Regresión Ridge
Objetivo
El tercer método es una regresión múltiple que se puede aplicar cuando existe una alta correlación entre las variables predictoras: la Regresión Ridge. En este caso es de mucha utilidad ya que las células medidas en la precosecha, dada su naturaleza, romperían con el supuesto de no colinealidad necesario en el caso clásico del método de Mínimos Cuadrados.
El interés principal es predecir la cosecha de CD34+ del primer día con base en las medidas de las cinco variables predictoras, sin tomar en cuenta las CD34+ precosecha. Sin embargo, dadas las características de la muestra, se probaron varias combinaciones de variables predictoras para obtener un modelo satisfactorio tanto estadística como clínicamente.
Modelo
Con base en la teoría de la Regresión Ridge ( Anexo 3, Regresión Ridge), planteamos
cuatro modelos; todos incorporan el valor k que afecta directamente el cálculo de los
coeficientes del modelo, y que corrige el problema de correlación entre las variables predictoras. El modelo uno y dos, con base en las medidas de la precosecha y primera aféresis de los 29 individuos. El tres y cuatro, con base en las medidas de la primera y segunda aféresis, por lo que se tienen únicamente 20 individuos.
Modelo uno
CD34+/Kg de peso del paciente =
(Valor de Primera Cosecha)
Leucocitos precosecha
Modelo dos
CD34+/Kg de peso del paciente =
(Valor de Primera Cosecha)
Leucocitos precosecha
+ Hematocrito porcentual precosecha + Neutrófilos porcentuales precosecha + Linfocitos porcentuales precosecha + Monocitos porcentuales precosecha + CD34+ porcentual precosecha
Modelo tres
CD34+/Kg de peso del paciente =
(Valor de Segunda Cosecha)
Leucocitos precosecha
+ Hematocrito porcentual precosecha + Neutrófilos porcentuales precosecha + Linfocitos porcentuales precosecha + Monocitos porcentuales precosecha + CD34+/Kg de peso del paciente
(Valor de Primera Cosecha)
Modelo cuatro
CD34+/Kg de peso del paciente = (Valor de Segunda Cosecha)
+ Hematocrito porcentual precosecha + Neutrófílos porcentuales precosecha + Monocitos porcentuales precosecha + CD34+/Kg de peso del paciente
(Valor de Primera Cosecha)
Supuestos del modelo
Los supuestos requeridos para aplicar Regresión Ridge son:
a) Linealidad: existe una relación lineal entre las variables predictoras y la
variable dependiente.
b) Ausencia de Valores Atípleos: este supuesto se refiere a que se exhiba
varianzas constantes.
c) Independencia: los residuales no están correlacionados.
Es necesario aplicar la Regresión Ridge en los modelos uno, dos y tres, pues existen Factores de Inflación de la Varianza muy altos, como se puede ver en las tablas 3.11,3.12y3.13.
Tabla 3.11. Factores de inflación de la varianza para las variables predictoras del modelo uno
Variable predictora precosecha Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos
Factor de Inflación de la Varianza
1.5129 1.3334 78.9864 67.2889 6.2213
Tabla 3.12. Factores de inflación de la varianza para las variables predictoras del modelo dos
Variable predictora precosecha Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos CD34+/Kg
Factor de Inflación de la Varianza
2.0373 1.3721 301.6388 278.1381 19.7408 2.1750
Tabla 3.13. Factores de inflación de la varianza para las variables predictoras del modelo tres
Variable predictora precosecha Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos CD34+/Kg
Factor de Inflación de la Varianza
1.4740 1.1956 363.6286 219.5220 33.4609 1.1798
Sin embargo, para el modelo cuatro encontramos que no existen Factores de Inflación de la Varianza demasiado altos, por lo que es válido abordarlo con regresión clásica de Mínimos Cuadrados.
Tabla 3.14. Factores de Inflación de la Varianza para las variables predictoras del modelo cuatro
Variable predictora Hematocrito Neutrófilos Monocitos
Transformación Box&Cox (CD34+ primera cosecha- Kg de peso del paciente)
Factor de Inflación de la Varianza
1.1560 2.8085 2.6747
1.0392
Modelo
Con el fin de validar el supuesto de Ausencia de Valores Atípicos y mejorar el ajuste en todos los modelos, decidimos transformar la variable de respuesta. Utilizamos el método propuesto por Box & Cox [Johnson & Wichern, 1998] para seleccionar el factor de transformación de la variable, por eso en lo subsecuente se encontrará en su lugar la variable transformada (Ver Anexo 2, Obtención de lambda óptima para la transformación de Box & Cox).
Modelo uno. Factor K = 0.020
Transformación Box&Cox (CD34+ primera cosecha/Kg de peso del paciente) = 0.33963369 -0.00000044 0.00163808 0.00348278 0.00224910 0.01603047 Leucocitos precosecha
Hematocrito porcentual precosecha Neutrófílos porcentuales precosecha Linfocitos porcentuales precosecha Monocitos porcentuales precosecha
Tabla 3.15. Tabla comparativa de factores de inflación de la varianza. coeficientes, ajustes, criierios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo uno
VIF-Lencocitos VIF-Hematocrlto VI F-Neu trofilos VIF-Linfocitos VIF-Monocitos VIF-Modelo Ordenada Leucocitos Hematocrito Neutro filos Linfocitos Monocitos R-squared AIC BIC K= 0.001 1.4996 1.31 14 59.7433 50.9407 4.9556 59.7433 -0.52671440 -0.00000056 0.00211257 0.01213319 0.01076568 0.02389467 0.2264 0.01049056 0.01327943 K=0.010 1.4334 1.2336 12.8672 11.1134 1.8566 12.8672 0.12927533 -0.00000047 0.00176960 0.00557579 0.00429606 0.01800504 0.2103 0.01070847 0.01355528 K=0.020 1.3808 1.1907 5.2269 4.6176 1.3317 5.2269 0.33963369 -0.00000044 0.00163808 0.00348278 0.00224910 0.01603047 0.2037 0.01079773 0.01366826 K =0.03(1 1.333 1.1546 2.9171 2.6505 1.1575 2.9171 0.43617032 -0.00000043 0.00156221 0.00252939 0.00132980 0.01506090 0.1996 0.01085295 0.01373816 K=0.040 1.2884 1.1214 1 .9208 1 .7994 1.0703 1.9208 0.49206429 -0.00000042 0.00150686 0.00198267 0.00081242 0.01445172 0.1965 0.01089563 0.01379219 Modelo dos. Factor K = 0.020
Transformación Box&Cox (CD34+ primera cosecha/Kg de peso del paciente)=
0.47248241
-0.00000126 Leucocitos precosecha
Tabla 3.16. Tabla comparativa de factores de inflación de la varíanza, coeficientes, ajustes, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo dos
VIF-Leucocitos VlF-Hematocrito VIF-Neutrofilos VlF-Linfocitos VIF-Monocitos V1F-CD34+ precosecha VIF-Modelo
Ordenada al origen Leucocitos Hematocrito Neutrofilos Linfocitos Monocitos CD34+ precosecha R-squared AIC BIC K= 0.001 2.0131 1 .3455 118.3672 109.1867 8.4140 1.8873 118.3672 -0.24441270 -0.00000124 0.00553198 0.00904915 0.00635871 0.01505394 -0.03733594 0.5678 0.00838620 0.01 128391 K=0.010 1.9133 1.2945 6.5832 6.1362 1.4821 1.6478 6.5832 0.38247223 -0.00000127 0.00531943 0.00276515 0.00005303 0.00963300 -0.03486846 0.5579 0.00857727 0.01154101 K=0.020 1.8189 1.2544 2.1821 2.0781 1.1835 1.5700 2.1821 0.47248241 -0.00000126 0.00519359 0.00188599 -0.00078520 0.00885456 -0.03411641 0.5512 0.00870792 0.01 171680 K=0.030 .7320 .2167 .2170 .1874 .0983 .5025 .7320 0.50847582 -0.00000125 0.00508119 0.00154949 -0.00107646 0.00854170 -0.03355631 0.5450 0.00882821 0.01187865 K=0.040 1.6515 1.1808 0.8516 0.8495 1.0510 1 .4404 1.6515 0.52922785 -0.00000125 0.00497523 0.00136546 -0.00121512 0.00835912 -0.03306107 0.5390 0.00894330 0.01203351 Modelo tres. Factor K=0.020
Transformación Box&Cox (CD34+ segunda cosecha/ Kg. de peso del paciente)= 0.46053703 0.00000058 -0.00762507 0.00088870 0.00250756 -0.00261588 Leucocitos precosecha
Hematocrito porcentual precosecha Neutrofilos porcentuales precosecha Linfocitos porcentuales precosecha Monocitos porcentuales precosecha
Transformación Box&Cox (CD34+ primera 0.60072302 cosecha/Kg de peso del paciente)
Tabla 3.17. Tabla comparativa de factores de inflación de la varíanza, coeficientes, ajustes, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo tres
VIF-Leucocitos VlF-Hematocrito VIF-Neutrofilos VIF-Linfocitos VIF-Monocitos
VIF-B&C CD34+ primera cosecha
VIF-Modelo
Ordenada al origen Leucocitos Hematocrito Neutrofilos Linfocitos Monocitos
Trsns. B&C CD34+ primera cosecha
R-squared AIC K= 0.001 1.4095 1.1889 139.8227 84.9329 13.9507 1.0919 139.8227 -0.39998720 0.00000050 -0.00766813 0.00963413 0.01129655 0.00601536 0.59094117 0.6026 0.00736164 K=0.010 1.3357 1.1600 7.4242 5.2769 2.3392 1.0215 7.4242 0.35727430 0.00000057 -0.00768106 0.00191840 0.00358317 -0.00165886 0.60377425 0.5937 0.00752606 K=0.020 1.2939 1.1312 2.3448 2.1825 1.8191 0.9983 2.3448 0.46053703 0.00000058 -0.00762507 0.00088870 0.00250756 -0.00261588 0.60072302 0.5881 0.00762997 K=0.030 .2551 .1036 .2389 .4805 .6508 0.9773 1 .6508
Modelo cuatro
Transformación Box&Cox (CD34+ segunda cosecha/Kg de peso del paciente)=
0.6704348
-0.0081507 Hematocrito porcentual precosecha -0.0010289 Neutrófílos porcentuales precosecha -0.0044617 Monocitos porcentuales precosecha
Transformación Box&Cox (CD34+ primera 0.6223188 cosecha/Kg de peso del paciente)
Tabla 3.18. Significancia de las variables predictoras para el modelo cuatro
Variables Predoctoras Ordenada al origen Hematocrito Neutrófilos Monocitos
Transformación Box&Cox (CD34+ primera cosecha'Kg de peso del paciente)
Pvalor 0.0605 0.0474 0.6861 0.5983 0.0034
Análisis de Varianza de los Modelos
A través de este análisis verificamos dos valores de mucha utilidad: la significancia estadística del modelo y el ajuste del mismo a los datos de la muestra.
La significancia, se verifica con el P-valor asociado al modelo. Si deseamos 90% de significancia, únicamente tomamos en cuenta los P-valores menores a 0.10.
El ajuste lo verificamos con el valor de R2, entre más se acerca este valor a 1, el
modelo tiene un mayor ajuste a los datos de la muestra.
Modelo uno
Este modelo, de cinco variables predictoras y con datos de 29 individuos, tiene una significancia de 65%, un ajuste de 20%, un criterio de información de akaike (AIC) de .01079773 y un criterio de información bayesiana (B1C) de .01366826.
Tabla 3.19. Anova para el modelo uno con K= 0.020
Ordenada al origen Modelo Error
Total (Ajustado)
Grados de libertad
1 5 23 28
Suma de cuadrados 17.51849217
0.05674596 0.22180625 0.27855221
Media de la suma de cuadrados
17.51849217 0.01134919 0.00964375 0.00994829
Estadístico F
1 . 1 7680000
P-valor
0.35070800
Modelo dos
Este modelo, de seis variables predictoras y con datos de 18 individuos, presenta una significancia de 88%, un ajuste de 55%, un criterio de información de akaike (AIC) de .008707 y un criterio de información bayesiana (BIC) de .011716.
Tabla 3.20. Anova para el modelo dos con K= 0.020
Ordenada al origen Modelo Error Total (Ajustado) Grados de libertad 1 6 11 17 Suma de cuadrados 10.89640352 0.09882552 0.08047432 0.17929985
Media de la suma de cuadrados 10.89640352 0.01647092 0.00731585 0.01054705 Estadístico F 2.25140000 P-valor 0.11545100 R-Cuadrada =
Criterio de Akaike (AIC) = Criterio de Schwarz (BIC) =
0.5512 0.00870792 0.01171680
Modelo tres
Este modelo, de seis variables predictoras y con datos de 20 individuos, tiene una significancia de 96%, un ajuste de 58%, un criterio de información de akaike (AIC) de .007629 y un criterio de información bayesiana (BIC) de .010286.
Tabla 3.21. Anova para el modelo tres con K= 0.020
Ordenada al origen Modelo Error Total (Ajustado) Grados de libertad 1 6 13 19 Suma de cuadrados 12.78718721 0.11956791 0.08374831 0.20331622
Media de la suma de cuadrados 12.78718721 0.01992799 0.00644218 0.01070085 Estadístico F 3.09340000 P-valor 0.04154600 R-Cuadrada =
Criterio de Akaike (AIC) = Criterio de Schwarz (BIC) =
0.5881 0.00762997 0.01028620
Modelo cuatro
Este modelo, de cuatro variables predictoras no correlacionadas y con datos de 20 individuos tiene una significancia de 99%, un ajuste superior al 58%, un criterio de información de akaike (AIC) de .006270 y un criterio de información bayesiana (BIC) de .033694.
Tabla 3.22. Anova para el modelo cuatro
Ordenada al origen Modelo Error Total (Ajustado) Grados de libertad 1 4 15 19 Suma de cuadrados 12.78719000 0.11925630 0.08405991 0.20331620
Media de la suma de cuadrados 12.78719000 0,02981408 0.00560399 0.01070085 Estadístico F 5.32 P-valor 0.0072 R-Cuadrada =
Criterio de Akaike (AIC) = Criterio de Schwarz (BIC) =
Validación de supuestos
a) Linealidad: Se cumple
Si bien ningún factor de correlación entre cada variable predictora y la variable respuesta evidencia el cumplimiento de este supuesto (Ver Tablas 3.23 y 3.24), con base en el ajuste de los modelos podemos evaluar si se cumple el supuesto de linealidad.
Con 20% de ajuste en el modelo uno, además de los factores de la tabla, decimos que no se cumple con la Linealidad; mientras que en el modelo dos, el ajuste de 55% y el factor de correlación de la CD34+ precosecha nos indican que sí se cumple con el supuesto.
Tabla 3.23. Factor de correlación entre las variables de los modelos uno y dos
Variables predictoras precosecha
Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos
CD34+/Kg de peso del paciente pre
Factor de Correlación con la Variable Transformación Box&Cox (CD34+ primera
cosecha/Kg de peso del paciente)
-0.39638100 0.07870600 -0.06920200 -0.06524700 0.47188900
-0.57396800
En la Tabla 3.24 podemos observar que no todos los factores de correlación de las variables predictoras son altos; sin embargo, con base en esta información y el nivel de ajuste de los modelos, podemos decir que el modelo tres no cumple con el supuesto, como el modelo cuatro.
Tabla 3.24. Factor de correlación entre las variables de los modelos tres y cuatro
Variables predictoras
Leucocitos precosecha Hematocrito porcentual prec Neutrófilos porcentuales pre Linfocitos porcentuales prec Monocitos porcentuales pre< Transformación Box&Cox (CD34+ primera cosecha/Kg de peso del paciente)
Factor de Correlación con la variable Transformación Box&Cox (CD34+ segunda cosecha/Kg de peso del
paciente) 0.26299700 -0.49479400
0.19896000 -0.14523000 -0.21068700
0.65949300
Tabla 3.25. Distribución para CD34+ primera Figura 3.2 Transformación Box-Cox de CD34+/Kg de cosecha/Kg. de peso del paciente transformada con peso del paciente en la primera cosecha
Box-Cox
Media
Desviación Estándar Varianza
Sesgo Curtosis CV
0.77723 0.09974 0.00995 0.10004 0.97683 12.83292
Valor Máximo 3er Cuartel Mediana 1" Cuartil Valor Mínimo
1.0212 0.8333 0.7683 0.7291 0.5313
18
0¡
c) Independencia: No se cumple
Se puede observar en la figura 3.3 que en los modelos uno, tres y cuatro no se aprecia dependencia o correlación en los residuales, sin embargo, en el modelo dos, parece formarse una máscara en V lo que indica que no se cumple con este supuesto.
Fignra 33. Gráficos de residuales contra predicción de los modelos uno, dos, tres y cuatro
Modelo uno Modelo dos
DB DB na Valores predichos
I °°
BE 0.1 DB 03
Valores predichos
Modelo tres Modelo cuatro
D.1 OH
Capitulo 4: Conclusiones
4.1. Introducción
Los resultados presentados en el capítulo anterior fueron seleccionados de varios análisis donde probamos diferentes combinaciones de variables predictoras, hasta obtener los modelos con un mejor ajuste o una mejor predicción y, en su caso, sus
matrices de predicción y sus crossvalidations.
Ya que se requiere comparar modelos desarrollados por diferentes metodologías, nuestra valoración no toma como base única los P-valores o el ajuste, como tradicionalmente se hace en la inferencia estadística (de hecho el Análisis
Discriminante, per se, no se evalúa en función de un P-valor). De hacerlo así,
podríamos llegar a conclusiones engañosas dado el tamaño de la muestra y el proceso de iteración de selección de variables [Raftery, 1995].
Para seleccionar el modelo que prediga el número de aféresis (cantidad de procedimientos necesarios para completar la cantidad necesaria de células madre por peso del paciente); es decir, para comparar el modelo arrojado por el Análisis Discriminante contra el desarrollado por Regresión Logística, se considera en primera
instancia el porcentaje de error de clasificación, la validación de supuestos y el cross
validation.
Para la selección del modelo que predice el número de células madre que se cosecharán a partir de una biometría hemática, es muy útil tomar en cuenta criterios basados en la teoría de la información, mismos que permiten identificar el mejor modelo de una manera más sencilla y automática. Para ello ponderamos los resultados del Criterio de Akaike (AIC) y el Criterio de Información Bayesiana (BIC) propuesto por Schwarz (1978) y desarrollado posteriormente por Raftery (1995) (Ver Anexo 3).
Solicitamos al lector mantener en mente que los resultados y las conclusiones de este trabajo se limitan específicamente a los datos obtenidos de los donadores atendidos en el Hospital San José de Monterrey y en el Centro Médico Nacional. Sin dejar de contemplar, aunque no formalmente, las inferencias que intuitivamente hace el doctor
en la práctica médica como información apriori.
A continuación se discute acerca de los modelos escogidos, de su interpretación y de sus implicaciones clínicas.
4.2. Discusión Acerca de la Metodología y los Resultados
barrera es que la muestra con la que contamos no es tomada al azar, y si bien se podrían tomar los datos de pacientes de diferentes hospitales aleatoriamente, los procedimientos para la producción y cosecha de CD34+ varían, situación que dificultaría la
comparación o, en todo caso, agregaría una o más variables al modelo, que no
forzosamente mejorarían el ajuste.
Aunque el ajuste es de 90%, concretamente los errores de clasificación son 2 de 20 pacientes a los que se predice una cantidad menor de aféresis de las que verdaderamente necesitan, lo cual, en la práctica clínica, implica tener a dos donadores con la expectativa de completar la cantidad de células necesaria para el trasplante, en una sesión, y desgraciadamente tendrían que presentarse una y hasta dos veces más.
La Regresión Logística, en contraposición, se valida con el cumplimiento de los supuestos aunque presenta una clasificación no tan acertada. Sin embargo, creemos factible que en la práctica clínica se cometerían errores en la predicción, toda vez que la Regresión Logística puede ser inexacta cuando hay pocas observaciones y la proporción de ellas en los grupos no está balanceada; nuestro modelo se encuentra particularmente cargado de individuos que requieren dos o más aféresis.
4.2.2. Modelos que Predicen la Cantidad de Células Madre en una Cosecha
Se deseaba obtener una fórmula capaz de predecir la cantidad de células madre en la
primera cosecha, a partir de las mediciones precosecha sin incluir la medición de las CD34+ porcentuales precosecha. Por lo que en el "modelo uno" se toman como variables predictoras los leucocitos y los porcentajes de hematocrito, neutrófílos, linfocitos y monolitos precosecha; sin embargo, tan sólo alcanzó un ajuste con 20% de certeza, por lo que tal modelo sería de poca utilidad predictiva. Además, sus valores de AIC y BIC son más altos en comparación con los otros tres modelos.
En el "modelo dos" se toman las mismas variables predictoras que en el "modelo uno", más la medición de CD34+ porcentuales precosecha; para comprobar el efecto de esta variable en el modelo; sin embargo, la capacidad de predicción no mejora lo suficiente como para utilizarlo en la práctica clínica, ya que con 55% de certeza en el ajuste prácticamente se estaría 'adivinando' la cosecha, si bien sus AIC y BIC son apenas menores que los del "modelo uno", son más grandes que en los modelos tres y cuatro.
Los "modelos tres y cuatro" predicen la segunda cosecha de CD34+, a partir de los datos arrojados por la biometría hemática del primer día y la cosecha de CD34+ obtenida en la primera aféresis; ambos presentan ajustes más altos.
El "modelo tres", que toma en cuenta los leucocitos y el porcentaje precosecha de hematocrito, neutrófílos, linfocitos, monocitos y la primera cosecha de células madre para predecir una segunda cosecha de CD34+, tiene un ajuste de 58% y una significancia de 96%; que ya podría ser de utilidad predictiva para los médicos, tiene un valor de AIC y BIC apenas mayor al del "modelo cuatro".
CD34+. Se puede abordar con Mínimos Cuadrados Ordinarios, con un AIC = .006270 y BIC = .007651, el menor de los cuatro modelos, por lo que seleccionamos este sobre los otros tres.
El modelo obtenido por el Análisis Discriminante aunado al "modelo cuatro" puede ser de gran utilidad para el médico. Esto es, con la biometría hemática del primer día se podrá predecir por el modelo de Análisis Discriminante el número de aféresis que el donador requiere (1, 2 ó 3). Al finalizar la primera cosecha, aún en caso de haber predicho erróneamente el número de sesiones (en el peor escenario se predice una sola aféresis y al final del proceso se dan cuenta de que el número de células madre no alcanza, no es el necesario para el trasplante), se podrá calcular con ayuda del "modelo cuatro" el número de CD34+ en la cosecha del segundo día; aún si con ésta no fuese suficiente, el médico podría posponer la segunda aféresis un día más, durante el cual posiblemente las células madre se multipliquen de modo que se obtenga la cosecha deseada al tercer día.
4.3. Discusión General
La principal aportación de este estudio son dos modelos que aplicados en conjunto podrán ayudar al médico a decidir si es conveniente o no realizar la aféresis en un donante en determinado momento. A diferencia del resto de los estudios, el análisis aquí realizado se soporta en el apego a una metodología estadística formal.
Consideramos que idealmente el problema se hubiera abordado como un Análisis Longitudinal; sin embargo, dado a que se trabaja con los datos disponibles, es necesario visualizar el problema desde una perspectiva más abierta y general, de modo que seleccionamos las herramientas estadísticas existentes que mejor pudieran analizar las relaciones que necesitábamos aclarar. Si hubiésemos considerado otra metodología, sin comprobar los supuestos necesarios, el resultado no sería válido.
Anexo 1: Material del Marco Teórico
Tabla 1. Resumen de Artículos Médicos Consultados para el Marco Teórico
Fecha 1996 1996 2000 2000 2000 2000
Nombre del Artículo Impact of PreleukaDheresis Cell Counts on Collection Resulte and Correlation of Progenitor-Cell Dose With Engraftment After Hieh-Dose Chemotherapv in Patients With
Germ Cell Cance.r
Circulatine Proeenitor Cell Collection Exnirience from 275
Leukaoheresis in Various Malienancies and in Health
Donors.
Hieh Dose Chemotheraov an Autoloeous Stem-Cell Transplantation for Ovarían Cáncer: An Autoloeous Blood an Marrow Transplant Reaistrv
Report.
Laree scale mobilization and isolation of CD34+ cells from
normal donors.
Lenograstim-mobilized oeripheral blood oroeenitor cells in volunteer donors: an ooen label randomized split
dose escalatin? studv.
Scorine svstem for the prediction of successful Derioheral blood stem cell ( PBSC) collection in
non-Autores Schwella Nimrod, Beyer Jorg, Schwaner Ingo, Heuft Hans-Gert,
Rick Oliver, Huhn Dieter, Serke Stefan,
Siegert Wolfang.
Torretta Lorella, Perotti Cesare. Dornini Gianluca. Danova
Marco, Locatelli Franco, Pedrazzoli Paolo, Preti Pietro, Da
PradaGian Antonio, Pavesi Lorenzo. Robustelli della Cuna
Gioacchino. Salvanescht Laura. Stiff Patrick, Veum-Stone Judith, Lazarous
Hillard, Ayash Lois. Edwards John, Keating
Armand, Klein John. Oblon David, Shea
Tomas, Thomé Stephan, Horowitz
Mary.
JM Croop, R Cooper, C Fernandez, V Graves, S Kreissman, FO Smith,
K. Cornetta, DA Williams & R Abonour
N Basara, B Schmetzer, IW Blau, M Bischoff. S Günzelmann, D Kirsten
& AA Fauser.
JM Vantelon, S Koscienlny. P Brault. JH Bourhis, V Ribrag, J Pico, P Fenaux 6 JM
Objetivo del estudio Identificar factores predictivos para una
buena cosecha de células progenituras y
determinar los requerimientos de la
dosis de éstas en la sangre periférica para un
transplante hematopoyético rápido.
Determinar los factores que afectan considerablemente la
cosecha de células progenitoras.
Analizar los beneficios del transplante autólogo
de células progenitoras en pacientes con cáncer
ovárico.
Obtener evidencia de una segura cosecha de cuentas adecuadas de CD34+ de la sangre periférica de donantes
sanos.
Analizar el efecto de diferentes dosis de
rhG-CSF (lenograstim) en donantes sanos
voluntarios.
Estudiar los factores de influencia en la mobilización y cosecha de células progenitoras
Resultados La recuperación hematopoiética puede ser alcanzada en un transplante
con una dosis de PBPC mayor a 2.5* 10(6) CD34+
ceIls;T<g Y cuando las cuentas de precosecha de
CD34+ son superiores a 4* 1 0(4) mi/ se pueden lograr cosechas de 2.5 *l()(6)CD34+cells/kg.
Se encontraron diferencias en las medias de células progenitoras cosechadas entre los pacientes que recibieron quimioterapia y
los que recibieron radioterapia.
Algunos subgrupos de pacientes con cáncer ovárico
parecen haber tenido una mejoría posterior al transplante; sin embargo, el
sesgo de la muestra pudo haber afectado los
resultados.
El número de células CD34+ cosechadas no presentó diferencias entre mujeres y hombres, pero si se correlacionó con el peso del paciente y el total de
células mononucleadas cosechadas. Se encontraron diferencias
en la cosecha de CD34+ debido a las diferentes dosis
de lenograstim administradas. En el grupo al cual se administraron 1 5
mg por día no se presentó una correlación entre la producción de CD34+ y la
edad, por lo que se recomienda la dosis para
donantes mayores.
Las cosechas de células progenitoras no estuvieron
asociadas con la edad y ni con el género, historial de transplante de médula, ni estado de la enfermedad. En