• No se han encontrado resultados

Predicción del Porcentaje de Células Progenitoras Sanguineas a Partir de la Pre-Cosecha de Varias Células en el Torrente Sanguíneo -Edición Única

N/A
N/A
Protected

Academic year: 2017

Share "Predicción del Porcentaje de Células Progenitoras Sanguineas a Partir de la Pre-Cosecha de Varias Células en el Torrente Sanguíneo -Edición Única"

Copied!
62
0
0

Texto completo

(1)

Instituto Tecnológico v de Estudios Superiores de Monterrey

Campus Monterrey

Monterrey, Nuevo León a

", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO.

El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.

De la misma manera, desligo de toda responsabilidad a EL INSTITUTO por cualquier violación a los derechos de autor y propiedad intelectual que cometa el suscrito frente a terceros.

Nombre y Firma AUTOR (A)

de 200

Lic. Arturo Azuara Flores:

Director de Asesoría Legal del Sistema

(2)

 

Predicción del Porcentaje de Células Progenitoras Sanguineas a

Partir de la Pre-Cosecha de Varias Células en el Torrente

Sanguíneo -Edición Única

   

Title Predicción del Porcentaje de Células Progenitoras

Sanguineas a Partir de la Pre-Cosecha de Varias Células en el Torrente Sanguíneo -Edición Única

Authors Helia Yohanina Haaz Melgarejo

Affiliation ITESM-Campus Monterrey

Issue Date 2005-12-01

Item type Tesis

Rights Open Access

Downloaded 19-Jan-2017 12:37:59

(3)
(4)

INSTITUTO TECNOLÓGICO Y DE ESTUDIOS

SUPERIORES DE MONTERREY

CAMPUS MONTERREY

PROGRAMA DE GRADUADOS EN TECNOLOGÍAS

DE INFORMACIÓN Y ELECTRÓNICA

PREDICCIÓN DEL PORCENTAJE DE CÉLULAS PROGENITORES SANGUÍNEAS A PARTIR DE LA PRE-COSECHA DE VARIAS

CÉLULAS EN EL TORRENTE SANGUINEO

T E S I S

PRESENTADA COMO REQUISITO PARCIAL

PARA OBTENER EL GRADO ACADÉMICO DE:

MAESTRO EN CIENCIAS

ESPECIALIDAD EN ESTADÍSTICA APLICADA

POR:

(5)

INSTITUTO TECNOLÓGICO DE ESTUDIOS SUPERIORES DE

MONTERREY

DIVISIÓN DE TECNOLOGÍAS DE INFORMACIÓN Y

ELECTRÓNICA

CLAUSTRO DE LA MAESTRÍA EN ESTADÍSTICA APLICADA

Los miembros del comité de tesis recomendamos que la presente

tesis de Helia Yohaina Haaz Melgarejo sea aceptada como requisito parcial

para obtener el grado académico de Maestro en Ciencias con especialidad

en Estadística Aplicada.

Comité de tesis:

Dra. Rebeca Romero

Asesora

Dr. Francisco García

Sinodal

Dr. Rafael Borbolla

Sinodal

Dr. David Alejandro Garza Salazar

Director del Programa de Graduados en

Tecnologías de Información y Electrónica

(6)

Dedicatoria

(7)

Agradecimientos

A Dios.

A Victoria, gracias por darme las fuerzas para terminar

A mi mamá, mi papá, mi hermana Elo y Arlette: por el empujón para atreverme a estudiar estadística. Y a Memo por apoyarme a pesar de sí.

A Lalito, Blanquita, Paola, Conchis, Alex, Hugo y Leo por tooodas las porras. A mis profesores y amigos: Jorge Sierra, Christian Garrigoux, José G. Ríos, Olivia Carrillo, José Luis Garza y José Luis González, por ayudarme a abrir una sección inusitada de mi mente.

Al Ing. Patricio López del Puerto y Eduardo Salcedo por todos los refrendos firmados.

Al Dr. Rafael Borbolla por dejarme participar en este maravilloso proyecto de sanación.

(8)

Resumen

En el siguiente trabajo se utilizan el Análisis Discriminante y la Regresión Logística con el objeto de predecir el número de procedimientos de extracción (aféresis) necesarias para que un paciente o donante de médula ósea complete la cantidad de células requerida para el trasplante, y de esa manera, facilitar la práctica clínica en la extracción de células madre sanguíneas.

(9)

Tabla de Contenido

Dedicatoria ii Agradecimientos iii Resumen iv Tabla de Contenido v Lista de Figuras vi Lista de Tablas vii

Capítulo 1 Introducción 1 1.1 Problema de Estudio 1 1.2 Importancia y Justificación del Estudio 2 1.3 Objetivo 3 1.4 Antecedentes 3 1.5 Comentarios 4 1.6 Estructura de la Tesis 4

Capítulo 2 Material 5 2.1 Introducción 5 2.2 Población de Interés 5 2.3 Características de la Muestra 5

Capítulo 3 Metodología 12 3.1 Introducción 12 3.2 Análisis Discriminante 12 3.2.1 Resultados del Análisis Discriminante 13 3.3 Regresión Logística 18 3.3.1 Resultados de la Regresión Logística 19 3.4 Regresión Ridge 21 3.4.1 Resultados de la Regresión Ridge 22

Capítulo 4 Conclusiones 30 4.1 Introducción 30 4.2 Discusión acerca de Metodología y Resultados 30 4.2.1 Modelos que Predicen el Número de Aféresis Requeridas para 30 Completar la Cantidad de Células Madre Necesarias para el Transplante. 4.2.1 Modelos que Predicen la Cantidad de Células Madre en una

Cosecha 31 4.3 Discusión General 32

Anexo 1 Material del Marco Teórico 34 Anexo 2 Datos 36 Anexo 3 Metodología Estadística 39

(10)

Lista de Figuras

Figura 1.1 Calendario de actividades de un individuo que completa la cantidad de células CD34+ necesarias para el trasplante en cuatro procesos de aféresis

Figura 2.1 Número de individuos por diagnóstico Figura 2.2 Descripción de la muestra por aféresis Figura 2.3 Descripción de la muestra por edad Figura 2.4 Descripción de la muestra por peso Figura 2.5 Leucocitos

Figura 2.6 Hematocrito Figura 2.7 Neutrófilos Figura 2.8 Linfocitos Figura 2.9 Monocitos

Figura 2.10 CD34+ precosecha Figura 2.11 Matriz de dispersión

Figura 2.12 Porcentaje de CD34+ en la cosecha

Figura 3.1 Residuales de grupo (O o 1) contra número de observación Figura 3.2 Transformación Box-Cox de CD34+/ Kg. de peso del paciente

en la primera cosecha

Figura 3.3 Gráficos de residuales contra predicción de los modelos uno, dos, tres y cuatro

Anexo 2

Figura 1 Gráfico Box-Cox de iteraciones de lambda para CD34+ cosecha/ Kg. de peso del paciente

Anexo 3

Figura 1 Ejemplo de cruce de variables x1 y x2 para ilustrar el concepto de

distancia cuadrada de Mahalanobis

Figura 2 Segundo ejemplo de cruce de variables x1 y x2 para ilustrar el

concepto de distancia cuadrada de Mahalanobis

Figura 3 Gráfica de probabilidad de ser sujeto de crédito asociada a la solvencia económica del individuo

Figura 4 Gráfico de factor de inflación de la varianza (VIF) asociado a

diferentes valores de c

2 6 6 7 7 7 8 8 8 9 9 10 11 21

29

29

38

39

40

43

(11)

Lista de Tablas

Tabla 2.1 Variables predictoras 5 Tabla 2.2 Individuos por género 6 Tabla 2.3 Individuos por diagnóstico 6 Tabla 2.4 Descripción de la muestra por número de aféresis 6 Tabla 2.5 Descripción de la muestra por edad 7 Tabla 2.6 Descripción de la muestra por peso 7 Tabla 2.7 Leucocitos 7 Tabla 2.8 Distribución para hematocrito 8 Tabla 2.9 Distribución para neutrófílos 8 Tabla 2.10 Distribución para linfocitos 8 Tabla 2.11 Distribución para monocitos 9 Tabla 2.12 Distribución para CD34+ precosecha 9 Tabla 2.13 Matriz de correlación de las variables predictoras 9 Tabla 2.14 Distribución para porcentaje de CD34+ en la cosecha 11 Tabla 3.1 Coeficientes del Análisis Discriminante 14 Tabla 3.2 Clasificación de individuos con base en el Análisis

Discriminante 14

Tabla 3.3 Reclasifícación utilizando cross­validation 15

Tabla 3.4 Prueba de normalidad de Kolmogorov-Smirnof para las variables predictoras del Análisis Discriminante 15 Tabla 3.5 Prueba de Box de homogeneidad de covarianzas 16 Tabla 3.6 Pruebas de igualdad de medias entre los grupos 16 Tabla 3.7 Distancia cuadrada de Mahalanobis 17 Tabla 3.8 Prueba de T cuadrada de Hotelling para diferencias de media

entre grupos asociada a la distancia cuadrada de Mahalanobis 17 Tabla 3.9 Coeficientes de correlación de las variables predictoras 17 Tabla 3.10 Clasificación de individuos con base en la Regresión Logística... 20 Tabla 3.11 Factores de inflación de la varianza para las variables predictoras

del modelo uno 23 Tabla 3.12 Factores de inflación de la varianza para las variables predictoras

del modelo dos 23 Tabla 3.13 Factores de inflación de la varianza para las variables predictoras

del modelo tres 23 Tabla 3.14 Factores de inflación de la varianza para las variables predictoras

del modelo cuatro 23 Tabla 3.15 Tabla comparativa de factores de inflación de la varianza,

coeficientes, ajuste, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el

modelo uno 24 Tabla 3.16 Tabla comparativa de factores de inflación de la varianza,

coeficientes, ajuste, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el

(12)

Tabla 3.17

Tabla 3.18 Tabla

Tabla Tabla Tabla Tabla

3.19 3.20 3.21 3.22 3.23

Tabla 3.24 Tabla 3.25

Tabla comparativa de factores de inflación de la varianza, coeficientes, ajuste, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo tres , Significancia de las variables predictoras para el modelo

cuatro

Anova para el modelo uno con K=0.20 Anova para el modelo dos con K=0.20 Anova para el modelo tres con K=0.20 Anova para el modelo cuatro con K=0.20

Factor de correlación entre las variables de los modelos uno y

dos

Factor de correlación entre las variables de los modelos tres y cuatro

Distribución para transformación Box-Cox de CD34+ primera cosecha / Kg. de peso del paciente

Tabla 1

Tabla 1 Tabla 2 Tabla 3

Tabla Tabla

1

2

Anexo 1

Resumen de artículos médicos para el marco teórico

Anexo 2

Características de los individuos

Resultados de la biometría hemática precosecha y de la cosecha de CD34+ y datos transformados

Valores de la última iteración de lambda para Box-Cox

Anexo 3

Ejemplo de una matriz de clasificación para el Análisis Discriminante

Ejemplo de una matriz de clasificación para la Regresión Logística

25

26 26 27 27 27

28

28

29

34

36

37 38

41

(13)

Capítulo uno: Introducción

1.1. Problema de Estudio

Los pacientes de cáncer son frecuentemente tratados con quimio o radioterapia, lo cual, como efecto secundario, puede afectar a las células sanas. Se ha comprobado que el trasplante de médula ósea asegura una mejor recuperación hematopoyética después de este tipo de tratamientos [NYBC, 2001]. Esto es, si el paciente recibe células progenituras sanguíneas (trasplante de médula ósea) después de haber recibido quimioterapia de alta dosis, éste recuperará la cantidad regular de células en su torrente sanguíneo más rápidamente [Stiff et al, 2000; Horning et al, 2001].

Existen dos tipos de transplante: el autólogo, cuando las células son extraídas del mismo paciente; y el alogénico, cuando una persona sana dona sus células a un paciente. En cualquiera de los dos casos, la práctica común indica que el paciente debe recibir 5 millones de células madre (médula ósea) por cada kilogramo de peso.

El procesó de extracción (cosecha) de células madre, básicamente, consiste en los siguientes cuatro pasos:

1. Movilización. Las células madre (CD34+) son movilizadas de la célula ósea al torrente sanguíneo con ayuda de un agente movilizador inyectado durante varios días. En este estudio se inyectó factor estimulante de colonias de granulocitos (Neupogen™) al donante durante cinco días, al termino de los cuales se supone que ya se encuentra una cantidad suficiente de células madre en el torrente sanguíneo, por lo que la cosecha se lleva a cabo el sexto día.

2. Muestra de sangre previa (PHBS). La mañana previa a la extracción, una

pequeña muestra de sangre es extraída y analizada. Con base en su experiencia profesional, los hematólogos piensan que a mayor cantidad de leucocitos en esta prueba, mejor será la cosecha de CD34+.

3. Aféresis. El paciente se sienta en la sala de aféresis y su sangre es extraída y bombeada a un citómetro de flujo, donde las células son separadas por fuerza centrífuga, y esta "cosecha" es colocada en una bolsa de plástico, mientras que el resto de la sangre es regresada al torrente sanguíneo. Esta parte del proceso puede tomar de cuatro a cinco horas, ya que la sangre pasa a través de la máquina varias veces.

(14)

Si la cantidad de células necesaria para asegurar un buen trasplante no se alcanza,

entonces se administra otra dosis de Neupogen™ esa misma tarde, y al día siguiente se realiza una segunda cosecha, así sucesivamente hasta completar habitualmente un máximo de cuatro aféresis seguidas (Ver Figura 1.1).

Figura  1 . 1 . Calendario de actividades de un individuo que complcíu la cantidad de células (1)34 ; necesarias para el trasplante en cuatro procesos de aféresis

Staundo día

Primera inyección de

Neupogen I M Segunda inyección deNeupogen ' Xl Torcera inyección deNeupogcn I M Cuarta invección deNeupogen I M Quinta inyección deNeupogen1 vl

Muestra y decisión de aféresis

Aféresis de CD34, contabilización y decisión

de otra aféresis

Sexta inyección de Neupogen ' M

Segunda muestra

Aféresis de CD34. coniíibilizaeión \ decisión

de otra aféresis

Séptima inyección de Neupogen'' Xl

Tercera muestra

Aféresis de CD34. contabili/'ación y decisión

do otra aféresis

Octava inyección de Neupogen I M

Cuarta muestra

Aféresis de CD34. contabili/acion y decisión

di1 otra aféresis

De aquí que, el hematólogo desea asegurarse de tener una buena cosecha desde el primer día. para no sentar al paciente en vano. Así. el sexto día. con base en la cuenta de células obtenidas en la muestra previa, decide si es conveniente o no practicarle la aféresis al paciente o donante.

1.2. Importancia y Justificación del Estudio

(15)

1.3. Objetivo

Médico

Utilizar la información de la prueba de sangre, precosecha, para decidir si es adecuado o no realizar la cosecha un día dado y, si se decide realizar la aféresis, obtener un estimado de la cantidad de células progenituras sanguíneas necesarias por cada kilogramo del paciente.

Estadístico

Determinar la relación entre la cantidad de células sanguíneas (linfocitos, leucocitos, monocitos, neutrófilos, hematocrito) precosecha y la cantidad de células progenitoras cosechadas en el torrente sanguíneo.

1.4. Antecedentes

Hasta ahora, los investigadores, interesados en encontrar un parámetro de predicción de la cosecha, han abordado el problema estadístico relacionando la cuenta de varias células en la precosecha con la CD34+ cosechada (Ver Tabla 1, Anexo 1).

En el artículo "Impact of Prelenkapheresis Cell Counís on Collection Results

and Correlation of Progenitor­Cell Pose With Engraftment After Hish­Dose Chemotherapy in Patients With Germ Cell Cáncer" [Schwella et al, 1996] se

utiliza el factor de correlación de Pearson sobre 185 resultados arrojados por 71 pacientes con cáncer germinal; es decir, de dos a cinco repeticiones de la muestra por paciente. Esto es, no se toma en cuenta que la cantidad de células cosechadas en cada individuo debe estar correlacionada con el número de aféresis realizadas al mismo.

En el artículo "Minimal Number of circulatins CD34+ cells to ensure successful

leukapheresis and engraftment in autologons peripheral blood progenitor cell transplantation " [Pérez-Simón et al, 1998] se analizan 263 aféresis realizadas a

71 pacientes con diferentes tipos de cáncer, como si cada una de esas cosechas fuese de un individuo distinto. También se realiza una ANOVA con el fin de identificar diferencias entre la media de CD34+ cosechadas entre los individuos que padecen cada tipo de cáncer; sin embargo, además de no considerar que las aféresis son realizadas a través del tiempo, no se muestra la validación de supuestos para el análisis.

En "77?g predictive valué of white cell or CD34+ cell count in the peripheral

blood for timing apheresis and maximizing yield" [Yu et al, 1999] se toman los

datos de 93 pacientes, a los cuales se realizaron 216 aféresis. En "Direct

Measurement ofCD34+ Blood Stem Cell Counts by Flow Cytometry" [Fukuda

et al, 1998], de manera similar, se toman 49 resultados arrojados por 22

pacientes. Y en el artículo "The CD3­16+56+ NK cell count independently

predicts autolosous blood stem cell mobilizatiorf [Stewart et al, 2000] se

(16)

supuesto de normalidad, en sus artículos no se menciona la comprobación del resto de supuestos que se requieren para validar el uso de esta metodología estadística (Mínimos Cuadrados Ordinarios).

En estos estudios, el factor de correlación más alto es hallado entre las células madre de la muestra previa y la cantidad de CD34+ obtenidos en la cosecha. En todo caso, medir esta célula es algo complicado, porque aún tratándose de una pequeña cantidad de sangre, la célula tallo debe separarse del resto de las células sanguíneas con ayuda del citómetro de flujo.

1.5. Comentarios

Es cierto que es imposible aleatorizar estos estudios médicos, y que nos vemos obligados, al igual que el resto de los investigadores, a trabajar con los datos disponibles. Pero a pesar de esta limitante, abordamos el estudio considerando que naturalmente existe cierto balance celular en el torrente sanguíneo ante la aplicación del movilizador de médula ósea, y que las aféresis son realizadas al mismo individuo; es decir, existen altas correlaciones en las medidas de las células de la precosecha, así como una dependencia entre las cosechas del mismo paciente.

Aplicamos los métodos estadísticos que pudieran modelar mejor la estructura de los datos, asegurándonos del cumplimiento de supuestos para no poner en riesgo la validez de los análisis. Si bien hay maneras más sofisticadas de analizar los datos, como se menciona en el capítulo tres, el hecho de considerar métodos más comunes refleja el principal interés de tomar la decisión de realizar o no las aféresis a los pacientes, en determinado momento.

1.6 Estructura de la Tesis

(17)

Capitulo 2; Material

2.1. Introducción

En este capítulo presentamos la información disponible para llevar a cabo el presente estudio. Las características principales de la muestra permiten identificar la distribución de los datos, sus valores atípicos y la correlación de las variables. Lo cual nos ayudará posteriormente, en el capítulo tres, a validar algunos de los supuestos necesarios para aplicar los métodos estadísticos.

2.2. Población de Interés

La población que nos interesa analizar está conformada por pacientes y donadores sanos que se someten al procedimiento de aféresis de CD34+. En estos casos es difícil aleatorizar el experimento, dadas las circunstancias del procedimiento médico; por lo que se deriva a utilizar todos los resultados de las aféresis efectuadas.

Las variables predictoras son las células que se miden en una biometría hemática de rutina, a saber:

Tabla 2.1. Variables predictoras

Variable

Hemaíocríto

Leucocitos

Neulrófilo.i

Linfocitos

Monocitos

CD34+

Definición

El hcmatocrito es la proporción de células rojas que se circulan en la sangre

Células blancas de la sangre, carentes de hemoglobina, son parte del sistema inmunológico y se dividen en cinco diferentes tipos de células Uno de los tipos de células polimorfonuclcarcs que circulan en la sangre y están relacionadas con la eliminación de microorganismos infecciosos Un tipo de leucocitos mononuclcarcs, son responsables del

reconocimiento y la eliminación de agentes externos específicos También son leucocitos mononuclcarcs y su función está más directamente relacionada a la limpieza, después de la destrucción de los agentes dañinos

Célalas tallo o células progenituras sanguíneas. Reciben este nombre por estar cubiertas con la proteína cci34+

Medida

Porcentaje

Unidades

Porcentaje

Porcentaje

Porcentaje

Porcentaje

2.3. Características de la Muestra

(18)

Género. El número de hombres y mujeres sanos y con cáncer en quienes se realizaron la aféresis de células progenituras.

Tabla 2.2. Individuos por genero

Género

Masculino Femenino Total

Frecuencia 13 16

29

Porcentaje 45

55 100

Diagnóstico. Se especifica el padecimiento principal de los pacientes por el cuál se sometieron a un trasplante autólogo y el número de personas sanas que donaron médula ósea a algún familiar.

Tabla 2.3. Individuos por diagnóstico Figura 2.1. Número de individuos por diagnóstico

Diagnóstico

Ca Mama SANO

LMC LANL-M2

LNH

Mieloma LAL-T

LANL-M5

MM Total

Frecuencia

7 6

5 3

3

2 1 1

1 29

Porcentaje

24 21

17 10

10

7 3

3 3 100

Número de procedimientos. Cantidad de aféresis realizadas para completar la cantidad necesaria de células CD34+.

Tabla 2.4. Descripción de la muestra por número

de aféresis Figura 2.2. Descripción de la muestra por aféresis

Aféresis Una Dos Tres Cuatro

Total

Frecuencia 9 15

3 2 29

Porcentaje

31

52 10

7

(19)

Edad y peso. La edad de los individuos varía entre 4 y 56 años, y sus pesos de 17.50a 105.3 kilogramos.

Tabla 2.5. Edad

Tabla 2.6. Peso

Figura 2.3. Descripción de la muestra por edad

Media

Desviación Estándar Varianza

Sesgo Curtosis CV

30.9 14.3

205.3

­0.4 ­0.8 46.4

Valor Máximo 3er Cuartil Mediana 1er Cuartil Valor Mínimo

56 43 35 17 4

Media

Desviación Estándar Varianza

Sesgo Curtosis CV

61.9 20.0

400.5

­0.5 0.5 32.3

Valor Máximo 3er Cuartil Mediana 1er Cuartil Valor Mínimo

105.3 76.0 63.0 54.3 17.0

Figura 2.4. Descripción de la muestra por peso

20 40 60 80 100 120

• Variables predictoras. Se muestran sus estadísticos básicos, su distribución y sus valores atípicos.

Leucocitos precosecha: se encontró un sesgo derecho considerable, un valor

atípico de la paciente IPT con 71,300 unidades.

Tabla 2.7. Distribución para los leucocitos Figura 2.5. Leucocitos precosecha

Media

Desviación Estándar Varianza

Sesgo Curtosis CV

28379.31 16689.65 278544557

0.60 0.44

58.81

Valor Máximo 3er Cuartil Mediana 1" Cuartil

Valor Mínimo

71300 37000 25900 19700

(20)
(21)
(22)
(23)
(24)

Capitulo 3; Metodología

3.1. Introducción

A primera vista parece evidente la necesidad de abordar el estudio de los datos con un análisis que considere que las aféresis son realizadas a través del tiempo, y que existe una variación en la cantidad cosechada de células de la primera a la segunda cosecha y de la segunda a la tercera, etc. Un análisis longitudinal nos daría la ventaja de ponderar toda la información considerando el tiempo. Sin embargo, debido al tamaño reducido de muestra y a la estructura tan pobre de la matriz de correlación, se requiere abordarlo de otra manera, misma que nos ayude a hacer inferencias igualmente válidas.

En este capítulo se presenta la aplicación de los tres métodos estadísticos utilizados: Análisis Discriminante y Regresión Logística, los cuales nos sirven para predecir el número de aféresis necesario para que el paciente complete el número de células requeridas; y la Regresión Ridge, la cual se utiliza para predecir la cantidad de células CD34+ cosechadas en la primera y segunda aféresis.

3.2 Análisis Discriminante

Objetivo

Este método se utiliza para separar observaciones de una muestra o población en varios grupos o clases. Dependiendo del uso de la información se utiliza como un método descriptivo o predictivo. En nuestro caso, lo emplearemos para predecir, a partir de las medidas de las células sanguíneas de la muestra previa, el número de aféresis que requeriría el individuo para completar la cantidad de células progenitoras para el trasplante.

De esta manera, el modelo tiene una variable dependiente categórica, el número de aféresis, y diversas variables independientes numéricas (las células de la muestra precosecha).

Para el caso de estudio, los grupos o clases de la variable dependiente quedan definidos como:

Grupo A. Los donantes que solamente necesitaron un solo procedimiento de aféresis para alcanzar el número de células madre.

Grupo B. Aquellos individuos que se sometieron a dos aféresis, para completar la cantidad necesaria de células madre.

(25)

Grupo del Individuo (A, B, C) = Ordenada al origen + Leucocitos + Hematocrito + Neutrófílos + Linfocitos + Monocitos + Peso + Diagnóstico.

Una vez obtenida la fórmula predictora, se utiliza el método de Cross Validation para

verificar su efectividad; es decir, la proporción de acierto en la clasificación. (Ver Anexo 3, Análisis Discriminante, Ajuste).

De esta manera obtendremos una tabla comparativa de las predicciones del Análisis Discriminante contra el grupo al que de hecho pertenece el individuo.

Supuestos del modelo

Aunque el Análisis Discriminante es bastante robusto3, se tienen que validar los

supuestos requeridos para hacerlo válido [Tabachnik & Fidell, 2001].

a) Independencia', las variables predictoras no se encuentran correlacionadas.

b) Aleatoriedad'. la muestra fue tomada al azar.

c) Normalidad: cualquier combinación lineal de variables predictoras se distribuye

de manera normal.

d) Ausencia de Valores Atípleos: no se detectan valores muy distantes de la media

en cada una de las variables predictoras.

e) Homogeneidad de Varianza y Matriz de Covarianza: el intervalo en el que se

encuentran los valores de las variables predictoras es equivalente, de modo que se puede realizar comparaciones entre ellas.

f) Linealidad: hay una relación lineal entre pares de variables predictoras dentro de

cada grupo. Esto se traduce a que los grupos se encuentran 'separados' dado a que existen diferencias entre la relación lineal de las variables predictoras con la variable dependiente para cada grupo.

g) Ausencia de Multicolinealidad y Singularidad: la multicolinealidad aparece

cuando las variables predictoras son muy redundantes, haciendo con esto que la inversión de la matriz de datos sea poco confiable (sea singular).

3.2.1. Resultados del Análisis Discriminante

Antecedentes

Con el objeto de obtener un modelo con un alto ajuste y el menor número de variables independientes, se realizaron varias combinaciones con las variables predictoras. Así mismo, se eliminaron de la muestra original los valores atípicos y los datos de los donadores sanos, de manera que pudiera validarse el supuesto correspondiente.

3 Aquí robusto se refiere a que el porcentaje de error causado por utilizar este proceso de clasificación no

(26)

Los análisis que se presentan a continuación son el resultado obtenido con el software estadístico SPLUS™.

Modelo

La combinación de variables predictoras con mayor acierto de clasificación incluía: leucocitos precosecha, neutrófílos porcentuales precosecha, linfocitos porcentuales precosecha y monocitos porcentuales precosecha.

Tabla 3.1. Coeficientes del Análisis Discriminante

Constante

Leucocitos precosecha

% Neutrófílos precosecha

% Linfocitos precosecha

%Monocitos precosecha

Grupo A

­23050.87

­0.0096

466.6791

467.2602

416.8939

Grupo B

­22784.4

­0.0096

464.0082

464.3960

414.5565

Grupo C

­23322.96

­0.0098

469.4X1 1

470.1304

419.0079

Resultados de Clasificación

En la siguiente matriz podemos observar cómo se clasifican los datos con base en el modelo discriminante, en comparación con el verdadero grupo al que pertenecen los individuos. El porcentaje total de individuos clasificados correctamente es de 90% (18 individuos de 20). Y únicamente dos individuos se colocan erróneamente en el grupo de una aféresis, cuando realmente requieren dos, lo cual en la práctica no significa un error grave porque el doctor se daría cuenta, después de la primera aféresis, que el paciente requiere de una segunda cosecha.

Tabla 3.2. Clasificación de individuos con base en el Análisis Discriminante

Grupo de .Predicción

Grupo Verdadero

Grupo A

Grupo B

Grupo C

Grupo A Grupo B

10

Grupo C Error

0%

16%

0%

(27)

Tabla 33. Reclasificación utilizando Cross­Vatidation

^Grupo de ^Predicción

Grupo Verdadero

Grupo A

Grupo U

Grupo C

Grupo A Grupo B Grupo C Error

25%

25%

25%

Validación de supuestos

a) Independencia: No se cumple

En este caso no se cumple el supuesto ya que se trata de células sanguíneas, y su balance natural implica cierta dependencia lineal.

b) Aleatoriedad: No se cumple

Dada la naturaleza del procedimiento clínico no se puede tomar una muestra aleatoria. Se utilizaron resultados obtenidos en el Centro Médico Nacional y en el Hospital San José de Monterrey.

c) Normalidad: Se cumple

Este supuesto lo verificarnos con la prueba de Kolmogorov-Smirnov [SPLUS™]; la cual tiene como hipótesis nula que: "los datos se distribuyen normales". Dado que los P-valores son superiores a .05, podemos decir que las variables predictoras tienen una distribución normal.

Tabla 3.4. Prueba de normalidad de Kolmogorov-Smimov para las variables predictoras del Análisis Discriminante

Leucocitos precosecha

% Neutrófilos precosecha

%Linfocitos precosecha

%Monocitos precosecha

Estadístico de Prueba

0.1122863

0.1000204

0.1182283

0.1295203

P­valor

0.9384140

0.9762104

0.9119979

0.8485997

d) Ausencia de valores atípleos: Se cumple

(28)

e) Homogeneidad de Varianza y Matriz de Covarianza: Se cumple

La prueba de Box's M tiene la hipótesis nula de que las matrices de covarianza no difieren entre grupos. Se busca que esta prueba resulte no significativa, para así poder considerar que los grupos no difieren.

Se considera que hay homogeneidad de varianzas y covarianzas, después de aplicar la prueba de Box [SPLUS™], con un P-valor de .76

Tabla 3.5. Prueba de Box de homogeneidad de covarianzas

BOX.M

M.ajustada

Estadístico

15.23253

7.60450

Grados de Libertad

20

20

P­valor

0.7629510

0.9941778

f) Linealidad: Se cumple

Si bien, como se observa en la figura 2.11, existe una relación lineal entre las variables predictoras, la comprobación de este supuesto se verifica no solamente de manera gráfica, sino comprobando que esta relación existe pero que los grupos se encuentran separados entre sí y que fácilmente se puede asociar cada observación al grupo al que pertenece.

Así, verificamos primero que la media de los grupos (su centroide) fuera estadísticamente diferente, con tres pruebas de igualdad de medias (Ver Tabla 3.6) como los P-valores en estas tres pruebas son menores a .05, rechazamos la hipótesis de la igualdad de medias entre los grupos.

Tabla 3.6. Pruebas de igualdad de medias entre los grupos

Lamda de Wilks

Traza de Filial

Traza de Hotelling­ Lawley

Estadísticos

0.2534

0.9077

2.3099

Valor f

3.4525

3.1165

3.7537

Primer valor de grados de libertad

8

8

8

Segundo valor de grados de

libertad

28

30

26

P­valor

0.006876

0.011020

0.004819

(29)

Tabla 3.7. Distancia cuadrada de Mahalanobis

Grupo A

Grupo B

Grupo C

Grupo A

0.000000

Grupo B

2.82561

0.00000

Grupo C

6.95754

11.21732

0.00000

Posteriormente verificamos, como se muestra en la Tabla 3.8, que estas distancias sean significativas. Así, se considera estadísticamente significativa la distancia entre los grupos A-C y B-C de acuerdo con los P-valores; sin embargo, la distancia entre A-B * no es tan evidente, ya que su significancia es tan sólo de 80%

Tabla 3.8. Prueba de T cuadrada de Hotelling para diferencias de media entre grupo asociada a la distancia cuadrada de Mahalanobis

Grupo A ­Grupo B

Grupo A ­Grupo C

Grupo B ­Grupo C

Valor F

1 .745230

2.864871

6.928346

Primer valor de grados de

libertad 4

4

4

Segundo valor de grados de

libertad 14

14

14

P­valor

0.1960876

0.0631067

0.0027106

g) Ausencia de multicolinealidady singularidad: No se cumple

Este supuesto no se cumple dada la correlación entre las variables predictoras, como se observó en la matriz de correlaciones al final del capítulo dos. Aún recalculando los coeficientes de correlación con la muestra tamaño 20, seguimos observando que hay colinealidad alta (Ver Tabla 3.9).

Tabla 3.9. Coeficientes de correlación de las variables predictoras

Leu.pre

Neu.pre

Linfos.pre

Monos.pre

Leu.pre

1.0000000

0.5533997

-0.4586558

-0.2628890

Neu.pre

0.5533997

1.0000000

-0.9234967

-0.3306570

Linios. pre

-0.45865584

-0.92349669

1.00000000

-0.04433206

Monos.pre

-0.26288903

-0.33065699

-0.04433206

(30)

3.3. Regresión Logística

Objetivo

La Regresión Logística es usualmente utilizada para realizar predicciones binarias basadas en variables independientes continuas. En nuestro caso la predicción se reduce a determinar si el individuo puede alcanzar el número deseado de células progenitoras en una sola aféresis o no.

Así, nuestras variables predictoras siguen siendo las mismas que en el caso del Análisis Discriminante pero nuestros grupos se reducen a:

Grupo 0. Si el individuo requiere una sola aféresis.

Grupo 1. Si el individuo requiere dos o más aféresis.

Cabe mencionar que el hecho de que contemos con tan pocas observaciones tiene un impacto negativo en el poder de la prueba; es decir, en su capacidad de predicción y su certeza; ya que este método requiere tanto de un número de observaciones considerable, como de un equilibrio en el tamaño de los grupos.

Modelo

De acuerdo con el modelo que se explica detalladamente en el Anexo 3, el nuestro se puede expresar como:

Grupo del Individuo (1 ó 0) = Ordenada al origen + Leucocitos + Hematocrito + Neutrófílos + Linfocitos + Monocitos + Peso + Diagnóstico.

Suponemos que los resultados del modelo de regresión logística deben coincidir (o aproximarse) con los obtenidos en el Análisis Discriminante; sin embargo, podrían ser diferentes.

Supuestos del modelo

Si bien la Regresión Logística no supone la normalidad de las variables predictoras y tampoco la homogeneidad de la matriz de varianza-covarianza, la potencia del modelo aumenta cuando estos supuestos se cumplen [Tabachnik & Fidell, 2001].

Sin embargo, es necesario validar el cumplimiento de:

a) Proporción Variables y Casos: se debe tener una cantidad de observaciones

en cada grupo.

(31)

c) Linealidad: existe una relación lineal entre las variables predictoras

continuas y la variable dependiente.

d) Ausencia de Multicolinealidad: no hay una alta correlación entre las

variables predictoras.

e) Ausencia de Valores Atípleos: no se detectan valores muy distantes de la

' media en cada una de las variables predictoras.

í) Independencia de Residuales: el error del modelo no está relacionado con el

orden en que se realizaron las mediciones.

3.3.1. Resultados de la Regresión Logística Antecedentes

Con este método, al igual que con el Análisis Discriminante, se probaron varias combinaciones de las variables predictoras, y se excluyó un valor atípico para poder validar los supuestos y obtener un mejor ajuste.

Modelo

Grupo ( O ó l ) = -2.1006487 0.0433212 Peso

3.6422312 Diagnóstico (1 enfermo, O sano) -0.0000727 Leucocitos

Significancia de los Coeficientes

Como podemos observar el coeficiente menos significativo entre las variables predictoras es el peso, con una significancia de 85%; sin embargo, al excluirlo como variable independiente se reduce la capacidad predictora del modelo.

Error Estándar Chi­square P­valor

Ordenada al origen 2.2709845 0.86 0.354969

Peso 0.0300642 2.08 0.149597 Diagnóstico 1.5502616 5.52 0.018802 Leucocitos 0.0000388 3.51 0.061138

Resultados de la Clasificación

Con ayuda de este modelo se puede predecir un valor estimado, el cual redondeado es el valor de la variable binomial 1 ó O (Ver Anexo 3, Regresión Logística).

(32)

individuos erróneamente clasificados, pues en la primera aféresis completarían su cantidad necesaria, y ya no se presentarían a un segundo procedimiento.

Tabla 3.10. Clasificación de individuos con base en la Regresión Logística

Grupo Verdadero

Grupo I

Grupo O

Grupo I

17

Grupo O Error

15.00%

37.50%

Supuestos

a) Proporción Variables y Casos: Se cumple

Únicamente se excluyó el valor atípico GPR, y el número de casos utilizados fue 28 con 3 variables predictoras.

b) Bondad de Ajuste: Se cumple

Si bien la proporción de los grupos no es del todo equilibrada 28.57% - 71.43%, la predicción tiene un ajuste de 78.57%. Lo que muestra la eficacia de clasificación del modelo para la muestra utilizada.

c) Linealidad: Se cumple

Aunque es difícil probar este supuesto, se valida, ya que los coeficientes del modelo no se acercan a cero, lo que supone una relación lineal fuerte entre variable dependiente y predictora.

d) Ausencia de Multicolinealidad: Se cumple

Las variables predictoras de este modelo no están correlacionadas.

e) Ausencia de Valores Atípleos: Se cumple

Se valida puesto que se excluyó el valor atípicos GPR de la muestra original.

J) Independencia de Residuales: Se cumple

(33)

Figura 3.1. Residuales de grupo (O o 1) contra número de observación

K

3

3.4 Regresión Ridge

Objetivo

El tercer método es una regresión múltiple que se puede aplicar cuando existe una alta correlación entre las variables predictoras: la Regresión Ridge. En este caso es de mucha utilidad ya que las células medidas en la precosecha, dada su naturaleza, romperían con el supuesto de no colinealidad necesario en el caso clásico del método de Mínimos Cuadrados.

El interés principal es predecir la cosecha de CD34+ del primer día con base en las medidas de las cinco variables predictoras, sin tomar en cuenta las CD34+ precosecha. Sin embargo, dadas las características de la muestra, se probaron varias combinaciones de variables predictoras para obtener un modelo satisfactorio tanto estadística como clínicamente.

Modelo

Con base en la teoría de la Regresión Ridge ( Anexo 3, Regresión Ridge), planteamos

cuatro modelos; todos incorporan el valor k que afecta directamente el cálculo de los

coeficientes del modelo, y que corrige el problema de correlación entre las variables predictoras. El modelo uno y dos, con base en las medidas de la precosecha y primera aféresis de los 29 individuos. El tres y cuatro, con base en las medidas de la primera y segunda aféresis, por lo que se tienen únicamente 20 individuos.

Modelo uno

CD34+/Kg de peso del paciente =

(Valor de Primera Cosecha)

Leucocitos precosecha

(34)

Modelo dos

CD34+/Kg de peso del paciente =

(Valor de Primera Cosecha)

Leucocitos precosecha

+ Hematocrito porcentual precosecha + Neutrófilos porcentuales precosecha + Linfocitos porcentuales precosecha + Monocitos porcentuales precosecha + CD34+ porcentual precosecha

Modelo tres

CD34+/Kg de peso del paciente =

(Valor de Segunda Cosecha)

Leucocitos precosecha

+ Hematocrito porcentual precosecha + Neutrófilos porcentuales precosecha + Linfocitos porcentuales precosecha + Monocitos porcentuales precosecha + CD34+/Kg de peso del paciente

(Valor de Primera Cosecha)

Modelo cuatro

CD34+/Kg de peso del paciente = (Valor de Segunda Cosecha)

+ Hematocrito porcentual precosecha + Neutrófílos porcentuales precosecha + Monocitos porcentuales precosecha + CD34+/Kg de peso del paciente

(Valor de Primera Cosecha)

Supuestos del modelo

Los supuestos requeridos para aplicar Regresión Ridge son:

a) Linealidad: existe una relación lineal entre las variables predictoras y la

variable dependiente.

b) Ausencia de Valores Atípleos: este supuesto se refiere a que se exhiba

varianzas constantes.

c) Independencia: los residuales no están correlacionados.

(35)

Es necesario aplicar la Regresión Ridge en los modelos uno, dos y tres, pues existen Factores de Inflación de la Varianza muy altos, como se puede ver en las tablas 3.11,3.12y3.13.

Tabla 3.11. Factores de inflación de la varianza para las variables predictoras del modelo uno

Variable predictora precosecha Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos

Factor de Inflación de la Varianza

1.5129 1.3334 78.9864 67.2889 6.2213

Tabla 3.12. Factores de inflación de la varianza para las variables predictoras del modelo dos

Variable predictora precosecha Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos CD34+/Kg

Factor de Inflación de la Varianza

2.0373 1.3721 301.6388 278.1381 19.7408 2.1750

Tabla 3.13. Factores de inflación de la varianza para las variables predictoras del modelo tres

Variable predictora precosecha Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos CD34+/Kg

Factor de Inflación de la Varianza

1.4740 1.1956 363.6286 219.5220 33.4609 1.1798

Sin embargo, para el modelo cuatro encontramos que no existen Factores de Inflación de la Varianza demasiado altos, por lo que es válido abordarlo con regresión clásica de Mínimos Cuadrados.

Tabla 3.14. Factores de Inflación de la Varianza para las variables predictoras del modelo cuatro

Variable predictora Hematocrito Neutrófilos Monocitos

Transformación Box&Cox (CD34+ primera cosecha- Kg de peso del paciente)

Factor de Inflación de la Varianza

1.1560 2.8085 2.6747

1.0392

Modelo

(36)

Con el fin de validar el supuesto de Ausencia de Valores Atípicos y mejorar el ajuste en todos los modelos, decidimos transformar la variable de respuesta. Utilizamos el método propuesto por Box & Cox [Johnson & Wichern, 1998] para seleccionar el factor de transformación de la variable, por eso en lo subsecuente se encontrará en su lugar la variable transformada (Ver Anexo 2, Obtención de lambda óptima para la transformación de Box & Cox).

Modelo uno. Factor K = 0.020

Transformación Box&Cox (CD34+ primera cosecha/Kg de peso del paciente) = 0.33963369 -0.00000044 0.00163808 0.00348278 0.00224910 0.01603047 Leucocitos precosecha

Hematocrito porcentual precosecha Neutrófílos porcentuales precosecha Linfocitos porcentuales precosecha Monocitos porcentuales precosecha

Tabla 3.15. Tabla comparativa de factores de inflación de la varianza. coeficientes, ajustes, criierios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo uno

VIF-Lencocitos VIF-Hematocrlto VI F-Neu trofilos VIF-Linfocitos VIF-Monocitos VIF-Modelo Ordenada Leucocitos Hematocrito Neutro filos Linfocitos Monocitos R-squared AIC BIC K= 0.001 1.4996 1.31 14 59.7433 50.9407 4.9556 59.7433 -0.52671440 -0.00000056 0.00211257 0.01213319 0.01076568 0.02389467 0.2264 0.01049056 0.01327943 K=0.010 1.4334 1.2336 12.8672 11.1134 1.8566 12.8672 0.12927533 -0.00000047 0.00176960 0.00557579 0.00429606 0.01800504 0.2103 0.01070847 0.01355528 K=0.020 1.3808 1.1907 5.2269 4.6176 1.3317 5.2269 0.33963369 -0.00000044 0.00163808 0.00348278 0.00224910 0.01603047 0.2037 0.01079773 0.01366826 K =0.03(1 1.333 1.1546 2.9171 2.6505 1.1575 2.9171 0.43617032 -0.00000043 0.00156221 0.00252939 0.00132980 0.01506090 0.1996 0.01085295 0.01373816 K=0.040 1.2884 1.1214 1 .9208 1 .7994 1.0703 1.9208 0.49206429 -0.00000042 0.00150686 0.00198267 0.00081242 0.01445172 0.1965 0.01089563 0.01379219 Modelo dos. Factor K = 0.020

Transformación Box&Cox (CD34+ primera cosecha/Kg de peso del paciente)=

0.47248241

-0.00000126 Leucocitos precosecha

(37)

Tabla 3.16. Tabla comparativa de factores de inflación de la varíanza, coeficientes, ajustes, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo dos

VIF-Leucocitos VlF-Hematocrito VIF-Neutrofilos VlF-Linfocitos VIF-Monocitos V1F-CD34+ precosecha VIF-Modelo

Ordenada al origen Leucocitos Hematocrito Neutrofilos Linfocitos Monocitos CD34+ precosecha R-squared AIC BIC K= 0.001 2.0131 1 .3455 118.3672 109.1867 8.4140 1.8873 118.3672 -0.24441270 -0.00000124 0.00553198 0.00904915 0.00635871 0.01505394 -0.03733594 0.5678 0.00838620 0.01 128391 K=0.010 1.9133 1.2945 6.5832 6.1362 1.4821 1.6478 6.5832 0.38247223 -0.00000127 0.00531943 0.00276515 0.00005303 0.00963300 -0.03486846 0.5579 0.00857727 0.01154101 K=0.020 1.8189 1.2544 2.1821 2.0781 1.1835 1.5700 2.1821 0.47248241 -0.00000126 0.00519359 0.00188599 -0.00078520 0.00885456 -0.03411641 0.5512 0.00870792 0.01 171680 K=0.030 .7320 .2167 .2170 .1874 .0983 .5025 .7320 0.50847582 -0.00000125 0.00508119 0.00154949 -0.00107646 0.00854170 -0.03355631 0.5450 0.00882821 0.01187865 K=0.040 1.6515 1.1808 0.8516 0.8495 1.0510 1 .4404 1.6515 0.52922785 -0.00000125 0.00497523 0.00136546 -0.00121512 0.00835912 -0.03306107 0.5390 0.00894330 0.01203351 Modelo tres. Factor K=0.020

Transformación Box&Cox (CD34+ segunda cosecha/ Kg. de peso del paciente)= 0.46053703 0.00000058 -0.00762507 0.00088870 0.00250756 -0.00261588 Leucocitos precosecha

Hematocrito porcentual precosecha Neutrofilos porcentuales precosecha Linfocitos porcentuales precosecha Monocitos porcentuales precosecha

Transformación Box&Cox (CD34+ primera 0.60072302 cosecha/Kg de peso del paciente)

Tabla 3.17. Tabla comparativa de factores de inflación de la varíanza, coeficientes, ajustes, criterios de akaike e información bayesiana para diferentes valores de K en la Regresión Ridge para el modelo tres

VIF-Leucocitos VlF-Hematocrito VIF-Neutrofilos VIF-Linfocitos VIF-Monocitos

VIF-B&C CD34+ primera cosecha

VIF-Modelo

Ordenada al origen Leucocitos Hematocrito Neutrofilos Linfocitos Monocitos

Trsns. B&C CD34+ primera cosecha

R-squared AIC K= 0.001 1.4095 1.1889 139.8227 84.9329 13.9507 1.0919 139.8227 -0.39998720 0.00000050 -0.00766813 0.00963413 0.01129655 0.00601536 0.59094117 0.6026 0.00736164 K=0.010 1.3357 1.1600 7.4242 5.2769 2.3392 1.0215 7.4242 0.35727430 0.00000057 -0.00768106 0.00191840 0.00358317 -0.00165886 0.60377425 0.5937 0.00752606 K=0.020 1.2939 1.1312 2.3448 2.1825 1.8191 0.9983 2.3448 0.46053703 0.00000058 -0.00762507 0.00088870 0.00250756 -0.00261588 0.60072302 0.5881 0.00762997 K=0.030 .2551 .1036 .2389 .4805 .6508 0.9773 1 .6508

(38)

Modelo cuatro

Transformación Box&Cox (CD34+ segunda cosecha/Kg de peso del paciente)=

0.6704348

-0.0081507 Hematocrito porcentual precosecha -0.0010289 Neutrófílos porcentuales precosecha -0.0044617 Monocitos porcentuales precosecha

Transformación Box&Cox (CD34+ primera 0.6223188 cosecha/Kg de peso del paciente)

Tabla 3.18. Significancia de las variables predictoras para el modelo cuatro

Variables Predoctoras Ordenada al origen Hematocrito Neutrófilos Monocitos

Transformación Box&Cox (CD34+ primera cosecha­'Kg de peso del paciente)

P­valor 0.0605 0.0474 0.6861 0.5983 0.0034

Análisis de Varianza de los Modelos

A través de este análisis verificamos dos valores de mucha utilidad: la significancia estadística del modelo y el ajuste del mismo a los datos de la muestra.

La significancia, se verifica con el P-valor asociado al modelo. Si deseamos 90% de significancia, únicamente tomamos en cuenta los P-valores menores a 0.10.

El ajuste lo verificamos con el valor de R2, entre más se acerca este valor a 1, el

modelo tiene un mayor ajuste a los datos de la muestra.

Modelo uno

Este modelo, de cinco variables predictoras y con datos de 29 individuos, tiene una significancia de 65%, un ajuste de 20%, un criterio de información de akaike (AIC) de .01079773 y un criterio de información bayesiana (B1C) de .01366826.

Tabla 3.19. Anova para el modelo uno con K= 0.020

Ordenada al origen Modelo Error

Total (Ajustado)

Grados de libertad

1 5 23 28

Suma de cuadrados 17.51849217

0.05674596 0.22180625 0.27855221

Media de la suma de cuadrados

17.51849217 0.01134919 0.00964375 0.00994829

Estadístico F

1 . 1 7680000

P-valor

0.35070800

(39)

Modelo dos

Este modelo, de seis variables predictoras y con datos de 18 individuos, presenta una significancia de 88%, un ajuste de 55%, un criterio de información de akaike (AIC) de .008707 y un criterio de información bayesiana (BIC) de .011716.

Tabla 3.20. Anova para el modelo dos con K= 0.020

Ordenada al origen Modelo Error Total (Ajustado) Grados de libertad 1 6 11 17 Suma de cuadrados 10.89640352 0.09882552 0.08047432 0.17929985

Media de la suma de cuadrados 10.89640352 0.01647092 0.00731585 0.01054705 Estadístico F 2.25140000 P-valor 0.11545100 R-Cuadrada =

Criterio de Akaike (AIC) = Criterio de Schwarz (BIC) =

0.5512 0.00870792 0.01171680

Modelo tres

Este modelo, de seis variables predictoras y con datos de 20 individuos, tiene una significancia de 96%, un ajuste de 58%, un criterio de información de akaike (AIC) de .007629 y un criterio de información bayesiana (BIC) de .010286.

Tabla 3.21. Anova para el modelo tres con K= 0.020

Ordenada al origen Modelo Error Total (Ajustado) Grados de libertad 1 6 13 19 Suma de cuadrados 12.78718721 0.11956791 0.08374831 0.20331622

Media de la suma de cuadrados 12.78718721 0.01992799 0.00644218 0.01070085 Estadístico F 3.09340000 P-valor 0.04154600 R-Cuadrada =

Criterio de Akaike (AIC) = Criterio de Schwarz (BIC) =

0.5881 0.00762997 0.01028620

Modelo cuatro

Este modelo, de cuatro variables predictoras no correlacionadas y con datos de 20 individuos tiene una significancia de 99%, un ajuste superior al 58%, un criterio de información de akaike (AIC) de .006270 y un criterio de información bayesiana (BIC) de .033694.

Tabla 3.22. Anova para el modelo cuatro

Ordenada al origen Modelo Error Total (Ajustado) Grados de libertad 1 4 15 19 Suma de cuadrados 12.78719000 0.11925630 0.08405991 0.20331620

Media de la suma de cuadrados 12.78719000 0,02981408 0.00560399 0.01070085 Estadístico F 5.32 P-valor 0.0072 R-Cuadrada =

Criterio de Akaike (AIC) = Criterio de Schwarz (BIC) =

(40)

Validación de supuestos

a) Linealidad: Se cumple

Si bien ningún factor de correlación entre cada variable predictora y la variable respuesta evidencia el cumplimiento de este supuesto (Ver Tablas 3.23 y 3.24), con base en el ajuste de los modelos podemos evaluar si se cumple el supuesto de linealidad.

Con 20% de ajuste en el modelo uno, además de los factores de la tabla, decimos que no se cumple con la Linealidad; mientras que en el modelo dos, el ajuste de 55% y el factor de correlación de la CD34+ precosecha nos indican que sí se cumple con el supuesto.

Tabla 3.23. Factor de correlación entre las variables de los modelos uno y dos

Variables predictoras precosecha

Leucocitos Hematocrito Neutrófilos Linfocitos Monocitos

CD34+/Kg de peso del paciente pre

Factor de Correlación con la Variable Transformación Box&Cox (CD34+ primera

cosecha/Kg de peso del paciente)

-0.39638100 0.07870600 -0.06920200 -0.06524700 0.47188900

-0.57396800

En la Tabla 3.24 podemos observar que no todos los factores de correlación de las variables predictoras son altos; sin embargo, con base en esta información y el nivel de ajuste de los modelos, podemos decir que el modelo tres no cumple con el supuesto, como el modelo cuatro.

Tabla 3.24. Factor de correlación entre las variables de los modelos tres y cuatro

Variables predictoras

Leucocitos precosecha Hematocrito porcentual prec Neutrófilos porcentuales pre Linfocitos porcentuales prec Monocitos porcentuales pre< Transformación Box&Cox (CD34+ primera cosecha/Kg de peso del paciente)

Factor de Correlación con la variable Transformación Box&Cox (CD34+ segunda cosecha/Kg de peso del

paciente) 0.26299700 -0.49479400

0.19896000 -0.14523000 -0.21068700

0.65949300

(41)

Tabla 3.25. Distribución para CD34+ primera Figura 3.2 Transformación Box-Cox de CD34+/Kg de cosecha/Kg. de peso del paciente transformada con peso del paciente en la primera cosecha

Box-Cox

Media

Desviación Estándar Varianza

Sesgo Curtosis CV

0.77723 0.09974 0.00995 ­0.10004 0.97683 12.83292

Valor Máximo 3er Cuartel Mediana 1" Cuartil Valor Mínimo

1.0212 0.8333 0.7683 0.7291 0.5313

18

c) Independencia: No se cumple

Se puede observar en la figura 3.3 que en los modelos uno, tres y cuatro no se aprecia dependencia o correlación en los residuales, sin embargo, en el modelo dos, parece formarse una máscara en V lo que indica que no se cumple con este supuesto.

Fignra 33. Gráficos de residuales contra predicción de los modelos uno, dos, tres y cuatro

Modelo uno Modelo dos

DB DB na Valores predichos

I °°

BE 0.1 DB 03

Valores predichos

Modelo tres Modelo cuatro

D.1 OH

(42)

Capitulo 4: Conclusiones

4.1. Introducción

Los resultados presentados en el capítulo anterior fueron seleccionados de varios análisis donde probamos diferentes combinaciones de variables predictoras, hasta obtener los modelos con un mejor ajuste o una mejor predicción y, en su caso, sus

matrices de predicción y sus cross­validations.

Ya que se requiere comparar modelos desarrollados por diferentes metodologías, nuestra valoración no toma como base única los P-valores o el ajuste, como tradicionalmente se hace en la inferencia estadística (de hecho el Análisis

Discriminante, per se, no se evalúa en función de un P-valor). De hacerlo así,

podríamos llegar a conclusiones engañosas dado el tamaño de la muestra y el proceso de iteración de selección de variables [Raftery, 1995].

Para seleccionar el modelo que prediga el número de aféresis (cantidad de procedimientos necesarios para completar la cantidad necesaria de células madre por peso del paciente); es decir, para comparar el modelo arrojado por el Análisis Discriminante contra el desarrollado por Regresión Logística, se considera en primera

instancia el porcentaje de error de clasificación, la validación de supuestos y el cross

validation.

Para la selección del modelo que predice el número de células madre que se cosecharán a partir de una biometría hemática, es muy útil tomar en cuenta criterios basados en la teoría de la información, mismos que permiten identificar el mejor modelo de una manera más sencilla y automática. Para ello ponderamos los resultados del Criterio de Akaike (AIC) y el Criterio de Información Bayesiana (BIC) propuesto por Schwarz (1978) y desarrollado posteriormente por Raftery (1995) (Ver Anexo 3).

Solicitamos al lector mantener en mente que los resultados y las conclusiones de este trabajo se limitan específicamente a los datos obtenidos de los donadores atendidos en el Hospital San José de Monterrey y en el Centro Médico Nacional. Sin dejar de contemplar, aunque no formalmente, las inferencias que intuitivamente hace el doctor

en la práctica médica como información a­priori.

A continuación se discute acerca de los modelos escogidos, de su interpretación y de sus implicaciones clínicas.

4.2. Discusión Acerca de la Metodología y los Resultados

(43)

barrera es que la muestra con la que contamos no es tomada al azar, y si bien se podrían tomar los datos de pacientes de diferentes hospitales aleatoriamente, los procedimientos para la producción y cosecha de CD34+ varían, situación que dificultaría la

comparación o, en todo caso, agregaría una o más variables al modelo, que no

forzosamente mejorarían el ajuste.

Aunque el ajuste es de 90%, concretamente los errores de clasificación son 2 de 20 pacientes a los que se predice una cantidad menor de aféresis de las que verdaderamente necesitan, lo cual, en la práctica clínica, implica tener a dos donadores con la expectativa de completar la cantidad de células necesaria para el trasplante, en una sesión, y desgraciadamente tendrían que presentarse una y hasta dos veces más.

La Regresión Logística, en contraposición, se valida con el cumplimiento de los supuestos aunque presenta una clasificación no tan acertada. Sin embargo, creemos factible que en la práctica clínica se cometerían errores en la predicción, toda vez que la Regresión Logística puede ser inexacta cuando hay pocas observaciones y la proporción de ellas en los grupos no está balanceada; nuestro modelo se encuentra particularmente cargado de individuos que requieren dos o más aféresis.

4.2.2. Modelos que Predicen la Cantidad de Células Madre en una Cosecha

Se deseaba obtener una fórmula capaz de predecir la cantidad de células madre en la

primera cosecha, a partir de las mediciones precosecha sin incluir la medición de las CD34+ porcentuales precosecha. Por lo que en el "modelo uno" se toman como variables predictoras los leucocitos y los porcentajes de hematocrito, neutrófílos, linfocitos y monolitos precosecha; sin embargo, tan sólo alcanzó un ajuste con 20% de certeza, por lo que tal modelo sería de poca utilidad predictiva. Además, sus valores de AIC y BIC son más altos en comparación con los otros tres modelos.

En el "modelo dos" se toman las mismas variables predictoras que en el "modelo uno", más la medición de CD34+ porcentuales precosecha; para comprobar el efecto de esta variable en el modelo; sin embargo, la capacidad de predicción no mejora lo suficiente como para utilizarlo en la práctica clínica, ya que con 55% de certeza en el ajuste prácticamente se estaría 'adivinando' la cosecha, si bien sus AIC y BIC son apenas menores que los del "modelo uno", son más grandes que en los modelos tres y cuatro.

Los "modelos tres y cuatro" predicen la segunda cosecha de CD34+, a partir de los datos arrojados por la biometría hemática del primer día y la cosecha de CD34+ obtenida en la primera aféresis; ambos presentan ajustes más altos.

El "modelo tres", que toma en cuenta los leucocitos y el porcentaje precosecha de hematocrito, neutrófílos, linfocitos, monocitos y la primera cosecha de células madre para predecir una segunda cosecha de CD34+, tiene un ajuste de 58% y una significancia de 96%; que ya podría ser de utilidad predictiva para los médicos, tiene un valor de AIC y BIC apenas mayor al del "modelo cuatro".

(44)

CD34+. Se puede abordar con Mínimos Cuadrados Ordinarios, con un AIC = .006270 y BIC = .007651, el menor de los cuatro modelos, por lo que seleccionamos este sobre los otros tres.

El modelo obtenido por el Análisis Discriminante aunado al "modelo cuatro" puede ser de gran utilidad para el médico. Esto es, con la biometría hemática del primer día se podrá predecir por el modelo de Análisis Discriminante el número de aféresis que el donador requiere (1, 2 ó 3). Al finalizar la primera cosecha, aún en caso de haber predicho erróneamente el número de sesiones (en el peor escenario se predice una sola aféresis y al final del proceso se dan cuenta de que el número de células madre no alcanza, no es el necesario para el trasplante), se podrá calcular con ayuda del "modelo cuatro" el número de CD34+ en la cosecha del segundo día; aún si con ésta no fuese suficiente, el médico podría posponer la segunda aféresis un día más, durante el cual posiblemente las células madre se multipliquen de modo que se obtenga la cosecha deseada al tercer día.

4.3. Discusión General

La principal aportación de este estudio son dos modelos que aplicados en conjunto podrán ayudar al médico a decidir si es conveniente o no realizar la aféresis en un donante en determinado momento. A diferencia del resto de los estudios, el análisis aquí realizado se soporta en el apego a una metodología estadística formal.

Consideramos que idealmente el problema se hubiera abordado como un Análisis Longitudinal; sin embargo, dado a que se trabaja con los datos disponibles, es necesario visualizar el problema desde una perspectiva más abierta y general, de modo que seleccionamos las herramientas estadísticas existentes que mejor pudieran analizar las relaciones que necesitábamos aclarar. Si hubiésemos considerado otra metodología, sin comprobar los supuestos necesarios, el resultado no sería válido.

(45)
(46)

Anexo 1: Material del Marco Teórico

Tabla 1. Resumen de Artículos Médicos Consultados para el Marco Teórico

Fecha 1996 1996 2000 2000 2000 2000

Nombre del Artículo Impact of PreleukaDheresis Cell Counts on Collection Resulte and Correlation of Progenitor-Cell Dose With Engraftment After Hieh-Dose Chemotherapv in Patients With

Germ Cell Cance.r

Circulatine Proeenitor Cell Collection Exnirience from 275

Leukaoheresis in Various Malienancies and in Health

Donors.

Hieh Dose Chemotheraov an Autoloeous Stem-Cell Transplantation for Ovarían Cáncer: An Autoloeous Blood an Marrow Transplant Reaistrv

Report.

Laree scale mobilization and isolation of CD34+ cells from

normal donors.

Lenograstim-mobilized oeripheral blood oroeenitor cells in volunteer donors: an ooen label randomized split

dose escalatin? studv.

Scorine svstem for the prediction of successful Derioheral blood stem cell ( PBSC) collection in

non-Autores Schwella Nimrod, Beyer Jorg, Schwaner Ingo, Heuft Hans-Gert,

Rick Oliver, Huhn Dieter, Serke Stefan,

Siegert Wolfang.

Torretta Lorella, Perotti Cesare. Dornini Gianluca. Danova

Marco, Locatelli Franco, Pedrazzoli Paolo, Preti Pietro, Da

PradaGian Antonio, Pavesi Lorenzo. Robustelli della Cuna

Gioacchino. Salvanescht Laura. Stiff Patrick, Veum-Stone Judith, Lazarous

Hillard, Ayash Lois. Edwards John, Keating

Armand, Klein John. Oblon David, Shea

Tomas, Thomé Stephan, Horowitz

Mary.

JM Croop, R Cooper, C Fernandez, V Graves, S Kreissman, FO Smith,

K. Cornetta, DA Williams & R Abonour

N Basara, B Schmetzer, IW Blau, M Bischoff. S Günzelmann, D Kirsten

& AA Fauser.

JM Vantelon, S Koscienlny. P Brault. JH Bourhis, V Ribrag, J Pico, P Fenaux 6 JM

Objetivo del estudio Identificar factores predictivos para una

buena cosecha de células progenituras y

determinar los requerimientos de la

dosis de éstas en la sangre periférica para un

transplante hematopoyético rápido.

Determinar los factores que afectan considerablemente la

cosecha de células progenitoras.

Analizar los beneficios del transplante autólogo

de células progenitoras en pacientes con cáncer

ovárico.

Obtener evidencia de una segura cosecha de cuentas adecuadas de CD34+ de la sangre periférica de donantes

sanos.

Analizar el efecto de diferentes dosis de

rhG-CSF (lenograstim) en donantes sanos

voluntarios.

Estudiar los factores de influencia en la mobilización y cosecha de células progenitoras

Resultados La recuperación hematopoiética puede ser alcanzada en un transplante

con una dosis de PBPC mayor a 2.5* 10(6) CD34+

ceIls;T<g Y cuando las cuentas de precosecha de

CD34+ son superiores a 4* 1 0(4) mi/ se pueden lograr cosechas de 2.5 *l()(6)CD34+cells/kg.

Se encontraron diferencias en las medias de células progenitoras cosechadas entre los pacientes que recibieron quimioterapia y

los que recibieron radioterapia.

Algunos subgrupos de pacientes con cáncer ovárico

parecen haber tenido una mejoría posterior al transplante; sin embargo, el

sesgo de la muestra pudo haber afectado los

resultados.

El número de células CD34+ cosechadas no presentó diferencias entre mujeres y hombres, pero si se correlacionó con el peso del paciente y el total de

células mononucleadas cosechadas. Se encontraron diferencias

en la cosecha de CD34+ debido a las diferentes dosis

de lenograstim administradas. En el grupo al cual se administraron 1 5

mg por día no se presentó una correlación entre la producción de CD34+ y la

edad, por lo que se recomienda la dosis para

donantes mayores.

Las cosechas de células progenitoras no estuvieron

asociadas con la edad y ni con el género, historial de transplante de médula, ni estado de la enfermedad. En

Figure

Tabla 3.17 Tabla 3.18 Tabla Tabla Tabla Tabla Tabla 3.193.203.213.223.23 Tabla 3.24 Tabla 3.25
Figura  1 . 1 . Calendario de actividades de un individuo que complcíu la cantidad de células (1)34 ; necesarias para
Tabla 2.1. Variables predictoras
Tabla 2.3. Individuos por diagnóstico Figura 2.1. Número de individuos por diagnóstico
+7

Referencias

Documento similar

Pero, al fin y al cabo, lo que debe privar e interesar al sistema, es la protección jurisdiccional contra las ilegalidades de la Administración,221 dentro de las que se contemplan,

Dado un espazo topol´ oxico, denominado base, e dado un espazo vec- torial para cada punto de dito espazo base, chamaremos fibrado vectorial ´ a uni´ on de todos estes

22 Enmarcado el proyecto de investigación de I+D «En clave femenina: música y ceremonial en las urbes andaluzas durante el reinado de Fernando VII (1808-1833)» (Plan Andaluz

La solución que se ha planteado, es que el paso o bien se hiciese exclusivamente por el adarve de la muralla, o que una escalera diese acceso por la RM evitando la estancia (De

Imparte docencia en el Grado en Historia del Arte (Universidad de Málaga) en las asignaturas: Poéticas del arte español de los siglos XX y XXI, Picasso y el arte español del

If you are covered by a reciprocal agreement for health and social security (citizens of Denmark, Finland, France, Luxembourg, Norway, Portugal and Sweden), you may be eligible

DECORA SOLO LAS IMÁGENES QUE NECESITES PARA LLEGAR AL NÚMERO CORRESPONDIENTE... CEIP Sansueña/CEIP Juan XXIII Infantil

Las personas solicitantes deberán incluir en la solicitud a un investigador tutor, que deberá formar parte de un grupo de investigación. Se entiende por investigador tutor la