Elaboración de los datos y análisis estadístico

II. JUSTIFICACIÓN

V.2. Método

V.2.3. Elaboración de los datos y análisis estadístico

Para el diseño del cuestionario se ha utilizado la herramienta Adobe® Live Cycle® Designer 8.0 integrada en Adobe Acrobat Professional 8.0, que es una herramienta de diseño gráfico de formularios que simplifica su creación y distribución como archivos Adobe PDF con Live Cycle Designer. Los sujetos que responden al cuestionario pueden

rellenar el formulario en línea con el Adobe Reader de su PC y adjuntar este archivo a un correo electrónico que llegaba a una dirección de correo habilitada únicamente al efecto de la realización de este estudio.

La validación de los datos se efectuó verificando la contestación completa de los ítems, desechando aquellas encuestas que no respondían al 10% de las preguntas.

La recogida final de los datos se efectuó mediante encuestas elaboradas ad hoc que se procesaron en una base de datos específica, la aplicación informática “Microsoft Office Excel 2013”. El tratamiento estadístico de los datos de esta tesis doctoral se realizó en una microcomputadora “‘Toshiba 310CDT”, y los cálculos se ejecutaron empleando el paquete de programas estadístico “SPSS versión 23.0”. Todos los gráficos se elaboraron con el programa informático “Microsoft Office Excel 2013”.

Se realizó la estadística descriptiva y porcentual de todas las variables incluidas en el estudio, utilizando medidas de frecuencia absoluta. Se utilizaron técnicas estadísticas de análisis univariante, bivariante, regresión logística y análisis de clasificación o árbol de clasificación. Para todas las variables se utilizó el test de las diferencias cuadráticas relativas (chi-cuadrado). Se sometieron todas las variables estudiadas a este estadígrafo para establecer posibles asociaciones entre las mismas y cuando se obtuvo asociación estadística se calculó como medida de riesgo la Odds Ratio (OR) o razón de productos cruzados.

El análisis de los datos se efectuó mediante la elaboración de tablas para la comparación de las distribuciones de frecuencia para las distintas variables, a las que se aplicó el “estadístico de prueba” 2 _{con k-1 grados de libertad y el test exacto de Fisher}

para determinar si se encuentran diferencias significativas entre la “calidad del sueño”, y la “aparición de síntomas”, y las distintas variables independientes del estudio. Se han considerado como estadísticamente significativos, aquellos valores de los test que implican valores de p iguales o inferiores a 0,05.

Una vez identificada que una variable está asociada con la calidad del sueño o con la aparición de síntomas, se determina que categoría de la misma es la que implica más riesgo. Dado que el diseño del estudio es transversal y todos los posibles factores pueden ser dicotomizados, se utilizó como medida de riesgo la Odds Ratio.

Una vez hallado el valor de OR, se calcula el intervalo de confianza para OR con una confiabilidad del 95%.

Otro análisis ejecutado en ésta investigación fue la determinación de qué variables se encontraban significativamente relacionadas con la “calidad del sueño” o con la “presencia de síntomas” y una vez identificadas, establecer una relación que permita predecir la “calidad del sueño” o la “presencia de síntomas” en función de dichas variables. Con tal fin se realiza un análisis de regresión logística forward (con introducción de variables hacia delante) que ha sido considerado como uno de los mejores y cuyo uso es muy recomendado y, en el cual se consideró como variable dependiente la “calidad del sueño” o la “presencia de síntomas” y como variables independientes las restantes estudiadas.

Como el diseño del estudio es de tipo transversal, se pudo analizar el riesgo para la alteración del buen sueño o la presencia de síntomas en cada grupo de variables. Para ello, y con objeto de controlar el efecto que pudieran tener ciertas variables, se utilizaron diferentes modelos de regresión logística. Estos nos dieron los valores del riesgo (OR), con sus límites de confianza al 95%, controlando el efecto de todas las variables incluidas en el modelo de regresión logística. Se han considerado como estadísticamente significativos, aquellos valores de los test que implican valores de p iguales o inferiores a 0,05.

El análisis de regresión logística nos permite determinar cuáles son las variables más relevantes para establecer la predicción de la “calidad del sueño” o la “presencia de síntomas”. El propósito de la Regresión Logística (RL) es la obtención de una ecuación o función logística que sea capaz de predecir lo que puede suceder u ocurrir a partir de lo que ya ha ocurrido.

Codificación de la variable dependiente (calidad del sueño)

Valor original Valor interno

Alteración del sueño: No 0

Alteración del sueño: Sí 1

Codificación de la variable dependiente (presencia de síntomas)

Valor original Valor interno

Presencia de síntomas: No 0

La probabilidad “p” de que una persona pertenezca al grupo “Alteración del sueño Sí”, vendrá dado por la fórmula:

p = ℮z _{/ (1+ ℮}z_),

siendo z la combinación lineal:

z = β0 + β1 Variable 1 + β2 Variable 2 +…..+ βi Variable i +…..+ βn Variable n

donde β0, β1,….., βp son parámetros desconocidos a estimar.

En particular, la probabilidad de que el i-ésimo individuo pueda tener “alteración del sueño” será:

pi = 1 / 1 + ℮-(β1 Variable 1 +….. + β0)

Si dicha probabilidad es ≥ 0,5 la persona será clasificada en el valor 1 (Alteración del sueño Sí), en caso contrario, será clasificado en el valor 0 (Alteración del sueño No).

El objetivo es construir una ecuación con las variables independientes que más información aporten sobre las probabilidades de pertenecer a cualquiera de los dos grupos establecidos para los valores de la variable dependiente.

El Método Forward tiene estadísticos de prueba para selección y eliminación de variables: la puntuación eficiente de Rao y el estadístico de Wald, respectivamente.

El método utilizado para construir la ecuación, antes de intentar introducir una nueva variable en la ecuación, busca la posibilidad de que una variable previamente seleccionada pudiera ser eliminada.

Existe una expresión alternativa:

pi / qi = ℮β0 ℮(β1)x1…..℮(βp)xp

donde q = 1 – p.

Para poder identificar las variables asociadas al riesgo de presentar alteraciones en la “calidad del sueño” o en la “presencia de síntomas” se puede utilizar la técnica de análisis de clasificación (AC) o árbol de decisión, que aporta un porcentaje de predicción interesante y ciertamente elevado, un tratamiento simple de los datos y una significativa interpretación clínica.

Los AC permiten asignar los individuos de la muestra a las distintas categorías o valores de una variable objetivo o, si se prefiere, obtener segmentos a partir de un

conjunto de variables de clasificación. Detectan relaciones no lineales. No suponen modelos estadísticos “a priori” y posibilitan hallar patrones o perfiles.

Con la finalidad de generar un AC para clasificar a las personas, se llevó a cabo un análisis mediante el algoritmo incluido en la aplicación informática SPSS. El conjunto de las variables de entrada para el sistema de clasificación estaba compuesto por determinadas variables de entrada ya analizadas en la regresión logística (RL). La variable de salida era haber sufrido o no “alteración del sueño” y “presencia de síntomas”.

Se construyó un algoritmo en el cual se estableció que ningún nodo terminal podría tener un número de individuos (n) inferior a 5 del total de casos de la muestra, quedando finalmente el número mínimo para cada nodo igual a 6. Se trata de un algoritmo en el cual las distintas divisiones se realizan identificando en cada paso las variables de clasificación que maximizan el chi-cuadrado (2_{), es decir, permite obtener la máxima}

información. En otros términos, eligiendo sólo las mejores variables significativas en cada nodo.

In document Calidad del sueño y presencia de síntomas en médicos que realizan turnos de veinticuatro horas (página 85-91)