III) MATERIAL Y MÉTODO
III.VIII ANÁLISIS ESTADÍSTICO
El análisis estadístico se ha realizado con el programa estadístico R (versión i386
3.1.2). Los objetivos específicos 1 y 2 se han desarrollado mediante un análisis
univariante: en el caso de las variables cualitativas se han utilizado medidas de frecuencia absoluta y porcentajes para describir la distribución de los sujetos de la muestra, mientras que para las variables cuantitativas se han empleado medidas de posición central (media y mediana), medidas de posición (cuartiles y quintiles) y de dispersión (desviación estándar: DE).
La representación gráfica de las divisiones administrativas de la ciudad de Sevilla y de los datos del INE del año 2011 se han realizado mediante el programa
gvSIG (versión 2.2.0.2312) (196), con capas de distritos obtenidas de la citada web de Ayuntamiento de Sevilla (195), a la que se le ha añadido las tablas de atributos con la
información del INE 2011 (178) pertinente. Para la representación gráfica de las variables socioeconómicas y clínico-sanitarias por subdistrito se ha creado una capa nueva a partir de la agrupación de secciones censales que describía cada categoría de
109
los subdistritos utilizadas en el Proyecto Urban Audit, anexo 1. A esta capa se le ha añadido una tabla de atributos con las variables a representar.
Para desarrollar el objetivo específico 3 se han elegido los diagnósticos principales más frecuentes y relevantes. Se han seleccionado los diagnósticos principales que alcanzaron el 0,9% o más del total de diagnósticos principales de los ingresos. Se ha optado por el punto de corte de 0,9% en lugar de 1% porque el límite del 1% excluía los diagnósticos de “tos ferina” (0,96%), “hernia inguinal” (0,97%) y “recién nacido afectado por enfermedad infecciosa materna” (0,90%), los cuáles resultaban de interés en el análisis de este objetivo según la bibliografía consultada. Así mismo, se han seleccionado otros diagnósticos principales en el análisis de este objetivo específico que, sin superar el umbral de frecuencia del 0,9%, han mostrado ser de interés para el estudio según la literatura existente. Entre estos diagnósticos principales se encuentran los “envenenamientos” (197) y las “quemaduras” (144)(145)(146)(198), que han sido separados del capítulo 17 de la CIE-9-MC “lesiones y envenenamientos” para ser analizados como variables distintas del resto de lesiones producidas por “traumatismos”. También se han incluido los ingresos por “asma bronquial” (102)(103)(104)(105)(106)(107)(108)(110), “tuberculosis” (115)(116)(117) (118), y “embarazos o complicaciones del mismo, del parto o puerperio” y “recién nacidos con RCIU” (122)(124)(125)(126)(127)(128)(129)(130)(131)(132)(199).
Se han realizado diferentes análisis bivariantes con las cuatro variables independientes cualitativas indicadoras del NSE: “residencia en zona de necesidad de transformación social (ZNTS)”, “residencia en zona de riesgo de pobreza (ZRP)”, “nivel de renta de la zona de residencia (NRZR)” y “educación insuficiente de la zona de residencia (EIZR)”. Los test estadísticos empleados cuando, tanto la variable independiente como la dependiente son cualitativas, han sido el test χ2 o el test de
Fisher en el caso de obtener observaciones esperadas menores de 5. Para las variables
dependientes cuantitativas (“edad” y “estancia hospitalaria”) se ha utilizado el test t-
Student cuando la variable cualitativa independiente era dicotómica (ZNTS, ZRP y EIZR),
110
de cada una de las categorías de las variables cualitativas independientes, permite la utilización de dichos test paramétricos.
El nivel de significación estadística para todos los test se fija en el valor de p<0,05.
El objetivo específico 4 se ha llevado a cabo mediante modelos de regresión logística binomiales para cada uno de los diagnósticos principales donde se detectó diferencias estadísticamente significativas en alguno de los análisis bivariantes con las variables independientes residencia en ZNTS, en ZRP, en EIZR o por NRZR. En el caso particular de los diagnósticos principales de recién nacidos con RCIU, RNPT y RNBP se ha objetivado que la codificación de las altas no ha seguido un criterio homogéneo de asignación prioritaria del diagnóstico principal, siendo la prioridad distinta en el caso de los recién nacidos que presentan más de uno de estos tres diagnósticos simultáneamente. Este hecho, junto con la bibliografía previamente comentada (129)(130)(132) donde los estudios utilizan estos diagnósticos neonatales agrupados para estudiar su asociación con el NSE, aportó argumentos suficientes para incluir en los modelos de regresión logística de este objetivo específico número 4, únicamente la combinación RCIU-RNPT-RNBP, también conocida en la literatura anglosajona como
“resultado perinatal adverso”.
Para cada diagnóstico principal elegido se han realizado cuatro modelos de regresión logística independientes, utilizando como variable de estudio la residencia en ZNTS, la residencia en ZRP, la EIZR o el NRZR, indicadores todas del NSE del lugar de residencia. Se pretende con ello, comparar el nivel de detección de diferencias estadísticamente significativas en función del criterio elegido como indicador del NSE. Como se ha desarrollado en apartado de la introducción, la identificación de las áreas de residencia según la variable ZNTS tiene en cuenta no solo criterios económicos sino también educativos, de desempleo, vivienda, etc. Mientras que las variables residencia en ZRP o por NRZR únicamente utilizan información relativa a la renta neta media anual por hogar para definir sus categorías. La residencia por EIZR tan solo tiene en cuenta el nivel educativo de la zona de residencia para clasificar sus categorías.
111
La razón de productos cruzados, más conocida por su término anglosajón odds
ratio (OR), es una medida de asociación entre variables que se utiliza en análisis
estadísticos para comunicar los resultados de una investigación. Matemáticamente la OR se obtiene mediante el cociente entre dos probabilidades (odds): la probabilidad de que un evento ocurra (p) entre la probabilidad de que dicho evento no ocurra (1-p), interpretándose como una ventaja comparativa de probabilidad. Generalmente es usada en estudios transversales retrospectivos, dado que en los estudios prospectivos se utiliza el riesgo relativo con este fin, al poder calcularse en ellos incidencias (200).
Los modelos de regresión logística son análisis estadísticos que permiten estudiar la probabilidad de que un evento ocurra (variable resultado o dependiente) en función de otras variables (explicativas o independientes), y en qué medida, cada una de estas variables independientes, influye en la probabilidad de que ocurra el evento- variable dependiente. Son modelos predictivos diferentes a los modelos lineales, entre otras características, porque la variable dependiente es cualitativa y adopta valores de probabilidades en la ecuación:
Y = a + b X
Donde Y es la variable dependiente, X la independiente, “a” es una constante y el valor de Y cuando X=0, y “b” es otra constante que determina el aumento o descenso de los valores de Y por cada unidad que ascienda o descienda X (201).
El valor de las probabilidades de que un evento ocurra (p) y de que no ocurra (1-p) oscilan entre 0 y 1, mientras que el cociente de ambas probabilidades, es decir su
odds ratio, puede adquirir valores entre 0 (cuando p=0) y +
∞
(cuando p=1). Para solventar este problema, los modelos de regresión logística emplean la función logística logit, calculando el logaritmo de la OR (201):112
Logit = Ln (Odd) = Ln (p/1-p)
Mediante esta función los valores de pueden variar entre –
∞
y +∞.
Los modelos de regresión logística son test estadísticos que se utilizan cuando la variable dependiente es cualitativa, pudiendo tener ésta dos categorías (regresión
logística binomial), o más de dos categorías (regresión logística multinomial). Así
mismo, estos modelos permiten estudiar la existencia de asociación y la magnitud del efecto de una única variable independiente (regresión logística simple) o diferentes variables independientes (regresión logística múltiple) sobre la dependiente, utilizando medidas de OR cruda (ORc) en el primer caso, y OR ajustadas (ORa) en el segundo. Cuando las variables independientes tienen más de dos categorías, los modelos construyen tantas variables como categorías menos 1 tenga la variable independiente introducida. A estas variables construidas por los modelos se le conoce como variables
dummy o indicadoras, las cuales permiten calcular la probabilidad de que el evento
ocurra para cada una de las categorías de la variable independiente en cuestión (202). Los modelos de regresión logística múltiple permiten analizar también el efecto de cada una de las variables independientes introducidas, pudiéndose detectar posibles factores de confusión e interacción en el modelo (201).
En el desarrollo del objetivo específico número 4 se han utilizado modelos de regresión logística binomiales simples y múltiples con cada uno de los diagnósticos principales elegidos. En los modelos de regresión logística múltiple se han introducido como variables independientes, además de las variables indicadoras del NSE del lugar de residencia, el grupo etario y el sexo. Todas las variables dependientes empleadas fueron cualitativas dicotómicas. Entre las variables explicativas de los modelos, las variables ZNTS, ZRP, EIZR y sexo fueron cualitativas dicotómicas, siendo el NRZR una variable cualitativa ordinal con 5 categorías. Con la intención de simplificar el número
113
de variables dummy generadas por los modelos, la variable cuantitativa “edad” se recodificó en una variable cualitativa ordinal con 3 categorías (“grupo etario”).
En todos los modelos de regresión logística binomiales empleados se han calculado las ORc y ORa con intervalos para un nivel de confianza del 95% (IC 95%). El grupo de referencia para los modelos de regresión realizados con las variables ZNTS, ZRP y EIZR ha sido el de no residir en ZNTS, ZRP o EIZR, respectivamente. En los modelos con la variable NRZR, el grupo de referencia ha sido el de “NRZR muy alto”.