UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMÁTICAS
E.A.P. DE ESTADÍSTICADesnutrición crónica : estudio de las características, conocimientos y aptitudes de la madre sobre nutrición infantil
Capítulo IV. Análisis de los resultados
TRABAJO MONOGRÁFICO
Para optar el Título Profesional de Licenciado en Estadística
AUTOR
Alicia Carla Herrera Garrido LIMA – PERÚ
2003
CAPITULO IV
ANÁLISIS DE LOS DATOS
Cabe indicar que el proceso de la elaboración del instrumento de medición así como también la recopilación de la información, ha sido realizada exclusivamente por el investigador. La base de datos se encontraba incompleta; existiendo muchas celdas con información faltante, motivo por el cual se procedió a seleccionar las variables que por conocimiento del investigador se van a utilizar en dicho estudio.
Para el análisis de los resultados del modelo de regresión logística se utilizó los softwares estadísticos SPSS v 10.0.7, STATA v 7 y MINITAB v 13.20.
4.1 ANÁLISIS DESCRIPTIVO
Análisis univariante y Bivariante
• De los niños seleccionados el (52.7%) son de sexo masculino y el 47.3%
del sexo femenino. (ver tabla Nº4).
• De las madres entrevistadas se observa que el 48.6% recibió por lo menos una charla de nutrición y el 54.4% no ha recibido ninguna charla. (ver tabla Nº5)
• Se observa que el 55.4% de las madres entrevistadas si realiza el control de talla y peso periódicamente y el 44.6% no realiza dicho control. (ver tabla Nº6)
• Se observa que de las madres entrevistadas el 53% tienen algún grado de educación primaria y el 47% con algún grado de educación secundaria. (ver tabla Nº 7)
• De las madres seleccionadas el 73% realiza la labor de ama de casa y el 27% se dedican al comercio y otras labores como labranza, ladrilleras, etc.
(ver Tabla Nº8)
• De los niños que padecen de desnutrición crónica el 60% son de sexo masculino y el 40% son de sexo femenino (ver Tabla Nº9)
• De los niños que padecen de desnutrición crónica, el 80% de sus madres tienen un grado de educación primaria y el 20% tienen un grado de educación secundaria, también se aprecia que los niños que no padecen de desnutrición crónica, el 65% de sus madres tienen en grado de educación secundaria y el 35% tienen un grado de educación primaria. (ver tabla Nº10)
• De los niños que padecen de desnutrición crónica, el 80% de sus madres realizan el labor de ama de casa y el 20% laboran como comerciantes, también se aprecia que los niños que no padecen de desnutrición crónica, el 70% de sus madres realizan el labor de ama de casa y el 30% laboran como comerciantes. (ver tabla Nº11)
• De los niños que padecen de desnutrición crónica, el 80% de sus madres no recibieron charla de nutrición y el 20% si recibieron charla de nutrición, también se aprecia que los niños que no padecen de desnutrición crónica, el 60% de sus madres si recibieron charla de nutrición y el 40% no recibieron dicha charla. (ver tabla Nº12)
• De los niños que padecen de desnutrición crónica, el 85% de sus madres no realizan periódicamente el control de peso y talla y el 15% si realizan dicho control, también se aprecia que los niños que no padecen de desnutrición crónica, el 70% de sus madres si realizan periódicamente el control de peso y talla y el 30% no realizan dicho control. (ver tabla Nº13)
Estadísticas descriptivas para variables explicativas cuantitativas
Podemos observar cuan dispersos son las variables explicativas por el coeficiente de variación; la menor variable es el N.HIJOS y las más variable es EDAD.ENT. (ver Tabla Nº14)
Prueba para la evaluación de la normalidad de variables explicativas cuantitativas según grupo – Prueba de Kolmogorov-Smirnov Z
• Variable: Edad de la madre
0 :
H La variable edad de la madre según el grupo 0 tiene un comportamiento normal.
1:
H La variable edad de la madre según el grupo 0 no tiene un comportamiento normal.
El p-valor asociado al estadístico de contraste p
= 105 0 . 〉 α
, luego al nivel de significancia 0.05, no se puede rechazar la H , por lo que se concluye que la0 edad de la madre en el grupo 0 tiene un comportamiento normal. (ver tabla Nº15)Esta hipótesis se extiende al grupo 1, el p-valor asociado el estadístico de contraste es p
= 477 0 . 〉 α
, luego al nivel de significancia 0.05, no se puede rechazar la H , por lo que se concluye que la edad de la madre en el grupo 10 tiene un comportamiento normal• Variable: Número de hijos
0 :
H La variable número de hijos de la madre según el grupo 0 tiene un comportamiento normal.
1:
H La variable número de hijos de la madre según el grupo 0 no tiene un comportamiento normal.
El p-valor asociado al estadístico de contraste p
= 000 0 . 〉 α
, luego al nivel de significancia 0.05, se rechaza H , por lo que se puede aceptar que el número0 de hijos de la madre no tiene un comportamiento normal. (ver tabla Nº15)Esta hipótesis se extiende al grupo 1, el p-valor asociado el estadístico de contraste es p
= 099 0 . 〉 α
, luego al nivel de significancia 0.05, no se puede rechazar H , por lo que se concluye que el número de hijos de la madre en el0 grupo 1 tiene un comportamiento normalPrueba para igualdad de medias para las variables explicativas cuantitativas según grupo – Prueba no paramétrica U-Mann Withney para dos grupos independientes
• Variable: edad de la madre
12 11 0 :µ =µ H
12 11 1:µ ≠ µ H
El p-valor asociado al estadístico de contraste p = 9130. 〉α, luego al nivel de significancia 0.05, no se puede rechazar la H , Dado que la diferencia0 observada entre las dos medias de rangos no es estadísticamente significativa se puede concluir que el promedio edad de la madre es el mismo independientemente de que su hijo padezca de desnutrición crónica o no la padezca. (ver tabla Nº16)
• Variable: número de hijos de la madre
12 11 0 :µ =µ H
12 11 1:µ ≠ µ H
El p-valor asociado al estadístico de contraste p= 4780. 〉α , luego al nivel de significancia 0.05, no se puede rechazar la H , Dado que la diferencia0 observada entre las dos medias de rangos no es estadísticamente significativa se puede concluir que el número promedio de hijos de la madre es el mismo independientemente de que su hijo padezca de desnutrición crónica o no la padezca. (ver tabla Nº16)
Gráficos para la evaluación de la normalidad variables explicativas cuantitativas
Gráfico Nº1: P-Plot edad de la madre vs grupo 0 niño no desnutrido Gráfico Nº2: P-Plot edad de la madre vs grupo 1 niño desnutrido Gráfico Nº3: P-Plot número de hijos vs grupo 0 niño no desnutrido Gráfico Nº4: P-Plot número de hijos vs grupo 1 niño no desnutrido
Los gráficos de probabilidad normal corroboran lo anteriormente mencionado, es decir discrepan del gráfico ideal; por lo tanto hay razones para afirmar que los datos de las variables explicativas continuas no provienen de una población de tipo normal.
Gráfico de cajas Nº5
Se observa la presencia de asimetría en el grupo de niños que no padecen de desnutrición crónica con respecto a la edad de la madre, así mismo se observa dos observaciones atípicas (9 y 63) y una observación extrema (40).
Gráfico de cajas Nº6
Se puede observar la presencia de asimetría en el grupo de niños que no padecen de desnutrición crónica con respecto al número de hijos de la madre, así mismo se observa una observación atípica (47) y una observación extrema (21).
Gráfico matricial para variables cuantitativas Nº7
Podemos observar que entre las dichas variables la correlación lineal es escasa, por lo tanto son incorrelacionadas esto permite construir un modelo que no ocasione problemas de multicolinealidad.
Tabla: matriz de correlaciones para variables cuantitativas
El coeficiente de correlación r=0.249, indica una escasa asociación lineal (lo que no significa que no pueda existir otro tipo de asociación). Para determinar si dicha asociación es estadísticamente significativa contrastamos la hipótesis nula;
0 :
H Indica que la variable edad de la madre y número de hijos no están correlacionadas.
1:
H Indica que la variable edad de la madre y número de hijos están correlacionadas.
El p-valor asociado al estadístico de contraste p= 0320. 〈α , luego al nivel de significancia 0.05, no se puede rechazar la H ,concluyendo que la edad de la0 madre y el número de hijos no están correlacionados. (ver tabla Nº17)
4.2 SELECCIÓN DE VARIABLES PARA EL ANÁLISIS Método Enter (figura 4)
La variable CONTROL, presenta el mínimo p-valor asociado al estadístico puntuación eficiente de Rao, lo que es equivalente, el máximo valor en dicho estadístico (score=18.110), el p=0.000〈α =0.05, por lo que dicha variable será seleccionada.
El modelo va a ser construido con el método Forward Stepwise (Wald), el estadístico de Puntuación Eficiente de Rao que docima la significancia de cada variable que no ingresa y el estadístico Wald que docima la significancia de cada variable que ingresa al modelo.
Método Forward Stepwise (Wald) – (Figura 5)
I Paso: de las variables restantes que no están en la ecuación, la variable G.INST presenta el máximo valor en la Puntuación eficiente de Rao (score=8.097), el p=0.000〈α =0.05, por lo que será seleccionada en el siguiente paso.
De entre las variables incluidas en el análisis después del primer paso, la variable a ser eliminada sería aquella que presentará el máximo p-valor asociado al estadístico de Wald. En este caso las variables CONTROL y G.INST tienen respectivamente p-valor 0.001 y 0.007 inferior a 0.05; en consecuencia ninguna de las dos puede ser eliminada.
II Paso: continuando con el proceso de selección de variables, de las variables independientes restantes que no están en la ecuación la variable CHARLA, tiene el máximo valor en la Puntuación eficiente de Rao (score=6.527), el p=0.011〈α =0.05, por lo que será seleccionada en el siguiente paso. La estadística Wald para la variable CHARLA con p=0.016〈α =0.05, lo que indica que dicha variable contribuye significativamente a la variable grupo.
III Paso: la variable a ser seleccionada es LABOR, pero el p-valor asociado al estadístico de Puntuación de Rao, p=0.795 es mayor que 0.05.
En consecuencia, dado que ninguna variable más puede seleccionada, la estimación de los parámetros de la función Y se realizará a partir de los valores de las variables: CONTROL, G.INST y CHARLA.
4.3 INTERPRETACIÓN DE LOS PARÁMETROS DEL MODELO
El modelo resultante de las variables seleccionadas y sus parámetros estimados para predecir la probabilidad de ocurrencia de desnutrición crónica, será: (ver Tabla Nº18)
Z Z
i
e
e
= +
∧
π 1
donde:
Z = 1.520 –1.915 G.INST –2.595 CONTROL –1.8444 CHARLA
El Odds ratio es:
kXk X
kXk X
x o
e e
e
e
β β β β β βπ
π ....
1
1 1 0 ...
1 ) 1
(
= =
−
+ + +
∧
∧
Como se observa el número
| e
esta elevado a la potencia jβ
∧ , que es el factor por el cual el odds ratio cambia cuando la i-ésima variable explicativa se incrementa en una unidad, así:Si
β
∧ j〉 1
, significa que el odds ratio se incrementa Siβ
∧ j〈 1
, significa que el odds ratio decreceSi
β
∧ j= 0
, significa que el factor es igual a 1, lo cual hace que el odds ratio no varia.Entonces en la columna
β
, se observa que: (ver tabla Nº18)1
915 . 1
1
= − 〈
β
∧ , Por lo que concluimos que la variable G.INST es un factor quedisminuye la probabilidad de ocurrencia de desnutrición crónica.
1 595 . 2
2
= − 〈
β
∧ , Por lo tanto concluimos que la variable CONTROL es un factorque disminuye la probabilidad de ocurrencia de desnutrición crónica.
1 8444 . 1
3
= − 〈
β
∧ , También concluimos que la variable CHARLA es un factor que disminuye la probabilidad de ocurrencia de desnutrición crónica.Por lo tanto al analizar los resultados de las variables predictoras en la columna
=
β
∧Exp ODDS RATIO, podemos observar que: (ver Tabla Nº18)
• El valor Exp
( β
∧1) = 0 . 147
menor que 1, nos indica que el riesgo de que una madre tenga un niño con desnutrición crónica es aproximadamente 85% (1- 0.147) menor en las madres con grado de instrucción secundaria que en las madres con grado de instrucción primaria.• El valor Exp
( β
∧ 2) = 0 . 158
menor que 1, nos indica que el riesgo de que una madre tenga un niño con desnutrición crónica es aproximadamente 84% (1-0.158) menor en las madres que recibieron alguna vez charla sobre nutrición infantil que en las madres que no recibieron dicha charla.• El valor Exp
( β
∧ 3) = 0 . 075
menor que 1, nos indica que el riesgo de que una madre tenga un niño con desnutrición crónica es aproximadamente 92% (1-0.075) menor en las madres que lleva periódicamente a su niño al control de talla y peso que en las madres que no realizan dicho control.4.4 EVALUACIÓN DE LA BONDAD DE AJUSTE DEL MODELO
Estimado el modelo será preciso verificar si el modelo ajusta de manera adecuada a los datos. Se desarrolla las siguientes estadísticas:
4.4.1 PRUEBA DE CHI-CUADRADO
Se docima:
0
:
H
El modelo se ajusta correctamente1
:
H
El modelo no se ajusta correctamente o equivalente:1 log
2
0
: − likelihood = H
1 log
2
1
: − likelihood ≠ H
Para el modelo que contiene solo el término constante, -2loglikehood es igual a 86.362 y se distribuye como 2(74 1)
χ
− ; cuando contiene las variables seleccionadas –2loglikehood (Desvianza) es igual a 52.218, para esta estadística se docima esta última con 2(74 (3 1))+
χ
− y se rechaza la hipótesis nula si su valor es mayor que 2(74 (3 1))+
χ
− , con un nivel de significaciónα
. El valor crítico para 2(74 (3 1))+
χ
− (0.05) =90.531, como se observa 52.218 no es mayor que 90.531, por lo tanto no se rechaza la hipótesis nula, entonces el modelo se ajusta correctamente. (ver Tabla N20)4.4.2 PRUEBA DE CHI-CUADRADO DE PEARSON
La estadística Model Chi-square (ver Tabla Nº21) es la estadística chi- cuadrado, toma el valor igual a 34.144 y es igual a la diferencia entre – 2loglikehood que contiene solo a la constante y el modelo con las variables seleccionadas. En este caso las hipótesis estadísticas son:
0,..3 j
un menos lo
por , 0 :
..
:
1
3 1
0 0
=
≠
=
=
=
H jH
β
β β
β
La estadística se distribuye como
χ
2(n− k( −1)) con p=k+1 y se rechaza la hipótesis nula si su valor es mayor queχ
2(n−k−1)( α )
.El valor crítico para
χ
2(70)(0.05) =90.531, como se observa 34.144 no es mayor que 90.531, por lo tanto se rechaza la hipótesis nula, concluyendo que las variables seleccionadas contribuyen significativamente en el modelo.4.4.3 PRUEBA DE HOSMER Y LEMESHOW
Esta prueba para evaluar la bondad de ajuste del modelo estimado, siendo la hipótesis: (ver tabla Nº22)
0
:
H
El modelo se ajusta correctamente1
:
H
El modelo no se ajusta correctamentecomo el p-valor asociado = 0.567
〉α = 0 . 05
, no se puede rechazar la hipótesis nula, concluyendo que el modelo se ajusta correctamente.4.5. EVALUACION PREDICTIVA DEL MODELO
Además de las medidas de bondad de ajuste, será interesante conocer la calidad predictiva del modelo, a continuación las siguientes técnicas:
4.5.1 TABLA DE CLASIFICACIÓN
Observamos que 53 niños sin desnutrición crónica fueron correctamente clasificados como tales por el modelo estimado y 12 niños con desnutrición crónica se clasificaron como tales. Los elementos fuera de la diagonal de la tabla indican que 9 niños fueron mal clasificados con un total de 74 niños observados.
De los niños sin desnutrición crónica un 98.1% fueron correctamente clasificados y de los niños con desnutrición crónica un 60% fueron correctamente clasificados con el modelo estimado. (ver anexo, Tabla Nº23).
Observando el histograma de probabilidades estimadas vemos 53 niños tienen probabilidad de ocurrencia cercano a cero (sin desnutrición crónica) y 12 niños tienen probabilidad de ocurrencia cercano a uno (con desnutrición crónica). (ver gráfico Nº8)
La sensibilidad es 87%, es decir la probabilidad de que el modelo clasifique en el grupo de niños sin desnutrición crónica, cuando el niño no presenta desnutrición crónica.
La especificidad es 92%, es decir la probabilidad de que el modelo clasifique en el grupo con desnutrición crónica, cuando el niño presenta desnutrición crónica.
Con la opción guardar en el SPSS, se generan las variables PRE_1 y PGR_1, cuyos valores son: la probabilidad de que el niño pertenezca al grupo de presencia de desnutrición crónica y el grupo en el que ha sido clasificado el niño, respectivamente.
Realizando el cruce de variables de las observaciones por centro educativo y la variable PGR_1, obtenemos que: (ver Tabla Nº24)
• De los centros educativos estudiados que presentaron por lo menos un niño con desnutrición crónica según el modelo logístico son:
C.E.I.E. Jicamarca C.E.I.E. Paraíso C.E.I.E. Valle del triunfo C.E.I.E. La Campiña C.E.I.E. Abelardo Quiñones C.E.I.E. Villa Leticia C.E.I.E. Alecrin C.E.I.E. La Florida C.E.I.E. Zaracoto
• Los centro educativos que no presentan niños con desnutrición crónica según el modelo logístico, son:
C.E.I.E. Mary Ward C.E.I.E. La Encalada C.E.I.E. Villas de Media luna C.E.I.E. Haras Huayco
C.E.I.E. San Francisco C.E.I.E. Santa Cruz Cajamarquilla C.E.I.E. Santa Cruz Alto Perú
4.5.2 AREA BAJO LA CURVA
El área bajo la curva del modelo estimado, nos indica un Area igual 0.8944, lo que nos indica que el modelo estimado ha realizado una buena discriminación de los niños, es decir que realiza una buena distinción entre niños sin desnutrición crónica y con desnutrición crónica. (ver gráfico Nº 9)
Si nuestro objetivo sería escoger un corte de punto optimo para los propósitos de la clasificación, uno podría seleccionar un punto de corte que maximize ambos sensibilidad y especificidad. Esta selección se da a través del Gráfico Nº10, donde se observa que el punto de corte “optimo” podría ser 0.31 que es aproximadamente donde sensibilidad y especificidad se cruzan. Se utilizó el software STATA, para la elaboración de dichos gráficos.