5. Estimación de la probabilidad de pobreza de un hogar La suma de los puntos del índice para un hogar se denomina score Para
5.2 Exactitud de las estimaciones de probabilidades de pobreza de los hogares
Siempre que las relaciones entre indicadores y pobreza no cambien con el tiempo,
y siempre que el índice se aplique a hogares que sean representativos de la misma
población a partir de la cual fue construido originalmente el índice, este proceso de
calibración produce estimaciones sin sesgo estadístico de las probabilidades de pobreza.
El término sin sesgo estadístico significa que en muestras repetidas de la misma
población, el promedio de las estimaciones coincide con el valor verdadero. Dados estos
supuestos, el índice también produce estimaciones no sesgadas de las tasas de pobreza
en un punto determinado en el tiempo y estimaciones no sesgadas de los cambios de las
tasas de pobreza entre dos puntos en el tiempo.31
Por supuesto, las relaciones entre indicadores y pobreza sí cambian hasta cierto
punto desconocido en el tiempo, y también varían entre diferentes grupos subnacionales
de la población guatemalteca. Por lo tanto, el índice generalmente va a estar sesgado
cuando se aplique después de febrero de 2015 (el último mes de trabajo de campo para
¿Qué exactitud tienen las estimaciones de las probabilidades de pobreza de los
hogares, suponiendo que no cambian las relaciones entre indicadores y pobreza en el
tiempo y suponiendo que se aplica el índice con una muestra que es representativa de la
población de Guatemala? Para averiguarlo, se aplica el índice a 1,000 muestras con
remuestreo aleatorio bootstrap de tamaño n = 16,384 a partir de la muestra de
validación de 2014. El proceso de bootstrap significa que:
Se califica cada hogar en la muestra de validación
Se extrae una muestra con remuestreo aleatorio (una muestra bootstrap) con reemplazos procedentes de la muestra de validación
Para cada rango de scores, se calcula la probabilidad de pobreza observada en la muestra bootstrap, es decir, la proporción de hogares que obtuvieron ese score que tienen los gastos de consumo inferiores a una línea de pobreza
Para cada rango de scores, se registra la diferencia entre la probabilidad de pobreza estimada (Cuadro 4) y la probabilidad de pobreza observada en la muestra
bootstrap
Se repiten los tres pasos previos 1,000 veces
Para cada rango de scores, se reporta el promedio de la diferencia entre las probabilidades de pobreza estimadas y observadas en las 1,000 muestras
Para cada rango de scores, se reportan los intervalos que contienen las 900, 950, y 990 diferencias centrales entre las probabilidades de pobreza estimadas y observadas
Para cada rango de scores y con n = 16,384, el Cuadro 6 muestra los errores,
esto es, los promedios de las diferencias entre probabilidades de pobreza estimadas y
observadas. Tambien muestra los intervalos de confianza para las diferencias.
Para el 100% de la línea nacional, la probabilidad de pobreza promedio en las
al valor verdadero en 7.2 puntos porcentuales. Para scores de 45–49, la estimación es
mayor al valor verdadero en 3.1 puntos porcentuales.32
El intervalo de confianza de 90 por ciento de las diferencias para scores de 40–44
es de ±5.0 puntos porcentuales (Cuadro 6). Esto significa que en 900 de 1,000 muestras
bootstrap, la diferencia promedio entre el valor estimado y el observado en los hogares de este rango de scores se encuentra entre –12.2 y –2.2 puntos porcentuales (porque –
7.2 – 5.0 = –12.2, y –7.2 + 5.0 = –2.2). En 950 de 1,000 muestras bootstrap (95 por
ciento), la diferencia es de –7.2 ± 5.2 puntos porcentuales, y en 990 de 1,000 (99 por
ciento), la diferencia es de –7.2 ± 5.9 puntos porcentuales.
Algunas de las diferencias absolutas entre probabilidades de pobreza estimadas y
valores observados en el Cuadro 6 para el 100% de la línea nacional son grandes. Las
diferencias se deben a que la muestra de validación de 2014 es una sola muestra que —
gracias a la varianza muestral— difiere en su distribución de las submuestras de
construcción/calibración y de la población de Guatemala. No obstante, lo que importa
para la focalización no es tanto la diferencia en todos los rangos de scores, sino la
diferencia en los rangos de scores que están inmediatamente por encima y por debajo
estadístico y de la varianza muestral en la focalización (Friedman, 1997). Más adelante,
en la sección 8, se ve el tema de la exactitud de la focalización en detalle.
Además, para que las estimaciones de las tasas de pobreza de grupos de hogares
sean suficientemente exactas para ser útiles, deben equilibrarse, en gran medida, los
errores en las probabilidades de pobreza de hogares individuales. Como se describe en la
siguiente sección, esto es lo que generalmente sucede con muestras nacionalmente
representativas en 2014, pero no se cumple en la misma medida para muestras de
poblaciones subnacionales o en otros períodos de tiempo.
Otra posible fuente de diferencias entre las estimaciones y los valores observados
es el sobreajuste (overfitting). El índice está libre de sesgos estadísticos, pero aun así
puede estar sobreajustado cuando se aplica después de la finalización del trabajo de
campo de la ENCOVI en febrero de 2015. En otras palabras, el índice puede ajustarse
tanto a los datos de construcción/calibración de 2014 que capta no solo algunos
patrones reales sino también algunos patrones aleatorios, los cuales, debido a la
varianza muestral, aparecen únicamente en los datos de la muestra de
construcción/calibración de la ENCOVI de 2014 pero no en la población de Guatemala.
O bien, el índice puede estar sobreajustado en el sentido en que la exacitud se reduce
cuando las relaciones entre indicadores y pobreza cambian en el tiempo, o cuando el
índice se aplica a muestras que no son representativas de toda la población
El sobreajuste puede mitigarse simplificando el índice y no basándose solo en los
datos, sino considerando también la teoría, la experiencia, y el juicio. Por supuesto, así
se creó este índice. La combinación de índices también puede reducir el sobreajuste,
pero conlleva también una mayor complejidad.
La mayoría de los errores en las probabilidades de los hogares individuales se
equilibran en las estimaciones de las tasas de pobreza para muestras nacionalmente
representativas (véanse las próximas dos secciones). Es más, por lo menos algunas
diferencias de las estimaciones del cambio a lo largo del tiempo proceden de fuentes
ajenas al índice, como los cambios de las relaciones entre indicadores y pobreza, la
varianza muestral, cambios de las líneas de pobreza, inconsistencias en la calidad de los
datos en el tiempo, e imperfecciones de los ajustes de los precios en el tiempo y en
diferentes regiones geográficas. Estos factores solo pueden atenderse mejorando la
disponibilidad, frecuencia, cantidad, y calidad de los datos obtenidos de encuestas de
gastos de consumo nacionales (lo que excede el alcance de este índice) o reduciendo el
sobreajuste (lo que probablemente tenga beneficios limitados, dada la parsimonia del