Exactitud de las estimaciones de probabilidades de pobreza de los hogares

5. Estimación de la probabilidad de pobreza de un hogar La suma de los puntos del índice para un hogar se denomina score Para

5.2 Exactitud de las estimaciones de probabilidades de pobreza de los hogares

Siempre que las relaciones entre indicadores y pobreza no cambien con el tiempo,

y siempre que el índice se aplique a hogares que sean representativos de la misma

población a partir de la cual fue construido originalmente el índice, este proceso de

calibración produce estimaciones sin sesgo estadístico de las probabilidades de pobreza.

El término sin sesgo estadístico significa que en muestras repetidas de la misma

población, el promedio de las estimaciones coincide con el valor verdadero. Dados estos

supuestos, el índice también produce estimaciones no sesgadas de las tasas de pobreza

en un punto determinado en el tiempo y estimaciones no sesgadas de los cambios de las

tasas de pobreza entre dos puntos en el tiempo.31

Por supuesto, las relaciones entre indicadores y pobreza sí cambian hasta cierto

punto desconocido en el tiempo, y también varían entre diferentes grupos subnacionales

de la población guatemalteca. Por lo tanto, el índice generalmente va a estar sesgado

cuando se aplique después de febrero de 2015 (el último mes de trabajo de campo para

¿Qué exactitud tienen las estimaciones de las probabilidades de pobreza de los

hogares, suponiendo que no cambian las relaciones entre indicadores y pobreza en el

tiempo y suponiendo que se aplica el índice con una muestra que es representativa de la

población de Guatemala? Para averiguarlo, se aplica el índice a 1,000 muestras con

remuestreo aleatorio bootstrap de tamaño n = 16,384 a partir de la muestra de

validación de 2014. El proceso de bootstrap significa que:

 Se califica cada hogar en la muestra de validación

 Se extrae una muestra con remuestreo aleatorio (una muestra bootstrap) con reemplazos procedentes de la muestra de validación

 Para cada rango de scores, se calcula la probabilidad de pobreza observada en la muestra bootstrap, es decir, la proporción de hogares que obtuvieron ese score que tienen los gastos de consumo inferiores a una línea de pobreza

 Para cada rango de scores, se registra la diferencia entre la probabilidad de pobreza estimada (Cuadro 4) y la probabilidad de pobreza observada en la muestra

bootstrap

 Se repiten los tres pasos previos 1,000 veces

 Para cada rango de scores, se reporta el promedio de la diferencia entre las probabilidades de pobreza estimadas y observadas en las 1,000 muestras

 Para cada rango de scores, se reportan los intervalos que contienen las 900, 950, y 990 diferencias centrales entre las probabilidades de pobreza estimadas y observadas

Para cada rango de scores y con n = 16,384, el Cuadro 6 muestra los errores,

esto es, los promedios de las diferencias entre probabilidades de pobreza estimadas y

observadas. Tambien muestra los intervalos de confianza para las diferencias.

Para el 100% de la línea nacional, la probabilidad de pobreza promedio en las

al valor verdadero en 7.2 puntos porcentuales. Para scores de 45–49, la estimación es

mayor al valor verdadero en 3.1 puntos porcentuales.32

El intervalo de confianza de 90 por ciento de las diferencias para scores de 40–44

es de ±5.0 puntos porcentuales (Cuadro 6). Esto significa que en 900 de 1,000 muestras

bootstrap, la diferencia promedio entre el valor estimado y el observado en los hogares de este rango de scores se encuentra entre –12.2 y –2.2 puntos porcentuales (porque –

7.2 – 5.0 = –12.2, y –7.2 + 5.0 = –2.2). En 950 de 1,000 muestras bootstrap (95 por

ciento), la diferencia es de –7.2 ± 5.2 puntos porcentuales, y en 990 de 1,000 (99 por

ciento), la diferencia es de –7.2 ± 5.9 puntos porcentuales.

Algunas de las diferencias absolutas entre probabilidades de pobreza estimadas y

valores observados en el Cuadro 6 para el 100% de la línea nacional son grandes. Las

diferencias se deben a que la muestra de validación de 2014 es una sola muestra que —

gracias a la varianza muestral— difiere en su distribución de las submuestras de

construcción/calibración y de la población de Guatemala. No obstante, lo que importa

para la focalización no es tanto la diferencia en todos los rangos de scores, sino la

diferencia en los rangos de scores que están inmediatamente por encima y por debajo

estadístico y de la varianza muestral en la focalización (Friedman, 1997). Más adelante,

en la sección 8, se ve el tema de la exactitud de la focalización en detalle.

Además, para que las estimaciones de las tasas de pobreza de grupos de hogares

sean suficientemente exactas para ser útiles, deben equilibrarse, en gran medida, los

errores en las probabilidades de pobreza de hogares individuales. Como se describe en la

siguiente sección, esto es lo que generalmente sucede con muestras nacionalmente

representativas en 2014, pero no se cumple en la misma medida para muestras de

poblaciones subnacionales o en otros períodos de tiempo.

Otra posible fuente de diferencias entre las estimaciones y los valores observados

es el sobreajuste (overfitting). El índice está libre de sesgos estadísticos, pero aun así

puede estar sobreajustado cuando se aplica después de la finalización del trabajo de

campo de la ENCOVI en febrero de 2015. En otras palabras, el índice puede ajustarse

tanto a los datos de construcción/calibración de 2014 que capta no solo algunos

patrones reales sino también algunos patrones aleatorios, los cuales, debido a la

varianza muestral, aparecen únicamente en los datos de la muestra de

construcción/calibración de la ENCOVI de 2014 pero no en la población de Guatemala.

O bien, el índice puede estar sobreajustado en el sentido en que la exacitud se reduce

cuando las relaciones entre indicadores y pobreza cambian en el tiempo, o cuando el

índice se aplica a muestras que no son representativas de toda la población

El sobreajuste puede mitigarse simplificando el índice y no basándose solo en los

datos, sino considerando también la teoría, la experiencia, y el juicio. Por supuesto, así

se creó este índice. La combinación de índices también puede reducir el sobreajuste,

pero conlleva también una mayor complejidad.

La mayoría de los errores en las probabilidades de los hogares individuales se

equilibran en las estimaciones de las tasas de pobreza para muestras nacionalmente

representativas (véanse las próximas dos secciones). Es más, por lo menos algunas

diferencias de las estimaciones del cambio a lo largo del tiempo proceden de fuentes

ajenas al índice, como los cambios de las relaciones entre indicadores y pobreza, la

varianza muestral, cambios de las líneas de pobreza, inconsistencias en la calidad de los

datos en el tiempo, e imperfecciones de los ajustes de los precios en el tiempo y en

diferentes regiones geográficas. Estos factores solo pueden atenderse mejorando la

disponibilidad, frecuencia, cantidad, y calidad de los datos obtenidos de encuestas de

gastos de consumo nacionales (lo que excede el alcance de este índice) o reduciendo el

sobreajuste (lo que probablemente tenga beneficios limitados, dada la parsimonia del

6. Estimaciones de la tasa de pobreza en un punto

In document Índice de Calificación de la Pobreza TM Guatemala (página 57-62)