5. Estimación de la probabilidad de pobreza de un hogar
5.2 Exactitud de las estimaciones de probabilidades de pobreza de los hogares
Siempre que las relaciones entre indicadores y pobreza no cambien con el tiempo,
y siempre que el índice se aplique a hogares que sean representativos de la misma
población a partir de la cual fue elaborado originalmente el índice, este proceso de
calibración produce estimaciones sin sesgo estadístico de las probabilidades de pobreza.
El término sin sesgo estadístico significa que en muestras repetidas de la misma
población, el promedio de las estimaciones coincide con el valor verdadero. Dados estos
supuestos, el índice también produce estimaciones no sesgadas de las tasas de pobreza
en un punto determinado en el tiempo y estimaciones no sesgadas de los cambios de las
tasas de pobreza entre dos puntos en el tiempo.39
Por supuesto, las relaciones entre indicadores y pobreza sí cambian hasta cierto
punto desconocido en el transcurso del tiempo, y también varían entre diferentes grupos
subnacionales de la población mexicana. Por lo tanto, el índice generalmente va a estar
sesgado cuando se aplique después de noviembre de 2014 (el último mes de trabajo de
campo de la ENIGH de 2014) o cuando se aplique a subgrupos que no sean
representativos a nivel nacional.
39
Esto sucede porque estas estimaciones de las tasas de pobreza de una población son funciones lineales de las estimaciones no sesgadas de las probabilidades de pobreza de los hogares.
¿Qué exactitud tienen las estimaciones de las probabilidades de pobreza de los
hogares, suponiendo que no cambian las relaciones entre indicadores y pobreza en el
tiempo y suponiendo que se aplica el índice con una muestra que es representativa de la
población de México? Para averiguarlo, se aplica el índice a 1,000 muestras con
remuestreo aleatorio bootstrap de tamaño n = 16,384 a partir de la muestra de
validación de 2014. El proceso de bootstrap significa que:
Se califica cada hogar en la muestra de validación
Se extrae de la muestra de validación una muestra con remuestreo aleatorio (una muestra bootstrap) con reemplazos
Para cada rango de scores, se calcula la probabilidad de pobreza observada en la muestra bootstrap, es decir, la proporción de hogares que obtuvieron ese score que tienen los gastos de consumo inferiores a una línea de pobreza
Para cada rango de scores, se registra la diferencia entre la probabilidad de pobreza estimada (Cuadro 4) y la probabilidad de pobreza observada en la muestra
bootstrap
Se repiten los tres pasos previos 1,000 veces
Para cada rango de scores, se reporta el promedio de las diferencias entre las probabilidades de pobreza estimadas y observadas en las 1,000 muestras
Para cada rango de scores, se reportan los intervalos que contienen las 900, 950, y 990 diferencias centrales entre las probabilidades de pobreza estimadas y observadas
Para cada rango de scores y con n = 16,384, el Cuadro 6 muestra los promedios
de errores, esto es, los promedios de las diferencias entre probabilidades de pobreza
estimadas y observadas. Tambien muestra los intervalos de confianza para las
diferencias.
Para el 100% de la línea de bienestar según la nueva definición, la probabilidad
de pobreza promedio en las muestras bootstrap para scores de 45–49 en la muestra de
validación de 2014 es mayor al valor verdadero en 10.7 puntos porcentuales. Para
El intervalo de confianza de 90 por ciento de las diferencias para scores de 45–49
es de ±3.8 puntos porcentuales (Cuadro 6). Esto significa que en 900 de 1,000 muestras
bootstrap, la diferencia promedio entre el valor estimado y el observado en los hogares
de este rango de scores se encuentra entre +6.9 y +14.5 puntos porcentuales (porque
+10.7 – 3.8 = +6.9, y +10.7 + 3.8 = +14.5). En 950 de 1,000 muestras bootstrap (95
por ciento), la diferencia es de +10.7 ± 4.5 puntos porcentuales, y en 990 de 1,000 (99
por ciento), la diferencia es de +10.7 ± 6.1 puntos porcentuales.
Algunas de las diferencias absolutas entre probabilidades de pobreza estimadas y
valores observados en el Cuadro 6 para el 100% de la línea de bienestar según la nueva
definición son elevadas. Además, los errores tienden a ser positivos (la pobreza
estimada es mayor que la pobreza observada) en los scores más altos, y negativos (la
pobreza estimada es menor que la pobreza observada) en los scores más bajos. Las
diferencias se deben en parte a que la muestra de validación de 2014 es una sola
muestra que —gracias a la varianza muestral— difiere en su distribución de las
submuestras de elaboración/calibración y de la población de México. No obstante, lo
que importa para la focalización no es tanto la diferencia en todos los rangos de scores,
sino la diferencia en los rangos de scores que están inmediatamente por encima y por
debajo del umbral de corte usado para la focalización. Esto mitiga los efectos del sesgo
estadístico y de la varianza muestral en la focalización (Friedman, 1997). Más adelante,
Además, para que las estimaciones de las tasas de pobreza de grupos de hogares
sean suficientemente exactas para ser útiles, deben equilibrarse, en gran medida, los
errores en las probabilidades de pobreza de hogares individuales. Como se describe en la
siguiente sección, esto es lo que generalmente sucede con muestras nacionalmente
representativas en 2014 en México, pero no se cumple en la misma medida para
muestras de poblaciones subnacionales o en otros períodos de tiempo.
Otra posible fuente de diferencias entre las estimaciones y los valores observados
es el sobreajuste (overfitting). El índice está libre de sesgos estadísticos, pero aun así
puede estar sobreajustado cuando se aplica después de la finalización del trabajo de
campo de la ENIGH en noviembre de 2014. En otras palabras, el índice puede ajustarse
tanto a los datos de elaboración/calibración de 2014 que capta —debido a la varianza
muestral— no solo algunos patrones reales sino también algunos patrones aleatorios, los
cuales aparecen únicamente en los datos de la muestra de construcción/calibración de la
ENIGH de 2014 pero no en la población de México. O bien, el índice puede estar
sobreajustado en el sentido en que la exacitud se reduce cuando las relaciones entre
indicadores y pobreza cambian en el tiempo, o cuando el índice se aplica a muestras que
no son representativas de toda la población mexicana.
Overfitting can be mitigated by simplifying the scorecard and by not relying only
on data but rather also considering theory, experience, and judgment. Of course, the
scorecard here does this. Combining scorecards can also reduce overfitting, at the cost
El sobreajuste puede mitigarse simplificando el índice y no basándose solo en los
datos, sino considerando también la teoría, la experiencia, y el juicio. Por supuesto, así
se creó este índice. La combinación de índices también puede reducir el sobreajuste,
pero conlleva también una mayor complejidad.
La mayoría de los errores en las probabilidades de los hogares individuales se
equilibran en las estimaciones de las tasas de pobreza para muestras nacionalmente
representativas (véanse las próximas dos secciones). Es más, por lo menos cierta parte
de los errores de las estimaciones del cambio a lo largo del tiempo proceden de fuentes
ajenas al índice, como la varianza muestral, cambios en las líneas de pobreza,
inconsistencias en la calidad de los datos, e imperfecciones de los ajustes de los precios.
Estos factores solo pueden atenderse mejorando la disponibilidad, frecuencia, cantidad,
y calidad de los datos obtenidos de encuestas de gastos de consumo nacionales (lo que
excede el alcance de este índice) o reduciendo el sobreajuste (lo que probablemente