Estadística Bayesiana y Elecciones en México

(1)

Estadística Bayesiana y Elecciones en México

XXVIII Foro Nacional de Estadística

Instituto Nacional de Estadística y Geografía. Aguascalientes, México. Septiembre 27, 2013.

Manuel Mendoza R.

Departamento de Estadística Instituto Tecnológico Autónomo de México Departamento de Probabilidad y Estadística

(2)



El sistema electoral en México se ha transformado radicalmente en los últimos 20 años.

 Las elecciones federales son organizadas por un organismo

autónomo, el Instituto Federal Electoral.

 _{Existe una variedad de fuerzas políticas con posibilidades}

reales de ganar elecciones.

(3)



El Instituto Federal Electoral (IFE),

 _{Es dirigido por Consejo General que integra a 9 Consejeros}

Ciudadanos.

 _{Opera el Registro Federal de Electores.}

 _{Recluta, cada tres años, un millón de ciudadanos que para que}

colaboren como funcionarios de casilla.

 Es el conducto para que los Partidos Políticos reciban el

(4)

 _{Audita los informes financieros de los Partidos y supervisa las}

campañas electorales.

 _{Despliega el operativo nacional para instalar las casillas de}

votación en todo el país.

 _{Recibe, y acumula los votos para anunciar los resultados y,}

 Actúa como árbitro entre los partidos y puede imponer sanciones

si alguno viola las reglas electorales.

(5)



Además, el IFE

 _{Convoca Especialistas en distintas materias para proponer,}

diseñar, auditar u operar algunos de los procedimientos con los que desahoga sus funciones.

• Comité Asesor del Programa de Resultados Preliminares (PREP).

• Comité Técnico del Padrón Electoral.

• Comité Técnico del Conteo Rápido.

(6)

 _{Opera el Registro Federal de Electores.}

 Recibe, y acumula los votos para anunciar los resultados .

 Convoca Especialistas.

(7)

 _{El Padrón Electoral es el listado donde se asientan los datos de}

todos los ciudadanos que tienen derecho a votar en las elecciones federales.

 _{El registro de un ciudadano se produce a solicitud del propio}

interesado.

 _{El ciudadano que concluye exitosamente su registro recibe una}

credencial para votar con fotografía.

El Padrón Electoral

(8)

 _{La credencial para votar sirve como medio de identificación.}  A partir del padrón se produce el Listado Nominal de votantes.  _{La credencial se presenta al momento de la votación, se coteja}

con el listado nominal y con la persona que la presenta.

 _{Antes de una elección federal, el Padrón Electoral debe ser}

declarado válido por el Consejo General del IFE.

(9)

 _{No existe una definición legal del concepto de Padrón Electoral} Válido.

 _{Dos características básicas:}

• Que estén todos los que deben estar. • Qué no estén los que no deben estar.

(10)

 _{Se traducen en dos indicadores:}

• Cobertura. • Actualización.

 No existen cotas mínimas legales para estos indicadores.  _{Se evalúan a través de encuestas.}

(11)

 _{Encuesta de Cobertura.}

• Encuesta Nacional de Personas Elegibles para el Padrón.

 _{Encuesta de Actualización.}

• Muestra de Registros en el Padrón Electoral.

(12)

 _{El Registro Federal de Electores cuenta con una Dirección de}

Estadística muy competente.

 Es indispensable una opinión (auditoría) externa.  _{Comité Técnico del Padrón Electoral integrado por}

• Demógrafos, • Geógrafos,

• Expertos en Sistemas de Información y, • Estadísticos.

(13)

 _{Comité Técnico del Padrón Electoral}

 Valora la seguridad e integridad del sistema de información,

 _{Confronta la cobertura reportada con la información demográfica.}  _{Evalúa los instrumentos cartográficos y de georeferencia que se}

utlizan para asignar los módulos de empadronamiento y para levantar las encuestas;

 _{Valora las componentes técnicas de las encuestas y contrastan}

sus resultados a partir de procedimientos alternativos.

(14)

 _{Distintos expertos Estadísticos han participado en este Comité.}  En general, los trabajos están directamente realcionados con el

análisis de encuestas (muestreo de poblaciones finitas).

 _{Existe mucha experiencia en el tema y gran cantidad de}

referencias bibliográficas (desde la perspectiva frecuentista).

 _{Con un enfoque Bayesiano, el acervo disponible es mucho más}

limitado.

(15)



Objetivo: Describir la variable aleatoria X, con soporte

X

y función

de probabilidad P( X_(n) |q ) totalmente conocida, excepto por valor del parámetro fijo de dimensión finitaq.

 _{Se cuenta con una muestra de observaciones X}_(n)_{con función de}

probabilidad conjunta P( X_(n)|q ).

 Antes de los datos X_(n), la información sobre q se describe con la

probabilidad inicial ( a priori ) P( q ).

(16)

 _{Las interpretaciones de la probabilidad en el modelo de muestreo}

P( X_(n) |q) y en la distribución inicial

P(q) son distintas.

En el primer caso describen variabilidad mientras

que en segundo describen incertidumbre.

(17)

 Las inferencias sobre el parámetro, una vez observados e

incorporados los datos de la muestra, se realizan a partir de la distribución final (a posteriori) P( q | X_(n) )

P( q | X_(n) )  P( X_(n) | q ) P( q )

(18)



Ejemplo 1. X variable aleatoria Normal con media m y varianza s2 conocida (precisión t = 1/s2_). P( X | q ) = N( X | m, t ); q = m



(19)



Ejemplo 2. X variable aleatoria Normal con media m y varianza s2 desconocidas (precisión t = 1/s2_). P( X | q ) = N( X | m, t ); q = ( m, t )



Si la inicial para q es P( q ) = P( m,t ) = P( m

|

t ) P( t ) = N ( m | m, ct) Gamma ( t | a, b ) P( q | X_(n) )  P( X_(n) | q ) P( q )

(20)

P( q | X_(n) )  P( X_(n) | q ) P( q ) P( q| X_(n) ) = P( m, t | X_(n) ) = P( m

|

t

,

X_(n) ) P( t | X_(n) ) = N ( m | m_X, c_X t) Gamma ( t | a_X, b_X ) P( m | X_(n) ) =



P( m,t | X_(n) ) dt =



N( m | m_X, t_X ) Gamma ( t | a_X, b_X ) dt P( m | X_(n) ) =

Stu

( m | m_X,

g

_X, n-1 )

(21)



Ejemplo 3. X variable aleatoria Poisson con media l.

P( X | q ) = Poisson( X | l ); q = l



Si la inicial para l es P( l ) = Gamma ( l | a, b)

P( l | X_(n) )  P( X_(n) | l ) P( l )



P( l | X_(n) ) = Gamma ( l | a_X, b_X )

(22)

1 u1 2 u2 · · · · · · · · N u_N Unidades en la Población e identificadores

Poblaciones Finitas

(23)

1 u1 2 u2 · · · · · · · · N u_N Unidades en la Población e identificadores 1 u1 X(u1) 2 u2 X(u2) · · · · · · · · · · · · N u_N X(uN)

Valores de la variable bajo estudio

(24)

Unidades en la Población e identificadores 1 u1 X(u1) 2 u2 X(u2) · · · · · · · · · · · · N u_N X(uN)

(25)

1 u1 X(u1) 2 u2 X(u2) · · · · · · · · · · · · N u_N X(uN) Unidades en la Población e identificadores

Valores de la variable bajo estudio 1 u1 X(u1) p1 2 u2 X(u2) p2 · · · · · · · · · · · · · · · · N uN X(uN) pN Probabilidades de selección

Poblaciones Finitas

(26)

1 u1 X(u1) p1 2 u2 X(u2) p2 · · · · · · · · · · · · · · · · N uN X(uN) pN Unidades en la Población e identificadores

Probabilidades de selección (muestreo aleatorio simple)

1 u1 X(u1) 1/N 2 u2 X(u2) 1/N · · · · · · · · · · · · · · · · N uN X(uN) 1/N

Poblaciones Finitas

(27)



Problemas habituales:

 _{Estimación del total poblacional}T = X₁ + X₂ + · · · + X_N

 Estimación de la media poblacional M = T / N

 _{Estimación de una proporción poblacional}

(28)



Variable Aleatoria X  muestra ( x₁, x₂, …, x_n ); (n < N).

 P_{es totalmente conocida}



_X

es desconocido

 Los parámetros de interés ( T, M ) dependen de

X

 Espacio muestral

X

= { X₁, X₂, · · · , X_N}

 _{Función de probabilidad}P_{= {}p₁, p₂, · · · , p_N }

 El parámetro ( de dimensión finita, N ) es

X

Poblaciones Finitas

(29)

Análisis Bayesiano de Poblaciones Finitas



Existen distintas posibilidades para abordar este problema como un caso del análisis paramétrico. Por ejemplo, suponga que:



X

= { X₁, X₂, · · · , X_N } es una muestra aleatoria, de tamaño N, de una variable X*.

 _{La función de probabilidad de X*, P( X* |}f ) es conocida salvo por el valor de f F.

(30)

Análisis Bayesiano de Poblaciones Finitas

 _X_(n)_{= { X}₁_{, · · · , X}_n_{} es una submuestra de}

X

_{que se obtiene}

por un mecanismo de remuestreo.

 _{El remuestreo tiene probabilidades}P_{= {}p₁, p₂, · · · , p_N }.

 _{Si las probabilidades}P_{= {}p₁, p₂, · · · , p_N } son conocidas y no dependen de los valores de X, entonces se puede probar que

(31)

Análisis Bayesiano de Poblaciones Finitas

 _{A partir de una distribución inicial P(}

f

_{) para el parámetro}

f

_en

el modelo P( X* |

f

), y la función de verosimilitud P( X_(n) |

f

), se obtiene la final

P(

f

| X_(n) )  P( X_(n) |

f

) P(

f

).

 _ParaT = X₁ + X₂ + · · · + X_N, la inferencia respectiva se obtiene

a través de la distribución predictiva

(32)

Análisis Bayesiano de Poblaciones Finitas

 _{En particular, si P( X* |}

f

_{) = Poisson ( X* |}

f

_{), entonces}

P( T |

f

) = Poisson ( T

|

N

f

)

 _{Si como inicial para}

f,

_{se utiliza una distribución}

Gamma, entonces

(33)

Análisis Bayesiano de Poblaciones Finitas

 _{Si la inicial conjugada es mínimo informativa, entonces}

P( T | X_(n) ) es Binomial Negativa

 _{Si se estima puntualmente el valor del total}T con una

función de utilidad cuadrática, entonces

(34)

Análisis Bayesiano de Poblaciones Finitas

 _{Además del valor estimado puntual, se cuenta con toda la}

distribución predictiva posterior de T

P( T | X_(n) )

 _{A partir de esta distribución es posible determinar intervalos de}

(35)

Volviendo al Padrón…

 Información a través de la Encuesta de Verificación Nacional

Muestral (cobertura) 2008.

 _{Diseño estratificado y polietápico.}

• Vivienda  Localidad  Sección  Estrato  Entidad Federativa • 3000 secciones en muestra de un total de 64, 619 ( 4.64% )



Información del Registro Federal Electoral Mexicano en 2008 para establecer la calidad del Padrón Electoral Mexicano.

(36)

 _{Se estimó el Total de habitantes con edad 18 años y más, residente}

en el país ( T_X).

 _{Se estimó el Total de habitantes con edad 18 años y más, residente}

en el país, que estaba registrado en el padrón ( T_Y).

 _{Se estimó la proporción de empadronamiento (}T_Y / T_X).

(37)

 _{El país se integra con 32 entidades federativas (estados).}  _{Todas las entidades federativas se incluyeron en el estudio.}  _{El total nacional se estima sumando los totales estimados}

de todas las entidades federativas.

(38)

 _{Cada estado está dividido en estratos.}

 _{Todos los estratos fueron muestreados en cada estado.}

 _{El total de un estado se estima sumando los totales estimados}

para todos sus estratos.

(39)

 _{Si en el estado j cada estrato se muestrea independientemente, se}

obtiene una serie de distribuciones predictivas P( T_ji | X_(n(ji)) ) ; i = 1, … , e(j)

de manera que la distribución de interés

P( T_j| X_(n(j)) )

se puede determinar a partir de las predictivas de los estratos con la transformación

T_j = T_j1 + T_j2 + … + T_je(j)

(40)

 _{Si la distribución de la suma de los totales de los estratos no se puede}

calcular fácilmente, una alternativa es proceder por simulación.

• De la distribución para el estrato i se muestrea (simula) un valor t_ji,

entonces

t_j = t_j1 + t_j2 + … + t_je(j)

es un valor observado de la distribución predictiva del total del estado.

• Para el nivel del país, la suma t = t₁ + t₂ + … + t_k constituye un valor observado de la distribución predictiva del total nacional.

(41)

• Vivienda  Localidad  Sección  Estrato  Estado  País

 _{Los pasos de Estrato a Estado y Estado a País se resuelven con la}

suma de predictivas.

Suma de predictivas Modelo Poisson

(42)

• Vivienda  Localidad  Sección  Estrato  Estado  País

 _{Lo mismo ocurre con el paso de Sección a Estrato.}

 _{El paso de Localidad a Sección utiliza probabilidades de selección no}

(43)



El estrato i incluye N_i secciones de las cuales se selecciona, mediante

un mecanismo aleatorio, una muestra de tamaño n_i.

 Si las probabilidades de selección son: q_i1, q_i2, …, q_iNientoncesse

contará con la información de las secciones S_i(1), S_i(2),…S_i(n_i) seleccionadas con probabilidades q_i(1), q_i(2),…q_i(n_i).

 _{De cada sección en la muestra se dispone de la distribución predictiva}

para el total de la sección

P( T_ir | X_(n(ir)) ) ; r = 1, … , n_i

(44)



Por simulación, para la r-ésima sección en la muestra se contará con un valor t_ir generado de la predictiva del total de la sección,

 _{Una posibilidad ingenua es promediar en cada simulación esos}

valores y multiplicar el resultado por el número de secciones en el estrato.

 _{De esa forma, primero se obtiene un valor simulado de la predictiva}

para el promedio de los totales de las secciones en la muestra que, a su vez, aproxima al promedio de los totales seccionales en el estrato.

 _{Al multiplicar ese promedio por el número de secciones en el estrato}

se aproxima el total del estrato.

(45)

 _{Otra posibilidad es utilizar la idea de factores de expansión.}

 Cada valor simulado se pondera con el recíproco de la probabilidad

de selección de la sección a la que corresponde

t_ir = t_ir / q_ir

este valor aproxima el total del estrato.

 Los valores ponderados se promedian y se obtiene una valor

aproximado proveniente de la distribución predictiva para el total del estrato.

(46)

Resultados población (T

_X

)

Q(97.5%) = 70,958,405 Q(2.5%) = 69,612,551 70,294,068 VNM 2008 = 70,311,037 CNP 2000 = 72,284,007 CNP 2005 = 68, 985,182

(47)

Aguascalientes _{Baja California}

Baja California Sur Campeche Resultados

(48)

Coahuila Colima

Chiapas Chihuahua

(49)

Distrito Federal Durango

Guanajuato Guerrero

(50)

( % )

(51)

Aguascalientes Baja California

Baja California Sur Campeche

(52)

Coahuila Colima

Chiapas Chihuahua

(53)

Distrito Federal Durango

Guanajuato Guerrero

(54)

Comentarios

 _{El mecanismo subsume la población finita en un modelo}

paramétrico para poblaciones infinitas y aborda un problema de inferencia sobre parámetros como uno de predicción.

 _{El mismo procedimiento puede visualizarse como inferencia}

paramétrica.

 _{El modelo paramétrico P( X* |}

f

_{) equivale a la especificación de}

una distribución a priori sobre el parámetro N-dimensional

X

.

 _{La actualización con X}_(n)_{produce la posteriori P(}

X

_{| X}_(n)_).

 _{A partir de P(}

X

_{| X}_(n)_{) se deriva la posteriori para la cantidad de}

(55)

El Conteo Rápido 2012

143, 495 casillas en un territorio de

2 millones de kilómetros cuadrados

Un padrón electoral con más de 70

millones de votantes

(56)



Para capturar diferencias regionales, las 143,495 casillas se

organizaron en los 300 distritos electorales del país.



En cada distrito se consideraron la parte rural y la parte urbana.



El resultado fue un conjunto 483 estratos de casillas.



En cada estrato se tomó una muestra aleatoria de casillas.



En total, la muestra fue de 7,597 casillas.

(57)



En cada casilla pueden votar alrededor de 500 ciudadanos.



La variables que se observan son el número de votos para cada

uno de los candidatos.



Es la suma de variables Bernoulli.



Se consideran i.d. porque pertenecen al mismo estrato.



No es razonable suponer que son independientes.

(58)



El número de votos se modela con una Normal con media y

varianza desconocidas y no relacionadas.



El esquema es mucho más simple que en el problema del

Padrón.



Al final se tiene la predictiva del número de votos a favor de cada

candidato y la predictiva del total de votos válidos.



De los valores simulados de esas predictivas se obtiene una

muestra de la proporción de voto efectivo en favor de cada

candidato.

(59)

(60)

18:00

Resultados Conteo Rápido 2006

(61)

(62)

(63)

(64)

(65)

(66)

(67)

(68)

(69)

(70)

(71)

(72)

(73)

(74)

(75)

(76)

(77)

(78)

(79)

(80)

(81)

(82)

(83)

(84)

(85)

(86)

(87)

(88)

(89)

(90)

(91)

(92)

(93)

(94)

(95)

(96)

(97)

(98)

(99)

(100)

(101)

(102)

(103)

(104)

(105)

(106)

21:40

(107)

(108)

(109)

(110)

(111)

(112)

22:10

(113)

(114)

22:15

(115)

Conteo Rápido Resultado Final

PAN (35.8, 36.4) 35.89

PRD (35.1, 35.6) 35.59

(116)

18:51

Resultados Conteo Rápido 2012

(117)

(118)

(119)

(120)

(121)

(122)

(123)

(124)

(125)

(126)

(127)

(128)

(129)

(130)

(131)

(132)

(133)

(134)

(135)

(136)

(137)

(138)

(139)

(140)

(141)

(142)

(143)

(144)

(145)

(146)

(147)

(148)

(149)

(150)

(151)

(152)

(153)

(154)

(155)

(156)

(157)

(158)

(159)

(160)

(161)

22:30

(162)

(163)

Comentarios Finales



Estos son solamente dos ejemplos del análisis Bayesiano de

muestras de poblaciones finitas.



Aún no existe una literatura abundante y concluyente sobre el

tema.

(164)