• No se han encontrado resultados

Universidad de Granada

N/A
N/A
Protected

Academic year: 2021

Share "Universidad de Granada"

Copied!
92
0
0

Texto completo

(1)

Universidad de Granada

Departamento de Estadística e Investigación Operativa

Trabajo de Fin de Master

“Evaluación de impacto del Bono de Desarrollo Humano en el consumo de los hogares ecuatorianos mediante la utilización del Propensity Score Matching”

Master Oficial en Estadística Aplicada

Autor: Henrry Bayardo Valdiviezo Quimbiamba

Tutores: Ana María Aguilera Del Pino y Manuel Escabias Machuca

Granada – España

(2)
(3)

3 Agradecimientos:

A Dios, por el día a día en que puedo contemplar su maravillosa creación, por permitirme cumplir mis sueños…

A la Universidad de Granada por darme la oportunidad de adquirir conocimientos en un área de gran utilidad como es la estadística,

A mis tutores, Manuel Escabias y Ana María Aguilera por sus conocimientos compartidos durante el período de cátedra y su paciencia y buen consejo durante la realización del presente trabajo.

A Sandrita por su amor y por soportar durante dos años mis largos momentos de ausencia.

A mis padres, hijos y hermanos porque su existencia me motiva a seguir adelante en mi compromiso de servir a la sociedad.

(4)

4

“Cada día que amanece es una oportunidad para ser mejor y servir a quien más lo necesita”

(5)

8 Contenido 1 Introducción ... 11 1.1 Objetivos e hipótesis ... 14 1.1.1 Objetivo general ... 14 1.1.2 Objetivos específicos ... 14 1.1.3 Hipótesis ... 14 2 Marco Teórico ... 15

2.1 Evaluación de políticas y Propensity Score Matching ... 15

2.1.1 El método del Propensity Score Matching ... 16

2.2 Modelos de respuesta discreta binomial ... 23

2.2.1 Modelos logit... 23

Regresión Logística Múltiple ... 25

2.2.2 Interpretación de parámetros ... 25

2.2.3 Ajuste del modelo de regresión logística ... 26

2.2.4 Inferencia en regresión logística ... 29

2.2.5 Validación y diagnóstico del modelo logit ... 36

2.2.6 Selección del modelo logit ... 39

3 Análisis Descriptivo del Bono de Desarrollo Humano ... 41

3.1 Actualidad del bono de desarrollo humano y el consumo en los hogares ecuatorianos 41 3.1.1 Área geográfica de ubicación de los beneficiarios del BDH ... 46

3.1.2 Estado civil o conyugal del beneficiario ... 46

3.1.3 Beneficiarios por Auto-identificación étnica ... 47

3.1.4 Acceso a la seguridad social de los beneficiarios BDH. ... 47

3.1.5 Consumo en los hogares de beneficiarios del BDH ... 48

3.1.6 Estructura del gasto de consumo en hogares beneficiarios y no beneficiarios del BDH 49 3.1.7 Gasto promedio en alimentación por tipo de consumo en hogares beneficiarios y no beneficiarios del BDH ... 50

4 Evaluación de impacto del BDH en sobre el gasto de consumo de alimentos y educación.52 4.1 Estimación de los puntuaciones mediante un modelo logit... 53

4.1.1 Ajuste del modelo logit ... 56

4.1.2 Especificación del modelo... 56

4.1.3 Selección “backward” bajo el contraste de verosimilitud mediante “anova” ... 58

(6)

9

4.1.5 Validación y diagnóstico del modelo logit ... 63

4.1.6 Contraste y resumen del modelo logit ... 65

4.2 Identificación de grupos: tratamiento y contra factual del programa BDH ... 67

4.2.1 Ejecución del algoritmo de matching ... 68

4.3 Impacto del BDH sobre el gasto en alimentación y educación de los beneficiarios del programa. ... 74

5 Conclusiones y Recomendaciones ... 78

6 Bibliografía ... 82

7 Anexos ... 86

Índice de Figuras Figura 2.1 Matching exacto para 4 características ... 18

Figura 2.2 Propensity Score Matching y región de soporte común ... 20

Figura 2.3 Matching algoritmos ... 21

Figura 2.4 Curva de regresión logística simple para  > 0 y  < 0 ... 25

Figura 2.5 Maximización de la TCC, curva de sensibilidad, especificidad y cutpoint ... 32

Figura 2.6 Área bajo la curva ROC ... 33

Figura 3.1 Beneficiarios del BDH (requisitos adicionales) ... 45

Figura 4.1 Área bajo la curva ROC ... 62

Figura 4.2 Medidas de influencia y residuos estudentizados ... 65

Figura 4.3 Resultados en los promedios del balanceo Matching ... 72

Figura 4.4 Distribución propensity score hogar sin BDH y con BDH “pre” y “post” PMS ... 73

Figura 4.5 Distribución del gasto en alimentos "pre" y "post" PMS ... 74

Figura 4.6 Disribución del gasto en educación "pre" y "post" PMS ... 75

Índice de Tablas Tabla 2.1 Tabla de clasificación correcta ... 31

Tabla 3.1 Productos alimenticios de la ECV clasificados a 2 dígitos de la CCIF ... 48

Tabla 3.2 Cantidad promedio de consumo en alimentos (gramos mes) ... 50

Tabla 4.1 Especificación de las variables explicativas del modelo logit... 57

Tabla 4.2 Resultados selección de variables método Backward ... 59

Tabla 4.3Contraste del criterio de Akaike AIC ... 60

Tabla 4.4 Tasa de clasificación correcta datos muestrales, punto de corte = 0,5. ... 61

Tabla 4.5 Estimaciones de R2 de Cox – Snell y Nagelkerke, ... 63

Tabla 4.6 Resumen del modelo logit de pertenencia al BDH ... 66

Tabla 4.7 Resultados de la evaluación del balanceo de las covariables, gastos alimentación ... 70

(7)

10

Índice de Gráficos

Gráfico 3.1 Pobreza y desigualdad según el coeficiente de GINI ... 42

Gráfico 3.2 Evolución de la cobertura de beneficiarios del BDH 2004-2014 ... 43

Gráfico 3.3 Tipo de beneficiarios del BDH año 2014 ... 44

Gráfico 3.4 Género de los beneficiarios del BDH ... 44

Gráfico 3.5 Presupuesto del Gobierno Central para los beneficiarios del BDH en millones de dólares ... 45

Gráfico 3.6 Área geográfica de ubicación de los beneficiarios del BDH ... 46

Gráfico 3.7 Beneficiarios por Estado civil o conyugal del beneficiario ... 46

Gráfico 3.8 Beneficiarios por Auto-identificación étnica ... 47

Gráfico 3.9 Acceso a la seguridad social de los beneficiarios BDH. ... 48

Gráfico 3.10 Estructura del gasto de consumo en hogares beneficiarios y no beneficiarios del BDH ... 49

Gráfico 3.11 Gasto promedio en alimentación por tipo de consumo en hogares beneficiarios y no beneficiarios del BDH ... 50

(8)

11 1 Introducción

Los programas de transferencia condicionada de ingresos a familias pobres han ayudado a reducir los niveles de pobreza en América Latina, en toda la región 18 países mantienen vigentes estos programas beneficiando alrededor de 25 millones de familias lo que representa una cobertura del 29% respecto de toda la población de la región (CEPAL, 2011, p. 179).

En Ecuador la crisis económica de los años 1998-1999 agudizó la pobreza, así en 1995 la pobreza afectaba al 55.9% de la población, mientras en el año 2000 la pobreza creció afectando a un 68.8% de la población, en el mismo período la indigencia se incrementó del 20 al 40.3%. (Larrea, 2004, p. 50). En estos años la inflación golpeó con dureza el consumo de los hogares, según datos del Instituto Nacional de Estadística y Censos INEC, la inflación en 1998 alcanzó el 35.8%, mientras en el año 2000 subió al 95.5%. Este proceso de encarecimiento del costo de vida se vio afectado por políticas de precios reales en bienes y servicios públicos como el gas de uso doméstico, energía eléctrica y combustibles, pero el problema se profundizó por un proceso de acelerada devaluación de la moneda nacional “Sucre”, que al confluir con otros factores incidieron para que la economía colapse y como una medida política de salvación se termine adoptando el sistema cambiario de “Dolarización” de la economía.

En este contexto, a finales de 1998 se implementa en el país el programa de transferencia de ingresos denominado bono solidario, que en su inicio no tuvo condicionamientos de corresponsabilidad para los beneficiarios. El bono también fue conocido como “bono de la pobreza” por la situación en la que apareció y su objetivo fue compensar los ingresos de los pobres por la pérdida de poder adquisitivo mediante la trasferencia focalizada de $15 dólares a madres de familia y $8 dólares a adultos mayores y discapacitados que se encuentren dentro de los quintiles 1 y 2 del índice de bienestar SELBEN1. En el año 2000 el programa beneficiaba a 1’335.048 personas, alcanzando una cobertura del 45% de los hogares ecuatorianos (León, Vos, & Brborich, 2001, p. 1).

1 El índice SELBEN, es una medida proxy del bienestar por consumo, desarrollada para el “Registro

Selección de Beneficiarios de Programas Sociales” del gobierno ecuatoriano, tiene por objetivo estratificar a las personas según sus niveles de consumo y se construye a partir de las siguientes variables socio-económicas: características del jefe de hogar, condición de la vivienda, condición de vida, disponibilidad de bienes y ubicación territorial.

(9)

12

En el año 2003 el programa sufre cambios, se implementan condicionamientos en educación y salud para la entrega del bono, se fusiona con un programa de becas escolares y pasa a denominarse bono de desarrollo humano BDH. Las familias beneficiarias tienen la obligación de matricular en establecimientos educativos a los niños y adolescentes dependientes y además deben mantener controles médicos periódicos orientados a tratar problemas de malnutrición infantil. Actualmente, el programa persigue dos objetivos adicionales: “Garantizar a los núcleos familiares un nivel mínimo de consumo” y “Proteger a los adultos mayores y personas con discapacidad” (MIES, 2014).

Según información oficial de diciembre del año 2014, el BDH transfiere $50 dólares mensuales a 1’119.858 beneficiarios, el 40% se destina a madres, el 16% a discapacitados y el 44% a adultos mayores. (Registro Social, 2014)2. El gasto anual en 2014 del programa BDH giró en torno a los 715,93 millones de dólares, según el Ministerio de Finanzas.

Más allá del monto invertido, lo importante es conocer en la actualidad, cuál es la contribución o beneficios atribuibles al programa del BDH, para ello es necesario realizar una evaluación de impacto con la finalidad de determinar si el programa tuvo efectos deseados sobre la población beneficiaria y además si estos efectos son atribuibles al programa.

El presente trabajo aborda el interés de evaluar el impacto del programa BDH sobre el consumo de los hogares beneficiarios. El tipo de consumo analizado está vinculado a los objetivos del programa, esto es: alimentación y educación. El gasto de consumo en alimentos comprende 111 ítems investigados en la Encuesta de Condiciones de Vida y que al mismo tiempo pertenecen a los productos de la canasta básica de bienes alimenticios del Índice de Precios al Consumidor, esta delimitación es importante pues permite medir el consumo de los hogares sobre una canasta de bienes estándar que caracteriza a un hogar tipo, constituido por 4 miembros y 1.6 perceptores de ingresos y que perciben como ingresos el salario mínimo vital (INEC, 2015a). Se excluye del análisis el “consumo no deseado” como bebidas alcohólicas y cigarrillos, y otros tipos

2

Como se verá en la sección 3, estos resultados que tienen corte a diciembre de 2014 difieren de los resultados basados en la ECV que fue levantada entre el 2013 y 2014 y esto sucede principalmente por una depuración del registro de beneficiarios realizado en el programa BDH a finales de 2014.

(10)

13

de consumo como recreación, comunicaciones, mobiliarios, etc. que no están vinculados directamente con los objetivos del BDH.

La evaluación del programa se realizará usando el método cuasi-experimental del “Propensity score matching” PMS, esta técnica de evaluación es ampliamente usada en la evaluación de políticas públicas, en 1er lugar permite identificar un grupo beneficiario del programa y otro grupo de control con características observables similares y en 2do lugar analiza las diferencias en los resultados de interés. La similitud de los grupos permitirá comparar sus niveles de gasto de consumo y por tanto marcar las diferencias que puedan atribuirse al programa BDH.

Para el objetivo general trazado, el trabajo en la 1era parte realiza una revisión teórica del Propensity score matching y dentro de esta revisión se profundiza la teoría de los modelos logit, como instrumentos para la estimación de los puntajes de propensión (propensity score); en la 2da parte se realiza una descripción cualitativa y cuantitativa del programa BDH y se revisan además cifras inherentes a los gastos de consumo asociados a alimentación y educación que forman parte del consumo de los hogares; en la 3ra parte realizamos la evaluación del BDH, identificando el efecto promedio en el gasto consumo que pueda atribuirse a la implementación del programa tanto en alimentación como en educación. Al final se presentan conclusiones y recomendaciones sobre el trabajo realizado.

La fuente de información para la evaluación del BDH es la base de datos de la Encuesta Nacional de Condiciones de Vida 2013-2014 (ECV), que proporciona información sobre la estructura del ingreso y el gasto de los hogares urbanos y rurales, presentando además las características demográficas y socioeconómicas de los miembros del hogar. La información demográfica y socio-económica, puede utilizarse como un vector de covariables que permiten caracterizar a los beneficiarios del programa y por tanto viabilizar la identificación de los grupos de tratamiento y control mediante la aplicación del PMS. La encuesta además presenta información cuantitativa sobre la estructura de gastos del consumo final de los hogares, de ahí que una comparación del gasto promedio en el consumo de los beneficiarios y el grupo de control permitiría determinar el efecto del programa BDH en el consumo de alimentación y educación de los hogares.

(11)

14 1.1 Objetivos e hipótesis

1.1.1 Objetivo general

“Evaluar el impacto del bono de desarrollo humano en el gasto de consumo en alimentación y educación de los hogares”.

1.1.2 Objetivos específicos

Revisar la teoría del propensity score matching y los modelos de respuesta

discreta logit

 Realizar un análisis estadístico descriptivo de los beneficiarios del bono de desarrollo humano y el gasto de consumo en alimentación y educación de los hogares ecuatorianos.

 Evaluar el impacto del bono de desarrollo humano en el gasto de consumo mediante la técnica del propensity score matching.

1.1.3 Hipótesis

1) “La implementación del bono de desarrollo humano ha mejorado el consumo promedio en alimentación de los hogares beneficiarios del programa”.

2) “La implementación del bono de desarrollo humano ha mejorado el consumo promedio en educación de los hogares beneficiarios del programa”.

Formalmente: Ho: G0a = G1a

H1: G0a G1a

Donde: G0a es el gasto de consumo promedio en alimentos del grupo de control

G1a es el gasto de consumo promedio en alimentos del grupo de

tratamiento Ho: G0e = G1e

H1: G0e G1e

Donde: G0e es el gasto de consumo promedio en educación del grupo de control

G1e es el gasto de consumo promedio en educación del grupo de

(12)

15 2 Marco Teórico

2.1 Evaluación de políticas y Propensity Score Matching

El Propensity Score Matching (pareamiento por puntaje de propensión) PMS es un enfoque ampliamente usado dentro del ámbito de la evaluación de políticas públicas, su utilización se da en situaciones en que se quieren evaluar los efectos o beneficios obtenidos por la ejecución de un programa, la evaluación puede realizarse una vez que se ha identificado un grupo beneficiario del tratamiento y al mismo tiempo se tiene un grupo de control que no ha sido partícipe del programa, pero que presenta las mismas características que la población participante (Caliendo & Kopeinig, 2005, p. 1).

El grupo de control es también conocido como grupo contra factual (Gertler et al, 2011, pp. 107-109), su identificación permite obtener el resultado de una variable de interés en una situación en la que no se ha aplicado el tratamiento3, la diferencia entre los resultados del grupo que ha recibido el tratamiento y los del grupo de control se atribuye al efecto del tratamiento ATE (Heckman, Ichimura, & Todd, 1998, p. 262). Formalmente esta relación está dada por: ∆= 𝑌1− 𝑌0 , donde Y1 es el resultado

promedio obtenido por el grupo que ha recibido el tratamiento y Y0 es el resultado

promedio de los individuos que no han sido partícipes del tratamiento,  por lo tanto es el efecto promedio de beneficios que se atribuyen a la aplicación del tratamiento. También podemos estimar el efecto del tratamiento sobre los tratados ATT que se define como E[Y1 – Y0 | Z = 1]. En experimentos completamente aleatorios estas dos

medidas convergen debido a la asignación aleatoria.

Para estimar el efecto promedio del tratamiento ATE o el efecto promedio sobre los tratados ATT, el PMS en el ámbito de la evaluación de políticas y programas sociales se apoya en técnicas estadísticas avanzadas para tratar grandes bases de datos. El método inicialmente tiene como objetivo construir artificialmente el mejor grupo de control (sin tratamiento) que pueda compararse con el grupo de tratamiento. La intencionalidad de construir el grupo de control es fundamental, pues no es común disponer de información a través del tiempo sobre un mismo grupo de individuos que en un primer punto del tiempo no sean beneficiarios de un programa y posteriormente si lo sean.

3

Dentro del presente estudio cuando hablamos de “un grupo que recibe un tratamiento” nos referimos a “un grupo social que ha sido beneficiario de un programa o política pública”, por el contrario al referirnos a un grupo de control lo hacemos pensando en un grupo social que teniendo características similares al grupo de tratamiento no ha sido beneficiario del programa o política pública en evaluación.

(13)

16

Ahora bien, para decidir entre el ATE o el ATT es necesario revisar el interés y contexto de la investigación. Por ejemplo en la estimación de la eficacia de un programa intensivo y estructurado para dejar de fumar, el ATT puede interesar más que el ATE, pues los programas para dejar de fumar tienen altas barreras para la participación y finalización y es poco factible aplicar el test a todos los fumadores actuales para estimar el efecto del programa, siendo de mayor interés el efecto del programa en aquellos fumadores actuales que eligen participar en el programa. Por el contrario, cuando se estima el efecto sobre programas masivos de política pública como el BDH que tiene una cobertura del 27% de los hogares ecuatorianos el ATE resulta de mayor interés que el ATT.

Una situación ideal en la que se tiene el grupo de tratamiento y el grupo de control se da especialmente en ciencias naturales, donde es factible realizar estudios experimentales, no obstante en el ámbito social, por razones éticas, de costos, entre otras, no es posible realizar este tipo de estudios, de ahí que el PMS busca solucionar este problema intentando construir artificialmente un escenario cuasi experimental mediante la identificación de un grupo contra factual que permita estimar los beneficios promedio derivados de la aplicación de una política o programa público.

2.1.1 El método del Propensity Score Matching

El proceso de construcción de un grupo contra factual parece sencillo, no obstante el primer problema surge porque necesitamos conocer la diferencia entre los resultados de los individuos con y sin tratamiento, pero ello no es posible en primera instancia pues comúnmente en las investigaciones sociales (encuestas por ejemplo) el resultado de una variable para un mismo individuo es mutuamente excluyente en un punto del tiempo, es decir no podemos tener situaciones en las que un individuo al mismo tiempo percibe y no percibe un tratamiento (Caliendo & Kopeinig, 2005, p. 1).

Una solución incorrecta suele realizarse al tomar los resultados agregados de los no tratados y compararlos con los resultados agregados de los tratados, aquello genera un problema de sesgo en la selección, por ejemplo, en una evaluación sobre los resultados en términos de empleo de un programa de capacitación, podemos tener un grupo de individuos motivados que tienen una mayor probabilidad de entrar en un programa de entrenamiento y por tanto tienen también una mayor probabilidad de encontrar un empleo, mientras los de menor motivación tienen a su vez menor probabilidad de

(14)

17

encontrar trabajo, en este ejemplo la variable motivación genera un condicionante de confusión sobre la situación laboral de las personas de ahí que no es posible medir directamente el efecto de la capacitación pues la motivación está sesgando los resultados, por ello es necesario considerar las variables explicativas que inicialmente condicionan a los individuos para que reciban o no un determinado tratamiento (Caliendo & Kopeinig, 2005, p. 1).

El enfoque para la solución al problema de selección se originó con la literatura estadística del PMS que muestra una estrecha relación con el contexto experimental, la idea básica es encontrar en un gran grupo de los no participantes a las personas que son similares a los participantes en todas las características de pretratamiento pertinentes (vector de X covariables), en este sentido el PMS es la probabilidad condicional de asignación a un tipo de tratamiento una vez que se tiene un grupo de covariables observadas (Rubin & Rosenbaum, 1983, p. 41).

En el escenario ideal la determinación del grupo de tratamiento y de control puede realizarse en forma aleatoria, por ejemplo cuando se tiene un grupo de individuos dispuestos a participar en el programa, una parte de los individuos puede asignarse aleatoriamente dentro del grupo de tratamiento y otra parte dentro del grupo de control, la aleatorización no elimina el sesgo de selección pero equilibra el sesgo en los 2 grupos (Baker, 2000, p. 5). Una vez realizada la asignación se realizaría el seguimiento de los 2 grupos y al finalizar la etapa de estudio se realizaría una comparación directa de los resultados obtenidos, la diferencia de éstos resultados sería atribuible al tratamiento. Este escenario ideal de estudio es conocido también como método experimental y es bondadoso pues la asignación aleatoria eleva la probabilidad de tener 2 grupos similares y asegura que las distribuciones de datos sean conocidas y por tanto puedan ser comparadas directamente (Rubin & Rosenbaum, 1983, p. 42). Su aplicación común está en el ámbito de las ciencias naturales.

Los principales problemas del método experimental son: a) inconvenientes éticos, pues ante la ejecución de un programa social, la asignación puede no ser justa si se aplican métodos aleatorios y quizá lo justo sea aplicar criterios de prioridad y pertinencia, b) connotaciones políticas, pues los no beneficiarios del tratamiento pueden argumentar su exclusión por diferencias políticas, aquello no permitiría seguir la evolución del grupo de control, c) ciertos programas cubren todo un subconjunto de la población de ahí que no sea posible tener un grupo de control, d) otros problemas como el abandono del

(15)

18

estudio en individuos del grupo de control y elevados costos en el seguimiento del experimento (Baker, 2000, pp. 2-3).

En el otro escenario, se tienen los métodos cuasi experimentales aplicables en estudios observacionales, Baker (2000, p. 7) identifica cuatro métodos dentro del “matching” para identificar el grupo de control: a) método de emparejamiento por puntaje de propensión, b) método de diferencia en diferencias, c) método de variables instrumentales y d) comparaciones reflexivas. En el presente estudio aplicamos el método de emparejamiento por puntaje de propensión (PMS).

El objetivo principal del PMS es la construcción de un grupo contra factual que pueda compararse frente a un grupo con tratamiento, la condición que permite la comparabilidad es la construcción de grupos con similitud en las características observadas. En la Figura 2.1 se puede apreciar un ejemplo sobre el modo de operación del matching.

Figura 2.1 Matching exacto para 4 características

Fuente: Gertler et al (2011, pp. 109)

Según información de la Figura 2.1 se tienen 10 casos en cada grupo (tratamiento y control) con 4 características, de estos 10 casos solo 3 presentan características similares, es decir tienen el mismo género, el mismo número de meses de desempleo, la misma edad y han finalizado la secundaria, la única diferencia entre estos individuos emparejados está en su participación o no en el programa, por tanto una comparación de los 3 casos emparejados permitiría obtener el efecto promedio atribuible al programa de manera directa.

Siguiendo con la Figura 2.1 también es posible advertir que una utilización de todos los casos no es correcto, pues oculta las diferencias existentes entre los grupos, así tenemos

Edad Género Meses

desempleo

Secundaria

finalizada Edad Género

Meses desempleo Secundaria finalizada 19 1 3 0 24 1 8 1 35 1 12 1 38 0 2 0 41 0 17 1 58 1 7 1 23 1 6 0 21 0 2 1 55 0 21 1 34 1 20 0 27 0 4 1 41 0 17 1 24 1 8 1 46 0 9 0 46 0 3 0 41 0 11 1 33 0 12 1 19 1 3 0 40 1 2 0 27 0 4 0

(16)

19

que los participantes del programa tienen en edad promedio 34 años, 50% son mujeres, tienen en promedio 9 meses de desempleo y un 60% terminaron la secundaria, por el contrario los no participantes son mayores en edad (35 años), participan más mujeres (60%), tienen menos meses de desempleo promedio (8 meses) y menos índice de terminación de la secundaria (50%), las diferencias identificadas dan evidencia que los resultados que puedan desprenderse no son perfectamente comparables pues ocultan las diferencias existentes lo que se conoce como “sesgo de selección”, con el matching estas diferencias desaparecen pues las características alcanzan un equilibrio.

No obstante el caso presentado en la Figura 2.1 no es frecuente en ciencias sociales, pues lo común es disponer de información amplia tanto en el número de individuos como el número de covariables que los caracterizan, un buen ejemplo está en la información de las encuestas socio-económicas nacionales que presentan miles de registros y cientos de variables de interés.

Además de la multidimensionalidad, en los estudios cuasi experimentales la información no aleatorizada no permite conocer la forma de la distribución de los datos y por tanto la especificación de la función del propensity score se desconoce, no obstante para esta información observada “multidimensional” se puede obtener un puntaje de propensión univariante mediante la estimación de un modelo logit, probit u otro modelo semiparamétrico (Rubin & Rosenbaum, 1983, p. 43) (A. Smith & E. Todd, 2005, p. 314). En el presente estudio trabajaremos con el modelo logit.

Como señalan Heckman et al. (1998) la construcción de un grupo contra factual se alcanza eliminando el sesgo de selección condicionando el vector de covariables observadas (X) con el puntaje de propensión P(X), esto significa que ambos grupos son lo más similar posible en términos de sus características observables, formalmente esta relación se expresa mediante:

𝑃𝑟(𝐷 = 1|𝑌1, 𝑌0|𝑋) = 𝑃𝑟(𝐷 = 1|𝑋) Esto implica que:

(𝑌1, 𝑌0) ⊥ 𝐷|𝑋

La última expresión refleja el supuesto de independencia condicional, donde la participación es independiente de los resultados una vez que se han controlado las características observables X. Si la hipótesis de independencia se cumple para X

(17)

20

también se cumple para el puntaje de propensión P(X) (A. Smith & E. Todd, 2005, p. 314). Sobre este supuesto de independencia se sustenta la eliminación o el balanceo del sesgo de selección.

Para estimar el puntaje de propensión generalmente se consideran los siguientes puntos: a) Se comparan individuos similares, restringiendo la comparación a la región de

soporte común (ver Figura 2.2),

b) Para considerar la diferente distribución de las características observables en el grupo de tratamiento y el grupo de control, se pondera cada individuo de manera que los dos grupos tengan la misma distribución de variables,

c) Para reducir el sesgo por variables inobservables, las características observables (variables) que dan lugar a la asignación de un tratamiento deben ser importantes.

Figura 2.2 Propensity Score Matching y región de soporte común

Fuente: Gertler et al (2011, pp. 110)

Bajo este procedimiento las observaciones con tratamiento y sin tratamiento con el mismo valor del propensity score están en equilibrio, es decir, tienen la misma distribución dado el vector de variables X: DX p( X). Para obtener la misma distribución de probabilidades de las variables X para individuos tratados y no tratados en muestras emparejadas, es suficiente emparejar exactamente en el propensity score. La forma general de calcular el efecto medio de tratamiento para los tratados, ATT, es:

𝛽𝐴𝑇𝑇 = 1 𝑁1∗ ∑ {𝑦𝑖 − 𝑦̂𝑖} 𝑖∈{𝐷1𝑖=1∩𝐶∗} Región de soporte común

(18)

21

Donde 𝑁1es el número de tratados dentro del región común de soporte C*, yi es el

resultado para un individuo i del grupo de tratamiento, yˆ es el resultado del individuo i

del grupo de comparación que ha sido emparejado con el individuo i del grupo de tratamiento, que se calcula como: ij j

p C j i w y y i) ( 0 ˆ   , en la expresión, C0(pi) es un grupo de observaciones vecinas del individuo i del grupo de tratamiento, en el grupo de comparación y wij, es la ponderación de la observación j del grupo de comparación para

formar una unidad comparable a la observación i del grupo (Cueto & Mato, 2005). El puntaje de propensión, P(X), es una variable continua y esto complica el emparejar dos observaciones con el mismo valor en el grupo de tratamiento y de control, por ello se tienen diferentes métodos de matching, como el de emparejamientos uno a uno

“nearest-neighbour”, que es el método más utilizado, y otros métodos como el “caliper” y el “kernel matching” (Blundell, Dearden, & Sianesi, 2004, p. 15). Dentro del aspecto puro del “matching” sobre las puntuaciones de propensión, es importante el escogimiento del algoritmo de entre varias las alternativas que se tienen (ver Figura 2.3). Es importante mencionar que el caliper matching, es una variante del algoritmo NN pero añade un rango de tolerancia a las distancias, esta variante impone una restricción a los emparejamientos, pues aun cuando un individuo sea el más cercano a otro, el match procederá si la distancia está dentro del margen de tolerancia medido en proporciones de desviaciones estándar (Caliendo & Kopeinig, 2005, p. 10).

Figura 2.3 Matching algoritmos

Fuente: (Caliendo & Kopeinig, 2005, p. 41)

Las fórmulas para los métodos de emparejamiento de los puntajes de propensión se muestran a continuación: Matching algorithms Nearest Neighbour NN - With/without replacement - Oversampling (2-NN,5-NN) - Weights for oversampling

Caliper and Radius - Max, toelarance level (caliper) - 1-NN only or more (radius)

Stratification and

Interval -Número de strata/intervals

Kernel and Local Linear

-Kernel functions -Bandwidth parameter

(19)

22

Nearest neighbour matching NN: para cada observación, se busca otra en el grupo de control con el propensity score más cercano.

|𝑝𝑖− 𝑝𝑗| = 𝑚𝑖𝑛𝐾𝜖{𝐷=0}{|𝑝𝑖− 𝑝𝑘|}

 El algoritmo Caliper, es una variante del NN que añade un rango de tolerancia a

las distancias, esta variante impone una restricción a los emparejamientos y solo proceden si la distancia está dentro del margen de tolerancia  medido en proporciones de desviaciones estándar (Caliendo & Kopeinig, 2005, p. 10).

𝛿 > |𝑝𝑖− 𝑝𝑗| = 𝑚𝑖𝑛𝐾𝜖{𝐷=0}{|𝑝𝑖− 𝑝𝑘|}

Kernel matching: todas las observaciones del grupo de tratamiento se emparejan con una media ponderada de todas las observaciones del grupo de comparación, siendo las ponderaciones inversamente proporcionales a la distancia entre los

propensity score de tratados y no tratados. El resultado del individuo del grupo

de comparación con el que se empareja el individuo del grupo de tratamiento se calcula como:    

                   0 0 ˆ D j j i j D j j i i h p p K y h p p K y

Cada resultado del grupo de comparación, yj, se pondera por:

 

                0 D j j i j i ij h p p K h p p K w

Donde pi y pj son los propensity score de las observaciones del grupo de tratamiento y

del grupo de control, respectivamente; h es la longitud del intervalo que se elija (cuando menor sea, más cercanía se exige a los emparejamientos) y K es la función de Kernel, que puede ser Gaussiana (utiliza todas las observaciones del grupo de comparación) o de Epanechnikov (utiliza las observaciones que se encuentran en un determinado intervalo). Tanto en el nearest neighbour matching como en el Kernel, la distancia entre

(20)

23

las observaciones del grupo de tratamiento y del grupo de control es una distancia euclídea (Cueto & Mato, 2005).

Finalmente podemos resumir de manera general los pasos para ejecutar el PMS:

a) Estimar las puntuaciones, para el efecto se ejecuta una regresión logística: con la variable dependiente, Y = 1 si participa | Y = 0 si no participa, condicionada a los observaciones de un conjunto X de variables explicativas. El ajuste permite obtener la puntuación de propensión: probabilidad predicha (π) o log [π/(1- π)]. Es importante elegir las covariables adecuadas y es mejor si tienen similitud a las variables que se utilizan para determinar la selección original de los beneficiarios del programa o tratamiento.

b) Emparejar cada participante con uno o más individuos no participantes del programa a partir de los puntajes de propensión, se puede usar por ejemplo la técnica del vecino más cercano con la incorporación de un caliper.

c) Comparación de efectos entre participantes y no participantes del tratamiento, mediante una comparación de medias o un modelo lineal simple con variable dicotómica.

2.2 Modelos de respuesta discreta binomial

Dentro de la metodología del PMS se requiere obtener las puntuaciones de propensión (propensity score) como paso previo al emparejamiento (matching), para este objetivo mediante la estimación de un modelo logístico binario podemos obtener las probabilidades de respuesta P(Y=1|x), donde x=(x1,x2,...,xk)T es el vector de

observaciones de un conjunto de variables explicativas X1,X2,...,Xk. Las probabilidades

(x) estimadas con el modelo logit son emparejadas aplicando el matching lo que

permite construir el grupo de control y el grupo contra factual, finalmente se puede medir las diferencias en la variable de resultado que se está evaluando.

En este capítulo realizamos una revisión teórica de estos modelos de respuesta logística binomial para esta revisión tomamos como referencia los estudios de (Agresti, 2002), (Kleinbaum, Klein, & Pryor, 2002) y (Hosmer & Lemeshow, 2000) entre otros.

2.2.1 Modelos logit

La regresión logística como enfoque de modelamiento matemático se usa para relacionar varias variables explicativas X’s frente a una variable dependiente dicótoma

(21)

24

Y (Kleinbaum et al., 2002, p. 5). La regresión logística se ha convertido en una herramienta de uso generalizado en diversos ámbitos de los negocios, las finanzas, la epidemiología entre otras ramas.

Formalmente la regresión logística relaciona una variable respuesta binaria Y con una o más variables explicativas cuantitativas y/o cualitativas. Para la i-ésima observación de una muestra de las variables explicativas xi=(xi1,xi2,...,xik)T, esta relación se expresa

mediante, 𝜋(𝑥𝑖) = 𝑃(𝑌 = 1|𝑋 = 𝑥𝑖) = 1 − 𝑃(𝑌 = 0|𝑋 = 𝑥𝑖). Entonces, el modelo de regresión logística permite estimar valores entre 0 y 1 de la probabilidad de éxito de un determinado evento como respuesta a un conjunto de características de un grupo de variables explicativas cuantitativas y cualitativas.

El modelo logístico simple con una única variable explicativa cuantitativa x está dado por:

𝜋(𝑥𝑖) = exp(𝛼 + 𝛽𝑥𝑖)

1 + 𝑒𝑥𝑝(𝛼 + 𝛽𝑥𝑖), 𝑖 = 1, … , 𝑛

(2.1)

Que puede simplificarse como:

𝜋(𝑥𝑖) = 1

1 + 𝑒𝑥𝑝[−(𝛼 + 𝛽𝑥𝑖)], 𝑖 = 1, … , 𝑛

(2.2)

Donde 𝜋(𝑥𝑖) son las probabilidades de éxito condicionadas a los valores que toma la variable explicativa x1,x2,…,xn.

𝛼 es el parámetro independiente del modelo.

𝛽 es el parámetro asociado a la variable explicativa X. xi son los valores que toma la variable X.

El modelo logístico 2.1 en términos equivalentes puede expresarse como: log [ 𝜋(𝑥𝑖)

1 − 𝜋(𝑥𝑖)] = 𝛼 + 𝛽𝑥𝑖

(2.3)

Donde 1−𝜋(𝑥𝜋(𝑥𝑖)

𝑖) representa la ventaja de respuesta 1 para un valor dado de X. La transformación log [ 𝜋(𝑥𝑖)

(22)

25 Regresión Logística Múltiple

La regresión logística simple puede extenderse a una regresión logística múltiple con dos o más variables explicativas cualitativas o cuantitativas. El modelo está dado en términos de las transformaciones logit por la siguiente expresión:

log [ 𝜋(𝑥𝑖)

1 − 𝜋(𝑥𝑖)] = 𝛼 + 𝛽1𝑥𝑖1+ 𝛽2𝑥𝑖2+ ⋯ + 𝛽𝑘𝑥𝑖𝑘, 𝑖 = 1, … , 𝑛

(2.4)

El logit viene explicado por las observaciones de k variables explicativas 𝑥𝑖 = (𝑥i1, … , 𝑥𝑖𝑘) con i=1,…,n, 𝛼 es el parámetro independiente del modelo y j es el

parámetro asociado a la variable explicativa xj. Especificando directamente π(xi), se

obtiene la fórmula 2.4 expresada en términos exponenciales: 𝜋(𝑥𝑖) =1 + exp (𝛼 + 𝛽exp( 𝛼 + 𝛽1𝑥𝑖1+ 𝛽2𝑥𝑖2+ ⋯ + 𝛽𝑘𝑥𝑖𝑘)

1𝑥𝑖1+ 𝛽2𝑥𝑖2+ ⋯ + 𝛽𝑘𝑥𝑖𝑘)

(2.5)

2.2.2 Interpretación de parámetros

La curva de un modelo logístico simple con probabilidad (x), explicada por una

variable cuantitativa x se muestra en la Figura 2.4. En la figura tenemos que con 𝛽 > 0 la

curva de regresión logística es creciente, mientras con 𝛽 < 0 la curva es decreciente.

Figura 2.4 Curva de regresión logística simple para > 0 y < 0

Fuente: Elaboración propia

En la regresión logística múltiple (2.4), tenemos un modelo en términos de la transformación logit, en este sentido cada parámetro 𝛽𝑗 muestra el cambio en el logaritmo de la ventaja (logit) cuando la variable asociada cambia en una unidad y el

(23)

26

resto de variables se mantienen constantes. De manera similar si tomamos el exp (𝛽𝑗) se obtiene la razón de ventajas ante el cambio de una unidad en la variable 𝑋𝑗

manteniendo constantes el resto de variables (ver Hosmer y Lemeshow (2000)). El intercepto 𝛼 es el valor del logaritmo de la ventaja de respuesta Y = 1 para un individuo cuando X1=X2=…=Xk=0.

2.2.3 Ajuste del modelo de regresión logística

Para explicar el ajuste del modelo de regresión logística distinguiremos dos situaciones de muestreo: Si denotamos por xq =(xq0,xq1,…xqk,) a la q-ésima q=(1,…,Q) combinación

de valores observados de k variables explicativas, podemos encontrarnos con dos situaciones de muestreo diferentes:

a) Para cada individuo de la muestra existe una combinación q diferente, en este escenario el número de observaciones muestrales n será igual a las Q combinaciones (n=Q). En esta situación las observaciones de la respuesta y1,…,

yn son un conjunto de ceros y unos. Denominaremos a esta situación el caso de

datos no agrupados.

b) Hay individuos muestrales diferentes que comparten una misma combinación de valores de las variables explicativas, esto implica que Q<n. En esta situación cada observación de la respuesta yq, q=1,…,Q es el número de éxitos (unos) que

se han observado para la q-ésima combinación de valores de las variables explicativas. Denominaremos a esta situación, el caso de datos agrupados. Para el caso de datos agrupados se dispone de una muestra de Q variables independientes yq con distribuciones binomiales B(nq, q), donde la probabilidad de

éxito es q =(xq)=P[Y=1|X=xq]. Por lo tanto E[yq]= nq * q (2.6) y ∑𝑄𝑞=1𝑛𝑞 = 𝑛 .

Para este caso, el modelo de regresión logística puede formularse como:

𝜋(𝑥𝑞) =

exp(∑𝑘𝑗=0𝛽𝑗𝑥𝑞𝑗)

1 + exp(∑𝑘𝑗=1𝛽𝑗𝑥𝑞𝑗)

(2.7)

En el modelo 2.7 =0, xq0=1 para todo q, con q=1,…,Q y j=0,…,k. Este modelo es

similar al 2.5 pero en lugar de trabajar con datos individuales lo hace con datos agrupados.

(24)

27 𝐿𝑞 = log [ 𝜋(𝑥𝑞) 1 − 𝜋(𝑥𝑞)] = ∑ 𝛽𝑗𝑥𝑞𝑗 𝑘 𝑗=0 , q = 1, … , Q (2.8)

La estimación del modelo de regresión logística suele realizarse mediante el método de máxima verosimilitud que permite asegurar la máxima probabilidad de los datos según los valores de los parámetros estimados. Si tenemos una muestra {y1,…,yQ} de

binomiales independientes B(nq, q), la función masa de probabilidad conjunta (función

de verosimilitud) es el producto de Q funciones binomiales.

∏ (𝑛𝑦𝑞 𝑞) 𝜋 𝑄 𝑞=1 (𝑥𝑞)𝑦𝑞[1 − 𝜋(𝑥 𝑞)]𝑛𝑞−𝑦𝑞

El núcleo de la función de verosimilitud es: ∏ 𝜋 𝑄 𝑞=1 (𝑥𝑞)𝑦𝑞[1 − 𝜋(𝑥 𝑞)]𝑛𝑞−𝑦𝑞 (2.9) y su logaritmo: 𝐿(𝛽) = ∑[𝑦𝑞𝑙𝑛𝜋(𝑥𝑞) + (𝑛𝑞− 𝑦𝑞)ln (1 − 𝜋(𝑥𝑞))] 𝑄 𝑞=1 (2.10)

cuya maximización coincide con la de la propia función de verosimilitud. Derivando con respecto a cada parámetro j e igualando a cero se obtienen las ecuaciones de

verosimilitud ∑ 𝑦𝑞𝑥𝑞𝑗 𝑄 𝑞=1 − ∑ 𝑛𝑞𝜋(𝑥𝑞)𝑥𝑞𝑗 𝑄 𝑞=1 = 0, 𝑗 = 0, … , 𝑘 (2.11)

cuya resolución proporciona la estimación máximo verosímil de los parámetros del modelo.

Cuando se trabaja con datos provenientes de diseños muestrales complejos que no corresponden a un muestreo aleatorio simple, la estimación del modelo logit por máxima verosimilitud puede presentar errores, de ahí que sea necesario trabajar con estimaciones máximo verosímil que incluyan información de las ponderaciones para expandir los valores de la muestra hacia la población, este método es conocido como

(25)

28

máxima verosimilitud ponderada, para mayor detalle véase (Manski & McFadden, 1981) (Hosmer & Lemeshow, 2000, p. 211). En este caso la log-verosimilitud sería: 𝐿(𝛽) = ∑𝑄𝑞=1[𝑤𝑞𝑦𝑞𝑙𝑛𝜋(𝑥𝑞) + 𝑤𝑞(𝑛𝑞− 𝑦𝑞)ln (1 − 𝜋(𝑥𝑞))] (2.12)

Donde wq son los ponderadores (factores de elevación) de cada uno de los elementos de

la muestra, que permiten expandir los datos hacia la población, en ese sentido tenemos que ∑𝑄𝑞=1𝑤𝑞 corresponde al total de individuos de una determinada población.

Derivando respecto de cada uno de los parámetros e igualando a cero se obtienen las ecuaciones máximo verosímiles para los estimadores de los parámetros βj

∑ 𝑤𝑞𝑦𝑞𝑥𝑞𝑗− 𝑄 𝑞=1 ∑ 𝑤𝑞𝑥𝑞𝑗𝜋(𝑥𝑞) = 0, 𝑗 = 0, … , 𝑘 𝑄 𝑞=1 (2.13)

Tanto en el caso no ponderado como en el ponderado, las ecuaciones de verosimilitud son funciones no lineales de los parámetros por lo que su resolución requiere de métodos iterativos como el de Newton-Raphson.

La expresión iterativa para la estimación de los parámetros  en el caso no ponderado es: 𝛽(𝑡+1) = 𝛽(𝑡)+ {𝑋𝑑𝑖𝑎𝑔 [𝜋 𝑞(𝑡)(1 − 𝜋𝑞(𝑡))] 𝑋} −1 𝑋′(𝑦 𝑞−𝜋𝑞(𝑡)) (2.14) Y en el ponderado 𝛽(𝑡+1) = 𝛽(𝑡)+ {𝑋𝑑𝑖𝑎𝑔 [𝑤 𝑞𝑖𝜋𝑞(𝑡)(1 − 𝜋𝑞(𝑡))] 𝑋} −1 𝑋′𝑤 𝑞(𝑦𝑞−𝜋𝑞(𝑡)) (2.15)

donde 𝑋′ es la matriz 𝑄 × 𝑘 que tiene por filas las combinaciones de observaciones de

las variables explicativas xq, y 𝜋𝑞(𝑡) es la probabilidad estimada en la iteración t para las

observaciones xq y obtenidas con los parámetros estimados en iteración t, 𝛽(𝑡)

Además, la matriz de información de Fisher se obtiene como la segunda derivada de la función de log-verosimilitud y está dada por:

𝜕𝛽𝜕2𝐿(𝛽) 𝑎𝜕𝛽𝑏= ∑

𝑥𝑖𝑎𝑥𝑖𝑏𝑤𝑖exp (∑ 𝛽𝑗 𝑗𝑥𝑖𝑗)

[1+exp (∑ 𝛽𝑗 𝑗𝑥𝑖𝑗)]2

(26)

29

Con la inversa de matriz de información de Fisher se obtiene la matriz de varianzas-covarianzas del estimador de parámetros. Su expresión para el caso ponderado está dada por:

𝑐𝑜𝑣̂ (𝛽̂) = {𝑋′𝑑𝑖𝑎𝑔[𝑤

𝑞𝜋̂𝑞(1 − 𝜋̂𝑞)]𝑋}−1 (2.17)

Donde 𝑑𝑖𝑎𝑔[𝑤𝑞𝜋̂𝑞(1 − 𝜋̂𝑞)] denota una matriz diagonal 𝑄 × 𝑄 que tiene en su diagonal principal {𝑤𝑞𝜋̂𝑞(1 − 𝜋̂𝑞)}.

2.2.4 Inferencia en regresión logística

Una vez que se han estimado los parámetros del modelo logístico, corresponde realizar la inferencia de los estimadores individualmente y del modelo en conjunto con la finalidad de validar el ajuste obtenido con el modelo.

2.2.4.1 Contrastes de bondad de ajuste

Se debe tener presente que en datos agrupados yq representa el número respuestas Y = 1

(éxitos) en las nq observaciones de la q-ésima combinación de valores de las variables

explicativas. Podemos trabajar con el test estadístico chi cuadrado de Pearson o el test de razón de verosimilitudes de Wilk, pero la norma para usar estos contrastes es que el 80% de las frecuencias esperadas 𝑚̂𝑞= 𝑛𝑞𝜋̂𝑞, sean mayores que cinco y todas mayores

que uno, por el contrario si nq es pequeño es conveniente trabajar con el estadístico de

Hosmer-Lemeshow.

Test chi cuadrado de Pearson

La hipótesis nula a contrastar para el ajuste global del modelo logístico está dada por:

𝐻0: 𝜋𝑞 = exp(∑𝑘𝑗=0𝛽𝑗𝑥𝑞𝑗) (1 + exp(∑𝑘𝑗=0𝛽𝑗𝑥𝑞𝑗)) ∀𝑞 = 1,2, … , 𝑄 Y la hipótesis alternativa: 𝐻1: 𝜋𝑞 ≠ exp(∑ 𝛽𝑗𝑥𝑞𝑗 𝑘 𝑗=0 ) (1 + exp(∑𝑘𝑗=0𝛽𝑗𝑥𝑞𝑗)) para algún 𝑞

Si denominamos al modelo de regresión logística modelo “M”, el test chi cuadrado de Pearson tiene la forma:

(27)

30 𝑋2(𝑀) = ∑ (𝑦𝑞− 𝑛𝑞𝜋̂𝑞) 2 𝑛𝑞𝜋̂𝑞(1 − 𝜋̂𝑞) 𝑄 𝑞=1 = ∑𝑛𝑞(𝑦𝑞− 𝑚̂𝑞) 2 𝑚̂𝑞(𝑛𝑞− 𝑚̂𝑞) 𝑄 𝑞=1

Donde 𝜋̂𝑞 es la estimación máximo verosímil de 𝜋𝑞 y 𝑚̂𝑞 = 𝑛𝑞𝜋̂𝑞 es la estimación de

MV de los valores esperados 𝑚𝑞 = 𝑛𝑞𝜋𝑞. El estadístico tiene distribución asintótica chi-cuadrado con Q-(k+1) grados de libertad. Donde Q son las combinaciones de las variables explicativas y k el número de parámetros estimados en el modelo.

𝑋2(𝑀) → 𝑋

𝑄−(𝑘+1)2 (𝑛𝑞 → ∞) Test de razón de verosimilitudes

El test chi-cuadrado de razón de verosimilitudes de Wilks, trabaja con la “deviance” que es una medida similar a los residuos al cuadrado del modelo de regresión lineal. Para un modelo de regresión logística múltiple “M” el test tiene la siguiente forma:

𝐺2(𝑀) = 2 [∑(𝑛 𝑞− 𝑦𝑞) 𝑄 𝑞=1 ln (𝑛𝑞− 𝑦𝑞 𝑛𝑞− 𝑚̂𝑞) + ∑ 𝑦𝑞ln ( 𝑦𝑞 𝑚̂𝑞) 𝑄 𝑞=1 ]

El estadístico tiene distribución asintótica chi-cuadrada con Q-(k+1) grados de libertad. Donde Q son las combinaciones de las variables explicativas y k el número de parámetros estimados en el modelo.

𝐺2(𝑀) → 𝑋

𝑄−(𝑘+1)2 (𝑛𝑞 → ∞)

Los test de Pearson 𝑋2(𝑀) 𝑦 Wilks 𝐺2(𝑀) siguen la misma distribución asintótica chi

cuadrado con los mismos grados de libertad. Para que los dos estadísticos tengan distribuciones aproximadas el número de observaciones nq en las variables explicativas

debe ser grande y sucede cuando las explicativas son categóricas, con variables cuantitativas es mejor agrupar en intervalos de valores y aplicar el test de Hosmer y Lemeshow.

Test de Hosmer y Lemeshow

El test de Hosmer y Lemeshow agrupa adecuadamente los datos en intervalos, por lo que su valor depende del número de clases resultantes de la agrupación, Hosmer & Lemeshow (2000, p. 148) aconsejan G=10 grupos construidos en base a los deciles de

(28)

31

las probabilidades estimadas bajo el modelo, por el contrario si G<6 el contraste tiende a aceptar casi siempre al modelo como adecuado, es decir el test presenta baja potencia. Una vez creados G grupos, se define 𝑛𝑔 como el número total de observaciones en el

g-ésimo grupo, yg es el número de respuestas Y=1 en el g-ésimo grupo y 𝜋̅𝑔 a las

probabilidades estimadas bajo el modelo de respuesta Y=1, para el g-ésimo grupo que se obtiene como la media de las probabilidades 𝜋̂𝑞 de los valores de xg en el grupo. El

estadístico de Hosmer y Lemeshow 𝐶̂ es de la forma 𝐶̂ = ∑(𝑦𝑔− 𝑛 ′ 𝑔𝜋̅𝑔)2 𝑛′ 𝑔𝜋̅𝑔(1 − 𝜋̅𝑔) 𝐺 𝑔=1

El estadístico también sigue una distribución asintótica chi-cuadrado con G-2 grados de libertad.

2.2.4.2 Medidas de bondad de ajuste global Tasa de Clasificación Correcta

Una medida de la bondad de ajuste global del modelo logístico es la Tasa de Clasificaciones Correctas TCC, que es un resumen de la proporción de individuos clasificados correctamente por la predicción del modelo con respecto a la clasificación observada de los individuos en estudio. En el modelo logístico un individuo es clasificado correctamente si la categoría predicha por el modelo coincide con la categoría observada.

La clasificación del modelo logístico binomial se realiza a partir de la probabilidad estimada 𝜋̂𝑖. En este sentido la clasificación bajo predicción del modelo se hace factible

una vez que se determina un punto de corte pc dentro del intervalo  [0,1], (usualmente 0.5), y ante una probabilidad predicha mayor del punto de corte (𝜋̂𝑖0.5) el modelo

clasifica a los individuos como 𝑌̂ = 1, y en caso contrario el modelo los clasifica como 𝑌̂ = 0.

Los resultados de la clasificación dan lugar a la Tabla de Clasificaciones Correctas, de la que además se desprenden conceptos como sensibilidad y especificidad del modelo (Tabla 2.1).

(29)

32 Clasificación pronosticada Clasificación observada Y=1 Y=0 𝑌̂ = 1 A B 𝑌̂ = 0 C D

Fuente: Elaboración propia

La sensibilidad [A/(A+C)], es la probabilidad de que un individuo predicho tome el valor 𝑌̂ = 1 cuando su valor real es Y=1.

La especificidad=D/(B+D), es la probabilidad de que un individuo predicho tome el valor 𝑌̂ = 0 cuando su valor real es Y=0.

La TCC= (A+D)/ (A+B+C+D), es la probabilidad de acierto global en la predicción del modelo.

Figura 2.5 Maximización de la TCC, curva de sensibilidad, especificidad y cutpoint

Fuente: Elaboración propia

Es posible maximizar la TCC mediante la determinación del punto de corte óptimo del modelo, para ello es suficiente con igualar las curvas de sensibilidad y especificidad ante cambios en el punto de corte, por ejemplo en la Figura 2.5 en el punto 0.43 se cortan las dos curvas y por tanto se maximiza la TCC.

Área Bajo la Curva ROC

El Área Bajo la Curva ROC, es una medida de la capacidad de discriminación de un modelo logístico. 0.0 0.2 0.4 0.6 0.8 1.0 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 cutpoint Sens ibilidad / Es pec if ic idad Sensibilidad Especificidad | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

(30)

33

El valor ROC puede variar en un rango [0.5,1], pero en la práctica es poco probable que el valor supere 0.9. Se considera aceptable un ROC > 0.7 y de excelente poder de discriminación un ROC > 0.8. Si el ROC < 0.7 es mejor no usar el modelo predictivo, pues se considera que el modelo es inútil para discriminar.

Para graficar la curva ROC es necesario calcular la especificidad y sensibilidad del modelo para distintos puntos de corte, antes de ello es necesario precisar dos tasas adicionales que se desprenden de la TCC (Tabla 2.1):

La tasa de verdaderos positivos TVP=[A/(A+C)], es el cociente entre los individuos pronosticados correctamente en 𝑌̂ = 1 y el total de individuos observados que toman el valor Y=1. La tasa de falsos positivos (TFP) es igual a 1- tasa de especificidad.

La curva de ROC (ver Figura 2.6) se construye mediante la representación de la sensibilidad (tasa de verdaderos positivos) en función de la tasa de falsos positivos (1-especificidad), para distintos puntos de corte (cutpoint).

Figura 2.6 Área bajo la curva ROC

Fuente: Elaboración propia

Mientras la curva esté más cerca del vértice superior izquierdo la medida ROC es mayor, lo que es demuestra una buena capacidad de predicción del modelo. En el escenario perfecto la ROC sería igual a uno y tanto la sensibilidad como la especificidad serían igual a uno.

Tasa Falsos Positivos (1-especificidad)

T as a Verdaderos Pos it iv os 0.0 0.2 0.4 0.6 0.8 1.0 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 0. 01 0. 2 0. 4 0. 6 0. 8 1

(31)

34 Otras medidas de bondad de ajuste global

Para estudiar la bondad de ajuste global del modelo, pueden obtenerse medidas similares al coeficiente de determinación R2 del modelo de regresión lineal, no obstante en modelos de respuesta discreta estas medidas análogas tienen menor potencia, una de éstas medidas está dada por la R2 de Cox y Snell.

Esta medida compara la variabilidad del modelo de regresión logística estimado con todos los parámetros  asociados a las variables explicativas, frente a la variabilidad de un modelo (0) en el que solo se tiene el parámetro independiente.

Sea V0 el máximo de la verosimilitud bajo el modelo que incluye sólo la constante y VM

el máximo verosímil del modelo ajustado con todos los parámetros, entonces tenemos:

𝑅𝐶𝑁2 = 1 − (𝑉0

𝑉𝑀) 2/𝑁

Al aumentar el número de parámetros de un modelo, aumenta el máximo de la verosimilitud, como las probabilidades están entre cero y uno, la medida R2 toma

valores entre 0 y 1, pero en la práctica la medida puede ser mayor que 1: 𝑚𝑎𝑥 𝑅𝐶𝑁2 =

1 − (𝑉0)𝑁2

Si hay pocos datos 𝑅𝐶𝑁2 puede tomar un valor cercano a 0, para corregir el problema puede ajustarse el coeficiente de determinación ajustado R2 de Nagelkerke para que tome como máximo el valor 1.

𝑅𝑁2 = 𝑅𝐶𝑁2

max 𝑅𝐶𝑁2 2.2.4.3 Contrastes sobre los parámetros del modelo

De manera análoga a los contrastes de significancia en los modelos lineales, en la regresión logística podemos contrastar si uno o varios parámetros estimados tienen significancia estadística a un determinado nivel de error.

Podemos llevar a cabo la prueba de hipótesis mediante el test de razón de verosimilitud o el test de Wald. El test de razón de verosimilitud es una prueba chi-cuadrado que hace uso de valores de las verosimilitudes maximizadas 2 ln 𝐿̂. El test de Wald es una prueba Z que usa los errores estándar frente a un estadístico de prueba que se aproxima a una distribución normal estándar. Para muestras grandes los 2 tests tienen resultados

(32)

35

similares, no obstante en muestras pequeñas es recomendado usar el test de razón de verosimilitudes (Kleinbaum et al., 2002, p. 135).

Contraste de Wald

Estos contrastes están basados en la normalidad asintótica de los estimadores de máxima verosimilitud. Si queremos contrastar que el parámetro βj asociado a una

variable explicativa es nulo, se plantea la hipótesis 𝐻0: 𝛽𝑗 = 0 𝐻1: 𝛽𝑗 ≠ 0 Wald demostró que el estadístico:

𝑊1 = 𝛽̂𝑗

2

𝜎2(𝛽̂ 𝑗)

→ 𝑋1

Bajo la hipótesis nula tiene distribución chi-cuadrado asintótica con 1 grado de libertad por ser el cuadrado de una normal estándar. Por lo tanto, también se puede usar el estadístico.

𝑊2 = 𝛽̂𝑗

𝑆. 𝐸. (𝛽̂𝑗)→ 𝑁(0,1)

Se rechaza la hipótesis nula al nivel de significación  cuando se verifica que:  Con W1 , si W1obs ≥ χ1;α

 Con W2 , si |W2| ≥ Zα/2

Si rechazamos la hipótesis nula de 𝛽̂𝑗=0 demostramos que la variable explicativa Xj

asociada al parámetro j tiene relación significativa con la variable de respuesta, si la hipótesis nula no se rechaza indica que la variable asociada al parámetro es independiente de la variable de respuesta.

Contraste condicional de razón de verosimilitud

En este contraste se comparan las verosimilitudes de dos modelos anidados, esto es, un modelo general MG que tiene una serie de parámetros y el otro un modelo

(33)

36

Partimos de un modelo de regresión logística MG que presenta buen ajuste global y

ahora necesitamos contrastar si uno de sus parámetros βj, es nulo. Si MP es un modelo

más simple que resulta de hacer cero dicho parámetro de MG, la hipótesis que se

contrasta se puede expresar como

𝐻0: 𝛽𝑗 = 0 (𝑀𝐿 𝑠𝑒 𝑣𝑒𝑟𝑖𝑓𝑖𝑐𝑎)

𝐻1: 𝛽𝑗 ≠ 0 (𝑀𝐺 𝑠𝑒 𝑎𝑠𝑢𝑚𝑒 𝑐𝑖𝑒𝑟𝑡𝑜) El estadístico de razón de verosimilitudes condicional es de la forma:

𝐺2(𝑀

𝑜|𝑀1) = −2(𝐿𝑃 − 𝐿𝐺)

= 𝐺2(𝑀

𝑃) − 𝐺2(𝑀𝐺)

Donde LP, LG son los máximos de la log-verosimilitud para el modelo MP y MG

respectivamente. Además tenemos que el test de razón de verosimilitudes que contrasta dos modelos anidados, es la diferencia de los contrastes de bondad de ajuste 𝐺2 de cada modelo que se está comparando.

Bajo la hipótesis nula el contraste de razón de verosimilitudes sigue una distribución chi-cuadrado con grados de libertad igual a la diferencia del número de parámetros que tienen los modelos general y particular, en este caso 1.

𝐺2(𝑀

𝑃/𝑀𝐺) → 𝜒12

En procedimientos de selección de variables es recomendable el uso de este test de razón de verosimilitudes respecto del test de Wald.

2.2.5 Validación y diagnóstico del modelo logit

Una vez probado el ajuste global del modelo logístico mediante G2 y X2 resulta necesario analizar con exhaustividad los datos en estudio, para ello observamos el comportamiento de los residuos del modelo e identificamos la existencia de valores atípicos que puedan incidir negativamente sobre la estimación de los parámetros del modelo.

2.2.5.1 Residuos de Pearson

(34)

37

𝑟𝑞= 𝑦𝑞− 𝑛𝑞𝜋̂𝑞 √𝑛𝑞𝜋̂𝑞(1 − 𝜋̂𝑞)

Los residuos de Pearson son los elementos del Estadístico chi-cuadrado de Pearson X2:

𝑋2 = ∑ 𝑟 𝑞2 𝑄 𝑞=1

Se puede plantear el contraste de hipótesis: 𝐻0: 𝑟𝑞 = 0 𝐻1: 𝑟𝑞 ≠ 0

Bajo esta hipótesis el residuo tiene distribución asintótica normal con media cero y varianza estimada 𝜎̂2(𝑟

𝑞) < 1, es decir que los residuos tienen menor variabilidad que

una variable aleatoria estándar, pero suelen ser tratados como normales estándar, considerándose significativos y que existe falta de ajuste cuando sus valores absolutos son mayores que dos, lo que implica falta de ajuste.

Para evitar este problema se usan los residuos de Pearson ajustados 𝑟𝑞𝑠 que siguen distribuciones asintóticas normales y que vienen dados por la siguiente expresión:

𝑟𝑞𝑠 =

𝑟𝑞 √1 − ℎ𝑞𝑞

Donde hqq es el elemento diagonal de la matriz

𝐻 = 𝑊12 𝑋 (𝑋 ′𝑊𝑋 )−1 𝑋 ′𝑊 1 2; 𝑊 = 𝐷𝑖𝑎𝑔[𝑛𝑞𝜋̂𝑞(1 − 𝜋̂𝑞)]

Además hqq es una medida de influencia denominada leverage de la observación xq. Se

puede plantear el contraste:

𝐻0: 𝑟𝑞𝑠 = 0

𝐻1: 𝑟𝑞𝑠 ≠ 0

La hipótesis nula se rechaza, con un residuo significativamente distinto de cero a un nivel de significación α, cuando se cumple

(35)

38

|𝑟𝑞𝑠| ≥ 𝑧𝛼/2

2.2.5.2 Residuos de la devianza o residuos estandarizados

Se definen los residuos de la devianza como los elementos del estadístico de Wilks

𝑑𝑞 = 𝑠𝑖𝑔𝑛𝑜(𝑦𝑞− 𝑚̂𝑞) (2 [𝑦𝑞𝑙𝑛 (𝑦𝑞 𝑚̂𝑞) + (𝑛𝑞− 𝑦𝑞) ln ( 𝑛𝑞− 𝑦𝑞 𝑛𝑞− 𝑚̂𝑞)]) 1 2

La función 𝑠𝑖𝑔𝑛𝑜(𝑦𝑞− 𝑚̂𝑞) es -1 cuando la frecuencia observada yq es menor que la

estimada 𝑚̂𝑞, y es +1 cuando cuando la frecuencia observada yq es mayor que 𝑚̂𝑞.

El estadístico G2 se conforma desde las deviance dq según la siguiente expresión:

𝐺2 = ∑ 𝑑 𝑞2 𝑄 𝑞=1

El residuo de la deviance, bajo la hipótesis nula, tiene distribución asintóticamente normal con media 0 y varianza estimada 𝜎̂2(𝑟𝑞) < 1. Para ajustar la normalidad asintótica los residuos de la devianza también se ajustan como sigue:

𝑑𝑞𝑠 = 𝑑𝑞

√1 − ℎ𝑞𝑞

Bajo la hipótesis nula 𝑑𝑞𝑠 tiene distribución N(0,1). Por tanto, la hipótesis se rechazará y

diremos que el residuo es significativamente distinto de cero, a un nivel de significación α cuando se cumpla:

|𝑑𝑞𝑠| ≥ 𝑧 𝛼/2

La diferencia entre Pearson y Devianza es que los de la devianza convergen con mayor rapidez a la distribución normal que los de Pearson.

2.2.5.3 Medidas de influencia

Las medidas de influencia principalmente buscan determinar el efecto sobre los parámetros estimados que tienen las observaciones atípicas, estas medidas permiten detectar puntos influyentes estimando el cambio en los residuos cuando se eliminan éstas observaciones influyentes.

(36)

39

Si en análisis de residuos como Pearson y Deviance se detectan residuos significativamente distintos de 0, debemos estudiar su influencia sobre el modelo, entonces se puede trabajar mediante las distancias de Cook y los Dfbetas.

La distancia de Cook es una prueba útil para la identificación de puntos influyentes a partir de la observación de los residuos, se suele considerar como puntos excesivamente influyentes, aquellos en los que el leverage 𝐷𝑞 > 1 , (Cook & Weisberg, 1982), otra regla suele considerar como valor influyente al Dq>4/n. Su cálculo es como sigue:

𝐷𝑞= 1 𝑅 + 1(𝑟𝑞𝑠) 2 ( ℎ𝑞𝑞 1 − ℎ𝑞𝑞)

Los Dfbetas también proporcionan una medida del cambio en los parámetros estimados ∆𝛽̂ cuando se elimina un caso xq. Se fórmula es la siguiente:

∆𝛽𝑞 =(𝑋 ′𝑊𝑋 )

−1 𝑋

𝑞′(𝑦𝑞− 𝑛𝑞𝜋̂𝑞)

(1 − ℎ𝑞𝑞)

Además de medir los cambios sobre los parámetros, también se suelen medir los cambios sobre los intervalos de confianza ∆𝑐 de los parámetros estimados y los cambios en las medidas de ajuste global X2 y G2.

2.2.6 Selección del modelo logit

Bajo el principio de parsimonia que busca seleccionar el modelo más sencillo y con el menor número de variables pero con un alto poder de predicción y buen ajuste, se puede seleccionar el mejor modelo logit si tomamos como estrategia de selección de variables al procedimiento “stepwise” (paso a paso), que se fundamentan en los contrastes condicionales de razones de verosimilitud 𝐺2(𝑀𝑃/𝑀𝐺). Los procedimientos “paso a paso” pueden ser por el método “forward” (hacia adelante), “backward” (hacia atrás) y “stepwise”.

Backward: con este método tomamos inicialmente un modelo con todas las variables

que se consideran como predictores válidos para la variable de respuesta. Con el modelo especificado se inicia el algoritmo y en cada paso se eliminan las variables cuya presencia no mejora el ajuste global del modelo inicial, así en cada paso se ajustan modelos logit, se eliminan una a una las variables y se realiza un contraste de razón de verosimilitudes para comprobar si el modelo con menos variables es mejor que el modelo con todas las variables, en cada paso se elimina la variable con menor nivel de

Referencias

Documento similar

The notified body that issued the AIMDD or MDD certificate may confirm in writing (after having reviewed manufacturer’s description of the (proposed) change) that the

Y tendiendo ellos la vista vieron cuanto en el mundo había y dieron las gracias al Criador diciendo: Repetidas gracias os damos porque nos habéis criado hombres, nos

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

Proporcione esta nota de seguridad y las copias de la versión para pacientes junto con el documento Preguntas frecuentes sobre contraindicaciones y

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

De hecho, este sometimiento periódico al voto, esta decisión periódica de los electores sobre la gestión ha sido uno de los componentes teóricos más interesantes de la

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y