TAREA 3
E.M.V y Regresi´
on Log´ıstica
An´
alisis de la tasa de retenci´
on de clientes de una
empresa y su proyecci´
on. Determinaci´
on de algunos
factores que inciden en la rehospitalizaci´
on de
pacientes en el sistema de salud de USA.
IN3401-1 Estad´ıstica para la Econom´ıa y Gesti´
on
Profesor:
Marcelo Olivares A.
Auxiliares:
Jos´e Miguel Alvarado Ang´elica Cordoba Emilio Varas Tom´as Wilner Estudiantes: Iv´an Fuentealba C. Fecha: 24 de junio de 2014
´
Indice
1. Introducci´on 3
1.1. Rese˜na hist´orica . . . 3
1.2. Metodolog´ıa utilizada . . . 3
2. Descripci´on del Problema 4 2.1. Adaptaci´on del Problema 1 . . . 4
2.2. Adaptaci´on del Problema 2 . . . 4
3. Desarrollo 6 3.1. Problema 1 . . . 6
3.1.1. Log-verosimilitud (LL) . . . 6
3.1.2. Estimador de M´axima Verosimilitud E.M.V . . . 7
3.1.3. Mejora del modelo . . . 7
3.1.4. Contraste de Resultados . . . 7
3.1.5. Cambios en el modelo . . . 7
3.1.6. Proyecci´on y comparaci´on de los modelos . . . 7
3.1.7. Modelo alternativo . . . 7
3.2. Problema 2 . . . 8
3.2.1. P´arametros del problema . . . 8
3.2.2. S∗ que minimiza los gastos del gobierno . . . 8
3.2.3. Estimador de M´axima Verosimilitud E.M.V . . . 8
3.2.4. Variables explicativas que inciden significativamente en la probabilidad de rehospitalizaci´on . . . 8
3.2.5. Criterio de clasificaci´on y costos del gobierno . . . 8
3.2.6. Probabilidad cr´ıtica que minimiza los costos del gobierno . . . 8
3.2.7. Comparaciones . . . 8
3.3. Resultados obtenidos . . . 8
4. An´alisis de Resultados 8
1.
Introducci´
on
1.1. Rese˜na hist´orica
La tasa de retenci´on de clientes ha sido un tema muy importante para las empresas duran-te los ´ultimos 100 an˜nos, puesto que con ella pueden definir nuevas estrategias para establecer un plan de marketing o mejorar aspectos en la gesti´on interna que podr´ıan incidir en alg´un tipo de variaci´on sobre la tasa. Una consecuencia directa de estudiar la tasa de retenci´on puede marcar alg´un tipo de ventaja competitiva para alguna empresa, o bien cuestionarse ciertas cosas en relaci´on a la fidelizaci´on de sus clientes.
Los centros hospitalarios y diversos servicios de atenci´on masiva (como las c´arceles, por ejemplo) deben tener en cuenta la capacidad que poseen y la reincorporaci´on de sus usuarios, en el caso de los centros m´edicos de las rehospitalizaci´on, el no tener capacidad para atender alg´un paciente puede significar la vida o la muerte de este, esto puede ocurrir si por alguna raz´on a alguna persona que no debia ser rehospitalizada lo fue y ocup´o el espacio de alguien que s´ı lo necesitaba con urgencia, pero m´as grave a´un, es cuando se comete el error de no “rehospitalizar.a un paciente que si lo necesitaba. Por otro lado, siempre est´a la necesidad
de ahorrar costos, lo que incide de alguna u otra manera en la decisi´on de aceptar o no m´as “clientes”.
1.2. Metodolog´ıa utilizada
En las pr´oximas p´aginas se abordar´an dos casos peque˜nos de estos problemas. En el primero, se analizar´a la tasa de retenci´on de clientes de una empresa de telefon´ıa durante 7 a˜nos y se buscar´a alguna forma de predecir la fuga de sus usuarios. Los datos utilizados se encuentran en este mismo informe y para el tratamiento de los datos, se utiliz´o Excel y su complementoSolver.
Para el caso de los hospitales se utiliz´o una base de datos de 4382 pacientes correspondiente a 14 hosp´ıtales de una determinada regi´on de USA, el cual se encuentra en el archivo anexo (archivo data tarea3.xlsx). Para trabajar con estos datos, se utiliz´o principalmente el software estad´ısticoStataen conjunto conExcel.
En la pr´oxima secci´on (Descripci´on) se explicar´a con mayor detalle sobre los problemas que se abordar´an en el presente documento.
2.
Descripci´
on del Problema
2.1. Adaptaci´on del Problema 1
Una empresa que ofrece servicios de telefon´ıa ha notado que en cada a˜no una fracci´on de clientes hace abondono de la compa˜n´ıa, para contratar otros servicios. La empresa ha pedido asesor´ıa a los alumnos de Ingenier´ıaa Civil Industrial de la Universidad de Chile que cursan su primer curso de estad´ısticas, para poder determinar la tasa de retenci´on de clientes, con el objetivo proyectar la fuga de ´estos durante los pr´oximos 5 a˜nos. Para esto, cuenta con la informaci´on de 10000 clientes que hicieron ingreso a la compa˜n´ıa en el 2006, con sus respec-tivas salidas a lo largo de los ´utimos a˜nos:
A˜no # Clientes % Activos
2006 10000 100 2007 6310 63.13 2008 4685 46.85 2009 3822 38.22 2010 3261 32.61 2011 2890 28.9 2012 2629 26.69 2013 2413 24.13
Tabla 2.1.1: Fugas de clientes.
Se considera la siguiente hip´otesis: todos los clientes, sin distinci´on, al f´ınal de cada a˜no ha-cen abandono de la compa˜n´ıa con probabilidadθy, por lo tanto, se mantienen en la compa˜n´ıa con probabilidad (1−θ). Dada esta creencia incial sobre el comportamiento de los clientes, se buscar´a estimar a trav´es del m´etodo de m´axima verosimilitud el valor deθ.
2.2. Adaptaci´on del Problema 2
Los altos niveles de rehospitalizaci´on en el sistema de salud de USA, es uno de los pro-blemas que m´as preocupa a las autoridades. Se estima que el 20 % del total de pacientes hospitalizados del programa Medicare(es un programa de seguridad social que administra el gobierno de USA que provee atenci´on m´edica a adultos mayores y j´ovenes con discapacidades) son rehospitalizados dentro de los pr´oximos 30 d´ıas posteriores a la fecha en la cual fue dado
Variable Descripci´on
age edad al momento de hospitalizarse sex g´enero: 1 si es mujer, 0 si es hombre
flu season 1 si el paciente fue hospitalizado en ´epoca de influenza, 0 si no Ed admit 1 si el paciente fue hospitalizado por urgencias, 0 si no
severity score ´ındice de severidad del estado de salud del paciente, basado en ex´amenes y signos vitales registrados al momento de hospitalizarse.
comorbidity ´ındice de severidad basado en diagn´osticos prexistentes del paciente readmit30 si el paciente fue rehospitalizado dentro de 30 d´ıas, 0 si no
Tabla 2.2.1: Variables de la base de datos
En primera instancia, se buscar´a predecir si un cliente ser´a rehospitalizado o no. Cuando se predice que un paciente sera rehospitalizado, el gobierno reserva capacidad en el sistema de salud para recibir a ese paciente de forma adecuada, lo cual se estima a un costo de US$2,000. Si el paciente efectivamente fue rehospitalizado, se incurren $5000 en gastos de tratamiento. Si en cambio el paciente para el cual se predijo rehospitalizaci´on yNO FUErehospitalizado, se incurren en un gasto adicional de $300, por multas en incumplimiento de contratos. Por otro lado, si se predijo que el paciente no ser´ıa rehospitalizado y este finalmente lo fue, el gasto total de tratamiento es de $10,000. Si se predijo que el apciente no seria rehospitalizado y paciente efectivamente no lo fue, no se incurre ning´un costo. La siguiente matriz resume los costos asociados para el gobierno:
Efectivo
S´ı No
Predicci´on S´ı $ 7000 (2000+5000) $ 2300 (2000+300)
No $ 10.000 0
Tabla 2.2.2: Costo del gobierno debido a las hospitalizaciones
Se considera el supuesto de que ning´un paciente que necesite rehospitalizaci´on (ya sea si ´esta fue o no predicha) queda sin ser rehospitalizado, el gobierno siempre incurrir´a en los costos necesarios para las rehospitalizaciones
3.
Desarrollo
3.1. Problema 1
3.1.1. Log-verosimilitud (LL)
P er´ıodo t A˜no # Clientes Nt(F ugas) % Activos
0 2006 10000 0 100 1 2007 6310 10000-6310=3690 63.13 2 2008 4685 6310-4685=1625 46.85 3 2009 3822 4685-3822=863 38.22 4 2010 3261 3822-3261=561 32.61 5 2011 2890 3261-2890=371 28.9 6 2012 2629 2890-2629=261 26.69 7 2013 2413 2629-2413=216 24.13
Tabla 3.1.1: Fugas de clientes.
Es l´ogico pensar a priori que los clientes se fugan siguiendo una distribuci´on geom´etrica, por lo que se plantea lo siguiente:
SeanNtlai-´esima observaci´on de la cantidad de clientes que se quedan (ver tabla anterior),
t∈0, . . . ,7,P(T =t|θ): la probabilidad que un cliente abandone la compa˜n´ıa el a˜no t, conθ
representando la probabilidad de fuga y 1−θ la probabilidad de quedarse.
La probabilidad de que un cliente se vaya en T=t es la probabilidad de que no se haya ido en los t-1 per´ıodos anteriores y que se vaya en el per´ıodo actual:
P(T =t|θ) = (1−θ)t−1·θ
Considerando que lo anterior es para el caso de sola persona, entonces para describir el hecho de que durante la observaci´on, se mantengan: N1 = 6310 Clientes , . . . , N7 = 2413
Clientes en el horizonte temporal, se tiene que la funci´on de verosimilitud, que intenta asignar la m´axima probabilidad a la ocurrencia de los observado, viene dada por:
L(θ|X) = 7
Y
t=0
P(T =t|θ)Nt
loga-=N1ln(θ) +N2[ln(1−θ) + 2ln(θ)] +. . .+N7[6ln(1−θ) + 7ln(θ)]
3.1.2. Estimador de M´axima Verosimilitud E.M.V
Se desea encontrar ˆθ=argm´ax{LL(θ|X)}. Como el logaritmo es una funci´on de claseC2
y adem´as es creciente, basta derivar e igualar a 0 para encontrar ˆθ.
dLL(θ|X) dθ = N1 θ +N2[ 1 1−θ+ 2 θ] +. . .+N7[ 6 1−θ+ 7 θ]
Lo que se calcul´o utilizando el complemento SolverdeExcel, considerando el supuesto de que todos los clientes tienen el mismo θ, por lo que tendr´ıan la misma probabilidad (entre 0.000001 y 0.99999999), lo que arroj´o los siguientes resultados:
P er´ıodo t Nt(F ugas) P(T =t|θ) Nt·Ln(P(T =t|θ)) 0 0 2.831 (no influye) 0 1 10000-6310=3690 0.646892321 -1607.273325 2 6310-4685=1625 0.147764856 -3107.216258 3 4685-3822=863 0.033752839 -2924.440106 4 3822-3261=561 0.007709913 -2729.404348 5 3261-2890=371 0.001761119 -2352.810043 6 2890-2629=261 0.000402279 -2040.592926 7 2629-2413=216 9.18897E-05 -2007.703013 LL(θ|X) -16769.44002 ˆ θ 0.646892321
Tabla 3.1.2: E.M.V con un ´unico valor paraθ.
:( no alcanc´e a pasarlo todo a LaTeX, me demor´e infinito. J.M intentar´e en-viarlo completo de todas formas
3.1.3. Mejora del modelo 3.1.4. Contraste de Resultados 3.1.5. Cambios en el modelo
3.1.6. Proyecci´on y comparaci´on de los modelos 3.1.7. Modelo alternativo
PROPOSICI ´ON 3.1.7.1 beta:
DEMOSTRACI ´ON:
3.2. Problema 2
3.2.1. P´arametros del problema
3.2.2. S∗ que minimiza los gastos del gobierno 3.2.3. Estimador de M´axima Verosimilitud E.M.V
3.2.4. Variables explicativas que inciden significativamente en la probabilidad de rehospitalizaci´on
3.2.5. Criterio de clasificaci´on y costos del gobierno
3.2.6. Probabilidad cr´ıtica que minimiza los costos del gobierno 3.2.7. Comparaciones Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo C´odigo 3.3.1: Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo C´odigo 3.3.2: Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo Insertar c\'odigo