PREDECIR FRECUENCIA Y SEVERIDAD ESPERADAS

En este capítulo, se muestra cómo se puede implementar el análisis predictivo de los cuantiles para la modelización del riesgo, dejando atrás los modelos de regresión tra- dicionales focalizados en el análisis de la media. Seguidamente, se ofrecen algunas generalizaciones. También se incluyen varios ejemplos con resultados relativos al uso de datos telemétricos en el seguro de automóviles y, concretamente, en pólizas de pago por uso. Para terminar, se realiza una revisión de otras aplicaciones del big data en los seguros, y se concluye presentando algunas líneas emergentes en este ámbito.

El cálculo de primas más básico consiste en multiplicar el número esperado de siniestros por su coste medio. Obtenida esta cantidad, que suele referirse a un periodo anual, se aplican ajustes de seguridad y recargos para gastos de administración y de adquisición, y se determina el precio final que pagará el tomador del seguro, lo que en términos técnicos se conoce como su prima de transferencia del riesgo. La suma de las primas de los asegurados de un mismo colectivo garantiza fondos suficientes para hacer frente de forma mancomunada y solidaria a todos los siniestros del colectivo.

Debido a la gran responsabilidad asumida por las entidades aseguradoras en su com- promiso de resarcir de las pérdidas a sus asegurados, el sector en su totalidad queda sujeto a una regulación férrea, a un nivel incluso más exigente que el aplicado en otras áreas de actividad del sector financiero. Todo ello implica un control de la solvencia de las entidades y, sobre todo, una garantía de corrección de los cálculos actuariales necesarios para proveer las primas. De ahí el papel fundamental del análisis de riesgos basado en los datos.

Como el principio del cálculo de precios se fundamenta en un modelo predictivo orien- tado a modelizar el valor esperado de una variable de conteo (la frecuencia de siniestralidad) y de una variable positiva (el coste o severidad), que generalmente se asume no acotada y como ya se ha comentado antes, es asimétrica a la derecha, los modelos lineales generalizados, árboles de clasificación, redes neuronales y random forests, entre otros, son los métodos de machine learning que se vienen utilizando con total normalidad en los departamentos actuariales de las entidades aseguradoras y que vinculan la siniestralidad a factores o características del objeto asegurado y de quien lo asegura. De ese modo, dichos modelos estadísticos predictivos sirven como base para establecer una prima suficiente, y distinta para cada tipología de cliente y cada contrato.

Uno de los grandes debates en el sector de los seguros actualmente surge a raíz del impulso que el big data ha ejercido en la personalización de las primas. La creciente disponibilidad de información permite que el número esperado y la cuantía esperada de los siniestros pueda ajustarse a un elevado número de características de riesgo par- ticulares de quienes suscriben las pólizas, un número de factores a tener en cuenta que es muy superior al conjunto que se utilizaba décadas atrás. De ese modo, se ha visto incrementada la capacidad de diseñar sistemas de tarificación muy granulares que tienen en cuenta cada vez más información individual. La capacidad predictiva de los modelos y su adaptación a entornos con datos masivos choca entonces con el principio de mutualización. Y es en este punto donde emerge la inquietud de saber cuáles son los límites de la personalización de los precios, ya que si se pudiera llegar a predecir exac- tamente quién va a sufrir un accidente, y quién no, se acabaría estableciendo un precio para el primer grupo que sería igual al valor total de los accidentes que van a experi- mentar y un precio igual a cero para el segundo grupo, por lo que el propio concepto de la solidaridad en el seguro desaparecería. No existe un consenso sobre los límites de la ultra-segmentación de las primas, pero sí medidas que permiten detener un proceso

de individualización que conduzca a niveles de desigualdad excesiva de prima entre el colectivo de los asegurados².

Sin embargo, el big data abre una nueva perspectiva en el uso de los datos en los seguros y esa no es otra que la prevención, es decir, la predicción del riesgo anticipando la ocurrencia del siniestro y relegando el mero cálculo del precio a un segundo plano. A ello, ha contribuido muy notablemente la disponibilidad de información prácticamente en tiempo real.

2.1. Notación general y con datos telemáticos

Introducimos aquí la notación que va a utilizarse en el resto del capítulo. Se supone periodicidad anual en el contrato de seguro. Sea n el número de asegurados, sean Ni

y Sij respectivamente, el número de siniestros del asegurado i-èsimo, y la cuantía del j-ésimo siniestro del asegurado i, i = 1,...,n, j = 1,...,Ni definida esta última únicamente si Ni > 0. Sean X1i,...,Xki las k características observables que suelen determinarse a partir de la formalización del contrato. Por ejemplo, la edad del asegurado, su antigüedad en la compañía y las características del objeto asegurado, como su superfície y locali- zación en el caso de una vivienda, o marca, modelo, potencia y zona de conducción en un vehículo. Denominaremos Z t1^*i

( )

,...,Z tmi^*

( )

, al conjunto de m variables telemáticas que están asociadas al objeto asegurado, es decir, que pueden medirse una vez ya está vigente el contrato e informan en tiempo real sobre su uso durante un periodo T y que se actualizan en intervalos de tiempo t. Denotaremos por Z1i,...,Zsi a las s caracte- rísticas anuales que resumen las observaciones telemáticas para cada asegurado i. Por ejemplo, en el caso del automóvil, con las tecnologías actuales puede medirse el total de kilómetros recorridos, número de trayectos realizados, la velocidad media de cada trayecto, frenazos, aceleraciones u otras medidas sin necesidad de tener localización exacta del vehículo. Cómo utilizar esta información telemática es uno de los objetivos de los modelos predictivos del riesgo en un entorno de datos masivos.

La información telemática permite conocer con detalle la exposición al riesgo, es decir, el intervalo de tiempo en el que realmente el asegurado puede tener un accidente que corresponde al momento en el que se encuentra conduciendo³. Hay casos en los que la exposición al riesgo es permanente, por ejemplo en los seguros de salud, pero en el seguro del automóvil a más kilómetros recorridos, mayor es la exposición y por lo tanto

2 Hay factores que actualmente no pueden utilizarse para la determinación de precios. Por ejemplo, en la Unión Europea, como en un número creciente de países en el mundo, el principio de no discriminación impide que el sexo del asegurado pueda utilizarse como elemento diferencial en las tarifas, aunque sí puede servir internamente para analizar el riesgo que asume una entidad de seguros.

3 Hay que tener en cuenta que los automóviles pueden sufrir percances aunque no están funcionando, por ejemplo estando aparcados pueden recibir un golpe de un tercero. Los siniestros de robo son un claro ejemplo también de exposición al riesgo con el vehículo parado. En el ejemplo concreto de recibir un golpe de un tercero, el siniestro estaría cubierto por la responsabilidad civil del culpable del golpe.

a igualdad de condiciones, quienes recorren más kilómetros tienen una probabilidad de sufrir accidentes sensiblemente superior a quienes recorren menos. El total de kiló- metros recorridos en un año es una de las principales características telemáticas dispo- nibles, pongamos Z1i, que suele denotarse por Di, y que puede utilizarse en el seguro de automóviles como una aproximación de la exposición al riesgo y, además, como elemento esencial en el pago por kilómetro.

2.2. Modelizar la frecuencia

El modelo de Poisson es el modelo básico para predecir el número esperado de siniestros y puede especificarse como:

E(Ni | X1i,...,Xki,Z1i,...,Zsi) = exp (β0 + β1X1i + ... + βkXki + γ1Z1i + ... + γsZsi), [1]

siendo θ = (β0,β1,...,βk,γ1,...,γs) el vector de parámetros a estimar. Se suele usar la notación matricial X_i^a^′θ para el predictor lineal, siendo Xi^a^'=

(

X Zi^'^, ^'i

)

el conjunto de regresores distin- guiendo entre los que provienen del contrato X_i^' y los que provienen de la telemetría _Z_i^'. Se supone que Ni sigue una distribución de Poisson de parámetro exp X

( )

i^a^'θ .

Cuando se utiliza una variable de exposición al riesgo, también denominada offset, Di, para el i-ésimo individuo, el modelo se expresa como:

( )

( ( ) )

1 1

0 1 1 1 1

( | , ,..., , ,..., )

... ...

log ... ... .

i i i ki i si

o o o o o

i i k ki i s si

o o o o o

i i k ki i s si

lE N D X X Z Z

D exp X X Z Z

exp D X X Z Z

β β β γ γ

= + + + + + +

= + + + + + + +

[2]

siendo θ^o=

(

β β0ô, ,..., , ,...,1ô β γ_kô 1ô γ_sô

)

el vector de parámetros a estimar.

Los parámetros se estiman por máxima verosimilitud y, como parte de los modelos lineales generalizados, se utilizan el conjunto de herramientas de inferencia de esta familia de modelos. De todos modos, como en muchos casos suele haber sobredisper- sión en los datos o un exceso de ceros, lo que se aconseja es usar algunas extensiones del modelo básico de Poisson como el modelo binomial negativo, que aquí omitimos.

2.3. Modelizar la cuantía

Para modelizar la cuantía de los siniestros se puede especificar un modelo para el coste, siendo cero si no ha habido ningún siniestro⁴. Para modelizar la cuantía, se puede utilizar un modelo Gamma donde la variable es estrictamente positiva. Así el modelo puede especificarse como:

4 Si el asegurado ha sufrido más de un siniestro, se puede modelizar la media de los costes de los siniestros que ha sufrido cada asegurado.

E(Si) = exp (α0 + α1X1i + ... + αlXki + αl+1Z1i + ... + αl+sZsi) [3]

siendo Si el coste medio de los siniestros del asegurado i, en caso de que este haya tenido algún siniestro, y 0 en caso contrario, α0,..., αl+s el vector de parámetros a estimar en el modelo para las cuantías en las que se han incluido k características no-telemáticas del i-ésimo individuo y otras s de carácter telemático. Para simplificar, se han supuesto los mismo factores predictivos en los dos modelos: frecuencia y cuantía, pero el número y tipo de factores podría cambiar. El método de estimación es máxima verosimilitud. En el caso de la severidad, es difícil obtener resultados que permitan distinguir el impacto de los factores predictivos sobre la media, por lo que en la práctica no es extraño tomar solamente una constante y trabajar directamente con el importe medio de los siniestros.

In document BIG DATA (página 104-108)