Modelado - METODOLOGÍA DE LOS MODELOS - APLICACIÓN SOBRE UN CASO REAL

3. APLICACIÓN SOBRE UN CASO REAL

3.2. METODOLOGÍA DE LOS MODELOS

3.2.1. Modelado

En el proceso de construcción de un modelo se debe utilizar una estrategia para que el sistema de clasificación sea lo más óptimo y robusto posible. Aunque los argumentos del modelado de este trabajo se vean en detalle más adelante, funcionalmente se comportan de una forma similar a la definida a continuación.

Figura 3.1: Flujo de trabajo modelo machine learning. Fuente: Elaboración propia

Como se puede ver en la Figura 3.1, la primera fase consiste en la búsqueda y análisis de las distintas fuentes de donde se va a obtener la información para poder construir el modelo. Estas fuentes pueden ser tanto internas de las entidades, entre las que están las BBDD internas y cualquier otra información en posesión de la propia entidad, como externas, entre las que se encuentran cualquier base de datos de acceso público o privado (listas de morosos). Además de estas, y cada vez con más presencia en los modelos, está la información extraída de las redes sociales aunque, acorde con el GDPR, los datos deben ser seudonimizados.

Además, la importancia del data quality resulta esencial para poder obtener el mayor potencial de la información disponible, puesto que un modelo basado en el análisis de datos se verá afectado si estos datos no son de calidad. Esto tiene efecto directo sobre el entorno actual, en el que la complejidad de las nuevas tecnologías y las grandes cantidades de datos requieren un mayor esfuerzo para garantizar la calidad de los datos. Esto quiere decir que los datos sean capaces de aportar su máximo potencial, asegurando la precisión, integridad, consistencia no duplicidad de los mismos.

La siguiente fase consta del preprocesamiento de datos y la selección de atributos. La mayor parte del trabajo de la preparación los datos para su uso en la construcción de modelos de ML consiste en la obtención de un conjunto de datos consistente y en decidir cuál es la mejor manera de sacar provecho esos datos para resolver el problema. Posteriormente hay que preparar los datos y que estén listos es el preprocesamiento. En este momento se transforman los datos limpios y válidos de la manera que mejor se adapte a las necesidades del modelo [55], asegurando el data quality.

Adicionalmente al tratamiento de datos, es necesario hacer una selección de los atributos más relevantes para entrenar el modelo, se realizan a priori del entrenamiento del modelo. A veces ésta selección se realiza manualmente, pero a menudo requieren experiencia. Más frecuentemente, los atributos son seleccionados automáticamente por un conjunto de algoritmos.

Las razones principales por las que se recurre a la selección de atributos son que los datos contienen un gran número de atributos redundantes o irrelevantes [56], por lo tanto pueden ser eliminados sin acarrear una gran pérdida de información pero mejorando el coste computacional, hecho que nos interesa teniendo en cuenta que en la construcción de modelos de ML muchas veces se tratan grandes volúmenes de datos, lo cual lleva asociado un gran coste computacional.

Puede que sea necesario realiza esta fase varias veces y sin ningún orden preestablecido, como consecuencia del modelo que estamos entrenando, puesto que no todos los modelos tienen el mismo nivel de aceptación de missings, outliers o valores atípicos, etc.

Entre las diferentes estrategias que se pueden seguir para crear un modelo en la fase del desarrollo del modelo, la más generalizada es aquella en la que, partiendo del conjunto de datos inicial, se obtienen dos tablas, una de entrenamiento (training) y otra de testeo (test). Se consiguen haciendo una partición del dataset inicial con una proporción generalmente de ଶ_ଷݕଵ_ଷ respectivamente, aunque se puede emplear la segmentación que se crea más conveniente, puesto que si se dispone de una base de datos con pocas entradas es recomendable tener una training set lo más grande posible para poder entrenar mejor el modelo. Para ello se puede seguir un muestreo aleatorio o seguir una estrategia determinada, aunque con la restricción de que cada registro puede aparecer solo en uno de los datasets.

Cuanta más información contenga la base de datos mejor modelo se puede obtener. El dataset de training es utilizado para entrenar los modelos de machine learning, es decir, para estimar los parámetros del modelo. Una vez tengamos nuestro modelo, el conjunto de datos de testeo se utiliza para comprobar el comportamiento del modelo, ya que si esta operación la lleváramos a cabo con el mismo conjunto con el que

hemos entrenamos el modelo, los resultados no serían correctos sino espurios, ya que es normal que sobre este conjunto tuviera un mejor comportamiento que el que debiera, en parte porque puede que el modelo esté sobreentrenado.

Estas técnicas de clasificación son enfoques sistemáticos para la construcción de modelos de clasificación a partir de un conjunto de datos de entrada (training). Cada técnica utiliza un algoritmo de aprendizaje para poder identificar el modelo que mejor ajusta la relación entre el conjunto de atributos y la clase objetivo. El modelo creado a partir de este algoritmo debe ajustarse bien a los datos de entrada y predecir correctamente las clases de los nuevos registros [57].

Por último, hay que llevar a cabo la validación del modelo. Para ello se hará uso de distintas métricas que permitan cuantificar la calidad del modelo y así poder decidir entre los distintos modelos teniendo en cuenta cual tiene mayor poder predictivo. Estas métricas de evaluación del rendimiento del modelo se verán en el apartado 3.2.5.

In document Aplicación de metodologías Machine Learning en la gestión de riesgo de crédito (página 47-50)