Detección de sucesos raros con machine learning

Texto completo

(1)Escuela Técnica Superior de Ingenieros Informáticos Universidad Politécnica de Madrid. detección de sucesos raros con machine learning. Trabajo Fin de Máster Máster en Inteligencia Artificial. AUTOR: TUTOR:. Ander Carreño López Alfonso Mateos Caballero. Julio, 2017.

(2) Ander Carreño López: Detección de Sucesos Raros con Machine Learning, 30/06/2017. Tesis Fin de Máster presentada dentro del Máster Universitario en Inteligencia Artificialen la Escuela Técnica Superior de Ingenieros Informáticos (UPM). Esta memoria está sujeta a la licencia Creative Commons de reconocimiento y carácter no . comercial.

(3) A mi familia y amigos..

(4)

(5) RESUMEN En los últimos años el análisis de fraude ha sido tema de interés entre los investigadores así como entre las administraciones públicas y empresas. El fraude fiscal, en concreto, la evasión del Impuesto sobre el Valor Añadido (IVA), hace que la Agencia Estatal de Administración Tributaria (AEAT) pierda millones de euros anualmente. Es por ello que el Departamento de Informática Tributaria (DIT) trabaja utilizando algoritmos sobre grafos así como técnicas de aprendizaje automático para intentar descubrir a aquellas personas, empresas o grupos que realizan actividades ilegales con el fin de defraudar. Afortunadamente, la relación entre la cantidad de entidades que defraudan y las que no, es muy baja. Por ello, en esta Tesis Fin de Máster se avanza un paso más en esta búsqueda introduciendo técnicas de detección de sucesos raros y one-class classification sobre las declaraciones de la renta reales recogidas cada año por la AEAT.. ABSTRACT In the last years, the analysis of fraud has been a subject of interest among researchers, as well as between public administrations and business. The fiscal fraud, specifically the evasion of TAX-es, makes the Spanish Tribute Administration Agency (AEAT) loses millions of euros annually. For this reason, the Tribute Computer Science Department works over Machine Learning algorithms and Graph Theory in order to discover people, companies or groups whose carry out illegal activities with the purpose of defraud. Fortunately, the relationship between the amount of defrauding entities is much lower than those whose are still legal. For that reason, in this thesis I step forward using novel techniques such as anomaly detection, one-class classification and balance of clases using the TAX declarations supplied by the AEAT.. v.

(6) AGRADECIMIENTOS En primer lugar agradecer al doctor Alfonso Mateos por su excelente colaboración y dedicación. Así mismo, el apoyo recibido por la Agencia Tributaria, en concreto la proporcionada por Ignacio González y Eloy Vicente ha sido de gran ayuda. También me gustaría agradecer encarecidamente el apoyo de Nerea Martín durante los buenos y malos momentos de este proyecto. Agradecer a mi hermano Asier por las recomendaciones y por el apoyo durante todo el trabajo. Así mismo, agradecer a mi padre Javier, a mi tío Fernando y mis abuelas Ma Luisa y Dolores por la ilusión y emoción que me han transmitido. Por último agradecer a la Escuela Técnica Superior de Ingenieros Informáticospor la posibilidad de realizar este proyecto, a la Agencia Tributaria, al Departamento de Informática Tributaria y a la Organización Nacional de Investigación contra el Fraude.. vi.

(7) ÍNDICE GENERAL. I 1. 2. Capítulos. 1. 3 introducción 1.1 Problema abordado 3 1.2 Motivación 3 1.3 Propósito 4 1.4 Razones de la elección del TFM 1.5 Estructura del documento 5. 4. el fraude 7 2.1 El fraude y sus tipos 7 2.2 Medidas contra el fraude 10 2.2.1 Detección del fraude basado en anomalías 12 2.2.2 Retos y problemas de la detección del fraude 13 2.2.3 Resultados de técnicas específicas contra el fraude en casos reales. 3. paradigmas de aprendizaje automático 17 3.1 Aprendiendo de los datos 17 3.1.1 Aprendizaje supervisado 17 3.1.2 Aprendizaje no supervisado 18 3.1.3 Aprendizaje semi-supervisado 18 3.1.4 One-class classification 18. 4. algoritmos de clasificación 21 4.1 Aprendizaje supervisado 21 4.1.1 Regresión Logística 21 4.1.2 Árboles de decisión (C4.5) 21 4.1.3 Random forest 22 4.1.4 Máquinas de soporte vectorial 23 4.1.5 Naïve Bayes 24 4.1.6 K-vecinos más cercanos 25 4.2 One-class classification 26 4.2.1 SVM One Class Classification 26 4.2.2 Isolation Forest 26 4.2.3 Mixturas de modelos gaussianos 27 4.2.4 KNN para detección de anomalías 28. 5. experimentación 31 5.1 Conjuntos de datos 31 5.2 Método de experimentación. 14. 33. vii.

(8) índice general. viii. 5.3. 5.4. 6. II. 5.2.1 Stratified k-fold cross validation 35 5.2.2 Train and Test 35 Resultados de la experimentación sobre el conjunto de datos Mammo36 graphy 5.3.1 Regresión Logística 36 5.3.2 Árbol de decisión 37 5.3.3 Random Forest 38 5.3.4 Máquina de soporte vectorial 39 5.3.5 Naïve Bayes 40 5.3.6 K - Nearest Neighbors 41 5.3.7 Isolation Forest 42 5.3.8 SVM One Class 43 5.3.9 Gaussian Mixture Models 44 5.3.10 DBScan 45 5.3.11 Comparativa de técnicas 47 Resultados de la experimentación sobre el conjunto de datos AEAT 49 5.4.1 Regresión Logística 49 5.4.2 Árbol de decisión 50 5.4.3 Random Forest 51 5.4.4 Máquina de soporte vectorial 52 5.4.5 Naïve Bayes 53 5.4.6 K - Nearest Neighbors 54 5.4.7 Isolation Forest 55 5.4.8 SVM One Class 56 5.4.9 Gaussian Mixture Models 57 5.4.10 DBScan 58 5.4.11 Comparativa de técnicas 60 5.4.12 Resultados SMOTE 61 5.4.13 Ganancia en información de las variables 62. conclusiones y trabajo futuro 6.1 Conclusiones 65 6.2 Trabajo futuro 66. 65. Apéndices. 67. a extensiones de tablas o figuras 69 a.1 El fraude: Resultados reales recogidos del estado del arte b. gráficos de la experimentación 73 b.1 Experimentación sobre mammography dataset b.2 Experimentación sobre AEAT dataset 75. bibliografía. 79. 73. 69.

(9) ÍNDICE DE FIGURAS Figura 1 Figura 2 Figura 3 Figura 4 Figura 5 Figura 6 Figura 7 Figura 8 Figura 9 Figura 10 Figura 11 Figura 12 Figura 13 Figura 14 Figura 15 Figura 16 Figura 17 Figura 18 Figura 19 Figura 20 Figura 21 Figura 22 Figura 23 Figura 24 Figura 25 Figura 26 Figura 27 Figura 28 Figura 29 Figura 30 Figura 31. Esquema de las áreas en las que actúa el fraude. 8 Triángulo del fraude. Factores por los que se da el fraude. 10 Evolución temporal de la investigación contra el fraude. 12 Resultados de diferentes técnicas en estudios del estado del arte. 15 Ejemplo de clasificador en modelos One-Class. 19 Esquema resumen de los diferentes paradigmas de Machine Lear20 ning. Ejemplo de árbol de decisión. 22 Frontera de decisión de random forest. 23 Diferentes tipos de kernel en SVM. 24 Ejemplo de clasificador Naïve Bayes. 25 Ejemplo del algoritmo KNN con 4 vecinos. 25 Ejemplo gráfico de funcionamiento de SVM One Class 27 Ejemplo del algoritmo Isolation Forest. 28 Ejemplo de GMM para la detección de anomalías. 28 Ejemplo de KNN para detección de casos anómalos. 29 Ejemplo de stratified 5-fold cross validation. 35 Ejemplo de técnica train-test. 36 Curvas ROC de los 10-stratified kfold CV. Mammography. Regresión logística. 37 Curvas ROC de los 10-stratified kfold CV. Mammography. Decision Tree. 38 Curvas ROC de los 10-stratified kfold CV. mammography. Random Forest. 39 Curvas ROC de los 10-stratified kfold CV. Mammography. SVM. 40 Curvas ROC de los 10-stratified kfold CV. Mammography. Naïve Bayes. 41 Curvas ROC de los 10-stratified kfold CV. Mammography. kNN. 42 Curva ROC. Mammography. Isolation forest. 43 Curva ROC. Mammography. SVM one class. 44 Curva ROC. Mammography. GMM. 45 Perspectivas de los clusters generados por DBScan. Mammography 46 Comparación de algoritmos. Mammography. 47 Comparación de todas las figuras de mérito de los clasificadores 48 sobre mammography. Curvas ROC de los 10-stratified kfold CV. AEAT. Regresión logística. 50 Curvas ROC de los 10-stratified kfold CV. AEAT. Árbol de decisión. 51. ix.

(10) x. Índice de figuras Figura 32 Figura 33 Figura 34 Figura 35 Figura 36 Figura 37 Figura 38 Figura 39 Figura 40 Figura 41 Figura 42 Figura 43 Figura 44 Figura 45 Figura 46 Figura 47 Figura 48 Figura 49 Figura 50 Figura 51 Figura 52 Figura 53 Figura 54 Figura 55. Curvas ROC de los 10-stratified kfold CV. AEAT. Random forest. 52 Curvas ROC de los 10-stratified kfold CV. AEAT. SVM. 53 Curvas ROC de los 10-stratified kfold CV. AEAT. Naïve Bayes. 54 Curvas ROC de los 10-stratified kfold CV. AEAT. KNN. 55 Curva ROC. AEAT. Isolation forest. 56 Curva ROC. AEAT. SVMOneClass. 57 Curva ROC. AEAT. GMM. 58 Comparación de algoritmos. AEAT. 60 Comparación de algoritmos. AEAT. 61 Ganancia en información de las variables respecto de la clase. 63 73 Accuracy de los clasificadores sobre mammography. 73 F-Measure de los clasificadores sobre mammography. 74 Sensibility de los clasificadores sobre mammography. 74 FPR de los clasificadores sobre mammography. 74 Specificity de los clasificadores sobre mammography. Precision de los clasificadores sobre mammography. 75 AUC de los clasificadores sobre mammography. 75 Accuracy de los clasificadores sobre AEAT. 75 F-Measure de los clasificadores sobre AEAT. 76 Sensibility de los clasificadores sobre AEAT. 76 FPR de los clasificadores sobre AEAT. 76 Specificity de los clasificadores sobre AEAT. 76 Precision de los clasificadores sobre AEAT. 77 AUC de los clasificadores sobre AEAT. 77.

(11) Í N D I C E D E TA B L A S Tabla 1 Tabla 2 Tabla 3 Tabla 4 Tabla 5 Tabla 6 Tabla 7 Tabla 8 Tabla 9 Tabla 10 Tabla 11 Tabla 12 Tabla 13 Tabla 14 Tabla 15 Tabla 16 Tabla 17 Tabla 18 Tabla 19 Tabla 20 Tabla 21 Tabla 22 Tabla 23 Tabla 24 Tabla 25 Tabla 26 Tabla 27 Tabla 28 Tabla 29 Tabla 30 Tabla 31. Tipos de fraude. 8 Tipos de fraude (continuación). 9 Estudio de pérdidas a causa del fraude por IC3. 10 Resumen de técnicas y aproximaciones de lucha contra el fraude en el estado del arte. 11 Descripción de variables del conjunto de datos proporcionado por la AEAT. 32 Resumen de los conjuntos de datos utilizados. 33 Matriz de confusión de la regresión logística sobre mammography. 36 Matriz de confusión del árbol de decisión sobre mammography. 37 Matriz de confusión del random forest sobre mammography. 38 Matriz de confusión del SVM sobre mammography. 39 Matriz de confusión del naïve Bayes sobre mammography. 40 Matriz de confusión del kNN sobre mammography. 41 Matriz de confusión del isolation forest sobre mammography. 42 Matriz de confusión del SVM one class sobre mammography. 43 Matriz de confusión del GMM sobre mammography. 44 Comparación de técnicas de aprendizaje sobre mammography 47 Matriz de confusión de la regresión logística sobre AEAT. 49 Matriz de confusión del árbol de decisión sobre AEAT. 50 Matriz de confusión del random forest sobre AEAT. 51 Matriz de confusión del SVM sobre AEAT. 52 Matriz de confusión del naïve Bayes sobre AEAT. 53 Matriz de confusión del KNN sobre AEAT. 54 Matriz de confusión del isolation forest sobre AEAT. 55 Matriz de confusión del SVM one class sobre AEAT. 56 Matriz de confusión del GMM sobre AEAT. 57 Comparación de técnicas de aprendizaje sobre AEAT. 60 Comparación de técnicas de aprendizaje sobre AEAT utilizando SMOTE. 62 Ganancia en información de las variables respecto de la clase. 63 Tabla de resultados de diferentes técnicas en estudios del estado del arte. 70 Tabla de resultados de diferentes técnicas en estudios del estado del arte. (Continuación) 71 Tabla de resultados de diferentes técnicas en estudios del estado del arte. (Continuación) 72. xi.

(12)

(13) Parte I. Capítulos. 1.

(14)

(15) 1. INTRODUCCIÓN. En este capítulo se introduce la tesis fin de máster realizada por Ander Carreño López titulada "Detección de Sucesos Raros con Machine Learning".. 1.1. problema abordado. El objetivo principal del proyecto es encontrar tramas que defrauden al fisco, concretamente, aquellas que defraudan al declarar el Impuesto sobre el Valor Añadido (IVA). En concreto, se centra en detectar a aquellas entidades denominadas truchas. Afortunadamente, los casos en los que una entidad es fraudulenta son muy inferiores a los casos que cumplen con la actividad legal. Por ello, se habla de sucesos raros (rare events). Cabe destacar que este proyecto se basa en dos módulos principales, en una primera fase, el programa detectará mediante técnicas de minería de datos y aprendizaje automático la empresa potencialmente fraudulenta. A continuación, mediante teoría de grafos, se descubrirá la trama completa. Es importante decir que en este documento únicamente se tratará la primera fase. El proyecto se lleva a cabo utilizando el lenguaje de programación Python y la librería esencial scikit-learn. Para ello, se tienen los datos proporcionados por la Agencia Estatal de Administración Tributaria (AEAT).. 1.2. motivación. El aprendizaje automático es uno de los campos de la Inteligencia Artificial con mayor actividad científica en los últimos años. Es por ello que la utilización de este tipo de técnicas sobre casos reales, como es el fraude fiscal, hace que este sea un proyecto muy ambicioso y con grandes expectativas. El fraude hace que de media, las entidades pierdan un 5 % de beneficio anualmente (Baesens, Veronique Van Vlasselaer y Verbeke, 2015). Es por ello que hacer hincapié en la detección es una tarea muy importante al igual que compleja. Cabe destacar que gracias a los datos proporcionados por la AEAT, este proyecto se realiza sobre situaciones reales, partiendo de declaraciones fiscales entre los años 2010 y 2015.. 3.

(16) 4. introducción. 1.3. propósito. El propósito de este proyecto consiste en utilizar técnicas noveles en el estado del arte para detectar el fraude fiscal. Además, cabe desatacar que estas técnicas no han sido aplicadas sobre este campo en la AEAT por lo que supone una aportación novedosa. Para ello, se parte de técnicas de aprendizaje supervisado, no-supervisado y semi-supervisado para establecer un punto de partida. A continuación, se hace uso de técnicas relacionadas con el campo de detección de anomalías, one-class classification o novelty detection. Los algoritmos utilizados como punto de partida son los siguientes: K-Nearest Neighbours (Silverman y Jones, 1951), Decision Tree (Salzberg, 1994), Random Forest (Breiman, 2001), Support Vector Machine (Vladimir Vapnik, 2013; V. N. Vapnik y Vlamimir Vapnik, 1998; Vladimir Vapnik, 1998), Naïve Bayes (Minsky, 1961), Logistic Regression (Freedman, 2009). Para este proyecto además se incluye el paquete externo Scikit-learn (Pedregosa et al., 2011) que implementa lo necesario para el aprendizaje de los clasificadores nombrados anteriormente. Para ilustrar su correcto funcionamiento, se han tenido en cuenta medidas propias del aprendizaje automático, como son accuracy, False Possitive Rate (FPR), True Possitive Rate (TPR), F-Measure, Precision y el área bajo la curva ROC; además de la matriz de confusión.. 1.4. razones de la elección del tfm. La elección de este proyecto ha sido motivada por una serie de razones que se describen a continuación. • Estrecha relación con los proyectos personales. Dado que me gustaría continuar mi formación académica en el ámbito de la inteligencia artificial, creo que es conveniente introducirme en esta materia. Además, en vistas de que me gustaría empezar el doctorado el año que viene sobre las técnicas de detección de anomalías, este proyecto me parece una magnífica oportunidad. • Las herramientas y los lenguajes utilizados para el desarrollo de este proyecto son libres y multiplataforma. Una de las premisas más importantes a la hora de desarrollar algo es que sea lo más accesible posible para cualquier tipo de usuario. Por eso, utilizar herramientas que posibiliten esta capacidad ha sido decisivo. • Trabajar en un proyecto real. Crear programa que sea útil y que se utilice el trabajo realizado en el ámbito académico es una de las causas principales por las que se ha realizado este trabajo. Unir el ámbito académico con el empresarial es algo que se ha valorado positivamente. • La afinidad con los directores de proyecto ha sido clave para elegir esta tesis fin de máster..

(17) 1.5 estructura del documento. 1.5. estructura del documento. Este documento está formado por 5 capítulos. El primero de ellos ofrece una introducción sobre el problema a tratar, junto con los objetivos del proyecto. Además, se explica la motivación, el propósito y las razones de la elección de esta tesis. En el Capítulo 2 se dan extensas explicaciones sobre el fraude. Asimismo, se muestran los avances realizados en el estado del arte así como una comparativa de resultados. Por último, el capítulo incluye una descripción detallada sobre el fraude carrousel; fraude que es investigado en este documento. A continuación, en el Capítulo 3, se expone la explicación detallada de cada uno de los paradigmas de aprendizaje automático que tienen relación con el proyecto tratando de dejar claro el enfoque de las técnicas utilizadas. Después, en el Capítulo 4 se describen los algoritmos que se han utilizado en esta tesis de manera formal. Posteriormente en el Capítulo 5 se exponen los resultados obtenidos por los algoritmos y una discusión e interpretación sobre los mismos. Para concluir, en el Capítulo 6 se exponen tanto las conclusiones como el trabajo futuro junto a una reflexión personal.. 5.

(18)

(19) 2. EL FRAUDE. En este capítulo se explican las principales características del fraude, además, se hace especial hincapié en el fraude en el Impuesto sobre el Valor Añadido (IVA).. 2.1. el fraude y sus tipos. Una de las premisas fundamentales para combatir el fraude es conocer y definir bien el objetivo. Para esto, la Real Academia de la Lengua Española (RAE) define el fraude como: Acción contraria a la verdad y a la rectitud, que perjudica a la persona contra quien se comete. No obstante, esta definición no alberga todas las acepciones que comúnmente se conocen como acto fraudulento. Por ello, el Oxford Dictionary define el fraude con la siguiente expresión: Wrongful or criminal deception intended to result in financial or personal gain. En esta ocasión, la definición incluye el término financiero el cual se acerca al tópico de este proyecto. Sin embargo, una de las mejores definiciones la propuso (Véronique Van Vlasselaer et al., 2015) y es la que se muestra a continuación: Fraud is an uncommon, well-considered, imperceptibly concealed, time-evolving and often carefully organized crime which appears in many types and forms. Esta definición resalta seis características que son necesarias para crear un sistema de reconocimiento del fraude. La primera de las características a resaltar es que el fraude es poco común o raro, por esto, en este proyecto se utilizan técnicas de aprendizaje automático en búsqueda de sucesos raros. Esta característica está muy relacionada con que el fraude está imperceptiblemente oculto. Esto se debe a que es una gran minoría. Además, otra característica como que está bien considerada y planeada hace que la tarea se vuelva más difícil. Por otro lado, las personas que realizan el acto de defraudar, es decir, los defraudadores, acostumbran a refinar sus métodos de forma que sigan sin ser detectados a medida que las técnicas de detección avanzan, es por ello que estas evolucionan con el tiempo. Otra de las características es que el fraude está cuidadosamente organizado, significando que los defraudadores a menudo no defraudan de manera solitaria, es decir, suelen ser un conjunto de individuos los que realizan el fraude y no solo una persona. Por último, la última idea que describe Van Vlasselaer es que el fraude puede. 7.

(20) 8. el fraude darse en diferentes tipos y formas. Por ello, en las Tablas 1 y 2 se muestran los diferentes tipos de fraudes que existen según (Baesens, Veronique Van Vlasselaer y Verbeke, 2015). Además, en la Figura 1 se puede ver el resumen de áreas sobre las que afecta el fraude.. Figura 1: Esquema de las áreas en las que actúa el fraude.. Tabla 1: Tipos de fraude. Fraude de tarjetas de crédito. Defraudar al seguro. Corrupción. Falsificación. Fraude en la garantía de un producto. En este tipo de fraude existe un uso no autorizado de un tercero sobre la tarjeta de crédito personal de otro individuo. Los subtipos de este fraude son: la falsificación de tarjetas, el uso de tarjetas de crédito perdidas o robadas o el uso de tarjetas obtenidas ilegalmente a través del correo. Este tipo de fraude hace referencia a la actividad fraudulenta por parte tanto del comprador como del vendedor de un seguro. Por parte del vendedor, estos fraudes se deben a la venta de pólizas a entidades ficticias, no aplicar las ventajas establecidas al cliente o la disolución o revocación de pólizas para poder obtener las comisiones de nuevo. El tipo de fraude referente al comprador incluye la petición de un valor mucho mayor al valor de los bienes que cubre el seguro, falsificación de historiales médicos, fingir el secuestro o el asesinato, o fingir un daño como puede ser del coche o la vivienda. La corrupción es el uso indebido de poderes confiados, bien sea en casos de herencia, educación, matrimonio, elecciones, u otros, para beneficio privado o personal. Este fraude se define como el intento de incorporar una falsificación como un producto genuino. La falsificación comúnmente se refiere a objetos de alto valor, tarjetas de crédito, tarjetas de identidad o al dinero físico etc. La garantía de un producto es una protección que el vendedor o el creador dan sobre el funcionamiento y la condición del item que están vendiendo. Esta protección hace alusión al posible cambio, devolución o reparación del mismo, principalmente cuando el objeto no se encuentra en las condiciones esperadas. Cuando se hace de forma intencionada algún daño al producto para exigir esta garantía al vendedor o a la marca, se considera fraude..

(21) 2.1 el fraude y sus tipos Tabla 2: Tipos de fraude (continuación). Fraude sanitario. Fraude en las telecomunicaciones. Lavado de dinero. Fraude del click. Robo de identidad. Evasión de impuestos. Plagio. Este fraude hace alusión a la salud. El individuo finge tener un malestar o un problema de salud para exigir al seguro un beneficio. Estos beneficios pueden ser: la obtención de pastillas o recetas para después venderlas en el mercado negro, beneficiar a un tercero que debiera practicar al paciente un tratamiento por el malestar que sufre, entre otros. Este tipo se basa en utilizar servicios de telecomunicaciones para actividades fraudulentas. Un tipo de fraude llamativo es el de duplicar el número de telefono de una víctima para hacer uso del mismo, suplantando este número. Este puede que sea uno de los más conocidos. Es el proceso de introducir los beneficios obtenidos por actividades ilegales y hacer que parezcan legales. Esto hace que los criminales puedan transformar sus ganancias en fondos legítimos. Es un problema mundial que se estima que supera los 300 mil millones de dólares en todo el mundo. Es el acto que ocurre cuando el beneficiaro por cada click en un anuncio hace click repetidas veces para autoincrementar sus ganancias. Esta actividad puede hacerla el mismo beneficiario del anuncio, o un tercero, así como máquinas preparadas para esta actividad que lo hacen repetidas veces. Es el crimen de obtener la información personal o financiera de otra persona con el fin de suplantar el nombre o la identidad de la misma con el propósito de hacer transacciones o compras, entre otros. En esta categoría también se contemplan los robos de bases de datos con información personal de los usuarios, por ejemplo, de una página web. La evasión de impuestos es una actividad ilegal que supone no pagar los impuestos que se deben. En el ámbito empresarial, la evasión fiscal ocurre tanto con impuestos sobre compras y ventas como en el pago de los salarios de los empleados, así como los impuestos regulados por el estado, comunidad autónoma y provincia. El plagio está definido como el robo o paso de ideas o palabras como si fueran de uno mismo, sin hacer referencia al autor de las mismas.. En el fondo, las actividades fraudulentas tienen intención de beneficiar al que las realiza. Las causas o el móvil que hace que una persona llegue a realizar estas actividades se puede ver en la Figura 2. Como se puede observar, este tipo de actividades se apoya en 3 características fundamentales. • Presión. El individuo dispuesto a hacer fraude lo realiza normalmente porque se siente presionado bien sea por causas sociales, financieras o de cualquier naturaleza.. 9.

(22) 10. el fraude. Figura 2: Triángulo del fraude. Factores por los que se da el fraude.. • Oportunidad. En ocasiones no es posible defraudar si no se tiene la oportunidad. Por esto, tener acceso a recursos y servicios que posibiliten este tipo de actos es fundamental. • Racionalidad. Es una situación en la cual los autores de este tipo de actividades piensan que hacen lo correcto. Es decir, los defraudadores creen que está bien el acto delictivo que están haciendo y que aprovecharse de, por ejemplo, vacíos legales con el fin de obtener beneficio es lo correcto. Para poder ver el alcance de este problema, (Abdallah, Maarof y Zainal, 2016) expone la cantidad de dinero que se ha perdido con actividades fraudulentas. El estudio que se muestra en la Tabla 3 fue redactado por Internet Crime Complaint Centre (IC3). Esta organización es la encargada de investigar y detectar el crimen que se realiza a través de Internet. Tabla 3: Estudio de pérdidas a causa del fraude por IC3.. Año 2011 2012 2013 2014. 2.2. Quejas recibidas 314,246 289874 262813 269422. Pérdidas en Dolares 485253871 Millones 581441110 Millones 781841611 Millones 800492073 Millones. medidas contra el fraude. Dado que es importante hacer frente al avance de este tipo de actividades, han existido diferentes técnicas para afrontar el problema. Por ello, en esta sección se exponen las diferentes aproximaciones del estado del arte..

(23) 2.2 medidas contra el fraude En cuanto a qué se puede hacer en esta situación, hay varias posibilidades. Una de ellas es la prevención contra el fraude, la cual intenta que no lleguen a ocurrir estos sucesos. Sin embargo, existe otra vertiente que se caracteriza por detectar los casos de fraude una vez ocurridos conocida como detección del fraude. Como se puede ver en la Tabla 4 se han realizado estudios desde el año 2002 y todavía hoy sigue siendo un tema de gran interés en la comunidad científica. Además, las técnicas, a medida que avanza el tiempo, tienden a pertenecer más a la inteligencia artificial, como son las redes de neuronas, el aprendizaje automático o la minería de datos. No obstante, también cabe destacar que los métodos estadísticos siguen presentes en esta tarea y que por tanto, este problema atrae a investigadores de diferentes ramas del conocimiento, como pueden ser economistas, científicos de datos o matemáticos entre otros. Tabla 4: Resumen de técnicas y aproximaciones de lucha contra el fraude en el estado del arte. Referencia (Bolton y Hand, 2002; Kou et al., 2004; Phua et al., 2010; Allan y Zhan, 2010; Pejic-Bach, 2010). Técnica Sistemas inteligentes: redes neuronales, inteligencia difusa, algoritmos genéticos, programación genética, estrategias evolutivas y optimización por enjambres de partículas.. (Behdad et al., 2012). Técnicas inspiradas en la naturaleza.. (Li et al., 2008; Travaille, 2011; Q. Liu y Vasarhelyi, 2013) (Rebahi et al., 2011). Ténicas de minería de datos sobre series espaciales o temporales.. (S. Wang, 2010; Richhariya y P. K. Singh, 2012; Ngai et al., 2011; Lookman y Balasubramanian, 2013) (Delamaire, Abdou y Pointon, 2009; Chaudhary, J. Yadav y Mallick, 2012; Zareapoor, Seeja y Alam, 2012; A. Singh, Narayan et al., 2012; Tripathi y Pavaskar, 2012; Sethi y Gera, 2014). Área del Fraude Telecomunicaciones, seguros, revisión de cuentas, atención médica, transacciones de tarjetas de crédito, comercio online, apuestas y verificación de identidad. Email, spam, phising e intrusión en redes. Seguros médicos.. Ténicas basadas en reglas y técnicas de aprendizaje supervisado y no supervisado. Minería de datos y estadística.. Llamadas sobre IP (VoIP).. Tipos de fraude, aproximaciones de ténicas de fraude, técnicas de detección del fraude y sus tipos; y retos o dificultades.. Fraude de tarjetas de crédito, fraude en las telecomunicaciones, fraude en el seguro médico, fraude en el seguro de automóvil y fraude en apuestas por internet.. Detección del fraude financiero, seguro de hogar, seguros de motor y seguros médicos.. Si se observa de forma específica las técnicas que se utilizan sobre los tipos de fraude diferentes, se puede ver que no todas las técnicas comentadas anteriormente son aplica-. 11.

(24) 12. el fraude das a todos los tipos de fraude, esto se debe en mayor medida a las características o las causas por las que se da este suceso. Por ejemplo, en los correos electrónicos, se utilizan técnicas inspiradas en la naturaleza mientras que el problema de los seguros de salud ha sido abordado con técnicas que tienen en cuenta el factor tiempo. De forma gráfica, en la Figura 3 se pueden ver los avances en el ámbito de la investigación contra el fraude por los distintos investigadores.. Figura 3: Evolución temporal de la investigación contra el fraude.. Dado que en este proyecto se tienen en cuenta las técnicas de aprendizaje automático, se hace especial hincapié en este tipo de aproximaciones del estado del arte. Por ello, en (Abdallah, Maarof y Zainal, 2016), se exponen las ventajas del uso de este tipo de técnicas. En primer lugar, los patrones del fraude son extraídos de forma automática. Además, se puede especificar un umbral para detectar los sucesos fraudulentos, de manera que es posible investigar casos más o menos sospechosos. Por último, es posible detectar nuevos tipos de fraude. En cuanto a las técnicas de minería de datos, se pueden obtener seis categorías, siendo: clasificación, clustering, regresión, detección de datos atípicos, visualización y predicción. 2.2.1. Detección del fraude basado en anomalías. Esta técnica es utilizada bajo el marco de detección del fraude. El método se basa en obtener patrones de comportamiento para cada individuo. Si alguno de estos comportamientos se desvía de un comportamiento normal, es revisado (Jyothsna, V. R. Prasad y K. M. Prasad, 2011). Una de las grandes ventajas que tiene esta técnica de detección es que se pueden detectar nuevos tipos de fraude que no se han dado con anterioridad. Este tipo de detección, se puede subcategorizar en los siguientes tipos:.

(25) 2.2 medidas contra el fraude • Detección de anomalías supervisadas. Bajo este entorno, las instancias están etiquetadas. No obstante, es difícil obtener este tipo de conjuntos de datos. Además, otra dificultad es que en muchas ocasiones, la clasificación binaria (anómalo o no) resulta difícil porque no es posible categorizar de forma tan exacta los individuos. • Detección de anomalías no supervisadas. Este caso es el contrario al descrito anteriormente; las instancias no están clasificadas. Este entorno aunque parezca complicado es el más usual en la realidad ya que describe una situación en la que se supone que existen actividades fraudulentas pero que no se sabe quien las puede estar realizando ni quien no las realiza. Por ello, estas técnicas tratan de agrupar las instancias en diferentes grupos para poder representar comportamientos similares. • Detección de anomalías semi-supervisadas. En este campo, se intenta solucionar el problema expuesto anteriormente. Dado que las instancias en ocasiones no pueden pertenecer de forma exacta a una u otra clase, en este entorno mediante técnicas probabilísticas o haciendo uso de clasificadores específicos, se solventa este problema (Zhu, Y. Wang y Wu, 2011; Akhilomen, 2013). 2.2.2. Retos y problemas de la detección del fraude. La detección de el fraude es una tarea muy complicada dado que se apoya en un dominio muy complejo. Se pueden encontrar sistemas que apenas fallan en la detección de este tipo de comportamiento, que tienen una muy baja tasa de accuracy o que ofrecen una gran tasa de falsos positivos. Esto se debe a que el fraude es un fenómeno que esta en constante evolución y por ello, es mutable. En consecuencia, el sistema inteligente de detección del fraude tiene que hacer frente al concepto de mutabilidad del tipo de técnicas que se usan para actividades fraudulentas, este fonómeno también es conocido como asimetría de los datos; el desbalanceo que existe en la mayoría de problemas fraudulentos, la gran cantidad de datos que existen en estos entornos y la necesidad de crear un sistema de detección en tiempo real. Para afrontar todos estas dificultades los investigadores han utilizado diferentes soluciones que se exponen a continuación: • Asimetría de los datos. El principal problema que existe es que en el momento de la predicción, puede que la etiqueta no pertenezca a ninguna etiqueta del conjunto de datos de entrenamiento porque el escenario ha mutado. Para solventar este problema, se han utilizado algoritmos que tienen en cuenta este tipo de mutabilidad. De esta forma, se utilizan algoritmos de aprendizaje incremental (Bolton y Hand, 2002). • Desbalanceo de los datos. Este problema subyace de la premisa de es más común estar bajo la legalidad que hacer actividades fraudulentas. Por ello, dados a observar un experimento, es más común que la mayoría de los sucesos pertenezcan al marco legal que al fraudulento; lo que incurre en una gran cantidad de datos de clase legal y muy pocos de clase fraudulenta. Para esto, se utilizan algoritmos que modelan el comportamiento como son el isolation forest (F. T. Liu, Ting y Zhou, 2008),. 13.

(26) 14. el fraude o comúnmente, se han utilizado algoritmos que sean sensibles al coste intentando eliminar el overfitting propio de los datos. Otro punto de vista para lidiar con este conflicto es tratar de eliminar este desbalanceo. Para ello, se utilizan técnicas de remuestreo como pueden ser el oversampling o el undersampling, siendo la creación de forma sintética instancias de la clase minoritaria o la eliminación o desestimación de las instancias de la clase mayoritária hasta conseguir el ratio deseado, respectivamente.. • Gran cantidad de datos. La gran cantidad de datos puede hacer que nuestro sistema no pueda procesar los mismos. Por ello, existen técnicas de reducción tanto de variables como de instancias que pueden ayudar al procesamiento.. • Detección en tiempo real. Para que esto sea posible, el tiempo de respuesta del sistema inteligente debe ser muy alta en la parte de predicción, por ello, ciertos algoritmos quedan fuera para este tipo de tareas.. 2.2.3. Resultados de técnicas específicas contra el fraude en casos reales. Una vez que se tiene claro cuales han sido los avances en este ámbito, los principales retos y problemas con los que es necesario lidiar y las diferentes técnicas para solventarlos, es importante ver la aplicación de casos concretos y algoritmos específicos. Por ello, en esta sección se exponen los resultados más significativos del estado del arte (West y Bhattacharya, 2016).. Como se puede observar en la Figura 4, se ven los resultados de distintos algoritmos sobre el fraude de tarjetas de crédito y el fraude financiero. Cabe destacar que esta es una figura resumen y que los estudios originales se pueden consultar en las Tablas 29 y 30 situada en el Apéndice A..

(27) 2.2 medidas contra el fraude. Figura 4: Resultados de diferentes técnicas en estudios del estado del arte.. Un dato destacable es que los algoritmos de aprendizaje supervisado, tales como los árboles de decisión, las redes Bayesianas o las máquinas de vector soporte, consiguen muy buenos resultados. Además, las redes neuronales destacan por ser la que mejores figuras de mérito consigue, no obstante, dado que el razonamiento de clasificación de una red neuronal es difícil de obtener, en muchos ámbitos no es posible incorporar este tipo de modelos. Por último, destacar que cuando se mezclan todo tipo de técnicas, obteniendo métodos híbridos, se consiguen resultados realmente buenos. Esto quiere decir que en la lucha contra el fraude no solo es necesario utilizar unos algoritmos de clasificación sino que el conocimiento del dominio es muy importante. Por ello, técnicas basadas en grafos como en (Fernandez, 2017; Olszewski, 2014) son de especial interés.. 15.

(28)

(29) 3. PA R A D I G M A S D E A P R E N D I Z A J E A U TO M ÁT I C O. En este capítulo se describe el paradigma de one-class classification. Dado que la parte fundamental del proyecto referencia a este paradigma, se explicarán los diferentes métodos del estado del arte, haciendo especial hincapié en las técnicas implementadas.. 3.1. aprendiendo de los datos. La tarea de clasificar una instancia en base a un conjunto de características es una tarea que está siendo ampliamente investigada en la comunidad científica dada la gran cantidad de aplicaciones que tiene. Además, gracias al avance de la tecnología, hoy el acceso a los datos es mucho más sencillo y se puede obtener mayor cantidad de información. Para el correcto entendimiento de lo que se va a describir en las sucesivas páginas, se ofrece al lector una breve introducción sobre los paradigmas de clasificación supervisada, semi-supervisada y no supervisada así como una introducción más detallada al paradigma de la clasificación de detección de anomalías o one-class classification.. 3.1.1. Aprendizaje supervisado. Los sistemas de aprendizaje automático parten de conocimiento previo (conjunto de entrenamiento) para después poder predecir o asignar una etiqueta a casos nuevos. Es decir, el sistema de clasificación aprenderá de experiencias previas para poder después asignar una etiqueta a los sucesivos casos a analizar. Nótese que estos últimos no pueden haber sido analizados previamente por el clasificador. Por ello, en un sistema de clasificación se pueden diferenciar dos fases. La primera de ellas se conoce como la etapa de aprendizaje; esta es la encargada de aprender de los patrones o características de cada instancia. La segunda fase, conocida como test, es aquella en la cual el clasificador es puesto a prueba haciendo que clasifique otro conjunto de instancias de las cuales se conoce a priori la etiqueta correcta. De esta forma, se podrá conocer la calidad o el comportamiento del sistema. Formalmente, dado un conjunto de N instancias de entrenamiento de la forma {(x1 , y1 ), . . . , (xN , yN )} donde xi representa el vector de características correspondiente a la í-ésima instancia e yi el de etiquetas. El algoritmo de aprendizaje busca la función g : X → Y que para un conjunto de características x asigna una etiqueta y. Dada la naturaleza de la función, esta puede ser determinista o probabilística.. 17.

(30) 18. paradigmas de aprendizaje automático 3.1.2. Aprendizaje no supervisado. En el aprendizaje automático, el aprendizaje no supervisado o clustering se basa en el agrupamiento de instancias que tienen cierto parecido entre sí. Este proceso pretende extraer información relevante o conocimiento de los datos. No obstante, el concepto de parentesco tiene connotaciones diferentes y es por ello que existen diferentes técnicas de clustering (Estivill-Castro, 2002). El aprendizaje no supervisado es una técnica muy utilizada en diferentes áreas tales como la minería de datos, el aprendizaje automático, reconocimiento de patrones, biomedicina, entre otros. Es por ello que dado el carácter multidisciplinario, este área de la investigación está teniendo grandes aportaciones en los últimos años. Además, el acceso a bases de datos cada vez mayores. El concepto de cluster trata de maximizar la distancia entre los grupos de diferente parentesco y, a su vez, minimizar la distancia entre los elementos del mismo cluster. Además, un elemento no puede pertenecer a más de un grupo al mismo tiempo. La distancia con la que se mide el parentesco es un término muy relevante en este tipo de análisis. Formalmente, partiendo de la misma definición que la de aprendizaje supervisado, la función de clasificación hace el papel de asignar una etiqueta a una instancia. No obstante, dado que no se conoce el conjunto de etiquetas posibles a priori, estas pueden ser creadas tanto dinámicamente como de forma estática dependiendo del algoritmo que se utilice. 3.1.3. Aprendizaje semi-supervisado. Este tipo de aprendizaje trata de un concepto intermedio entre los dos marcos explicados anteriormente. En esta ocasión, se parte de un conocimiento parcial sobre el conjunto de datos. Es decir, hay instancias de las cuales se conocen las clases a las que pertenecen, pero además, hay instancias de las cuales no se conoce cual es su etiqueta. Esto, aunque a priori pueda parecer una dificultad, es una ventaja ya que este conocimiento parcial es el que posibilita la asignación de las etiquetas desconocidas. 3.1.4. One-class classification. El concepto de One-class classification, suponiendo espacio de asignación de etiquetas es binario, trata de explicar que únicamente se parte de un conjunto de datos en el que todas las instancias pertenecen a una sola clase. Esto hace que el algoritmo de aprendizaje supervisado tenga grandes dificultades para poder asignar etiquetas no vistas dado que no ha podido aprender de este tipo de instancias. No obstante, se conoce que puede haber casos anómalos (anomaly detection) que pueden ocurrir y son estos los que se pretende que detecte el sistema clasificador. Para explicar mejor este tipo de situación, se pide imaginar una línea de fabricación de varillas de acero. Esta cinta tiene varios sensores que miden diferentes características del estado del producto en numerosos instantes de tiempo. La fábrica pretende descartar aquellas varillas que son defectuosas. En este ejemplo, la situación es que la gran cantidad de varillas que se fabrican son correctas, no obstante, el defecto en una vari-.

(31) 3.1 aprendiendo de los datos. Figura 5: Ejemplo de clasificador en modelos One-Class.. lla de acero puede ser que repercuta en el producto final y que sea incluso peligroso en algún momento. Por esto, la dificultad de no tener, o tener muy pocos casos en los que la varilla es defectuosa, hace que el sistema de clasificador esté muy sesgado hacia los casos correctos y que por tanto, no sea capaz de discernir correctamente entre una varilla correcta y una defectuosa. Se quiere destacar que pese a que en la literatura se han dado diferentes aproximaciones para el balanceo de las clases (Deepa y Punithavalli, 2011; J. Wang et al., 2006; Chawla, Lazarevic et al., 2003; Yen y Lee, 2009; He y Garcia, 2009), este marco de investigación no trata de balancear las observaciones ya que, como se ha indicado anteriormente, en muchas ocasiones no hay dos clases sino solo una. El funcionamiento de este tipo de algoritmos se basa en encontrar fronteras de decisión que aísle el conjunto de datos para que, en caso de encontrar una anomalía, esta se encuentre fuera de este espacio. Como se puede observar en la Figura 5, se ven las ejecuciones de 3 algoritmos sobre datos ficticios. Como se observa, cada uno de ellos ha creado diferentes fronteras de decisión que tratan de aislar las observaciones que son comunes y dejar fuera a aquellas anómalas 1 . Por último, es necesario explicar correctamente la diferencia semántica entre los distintos términos utilizados para referirse a este paradigma. Por ello, se enumeran las definiciones a continuación. De forma resumida se puede ver en la Figura 6. • Clasificación de sucesos raros: En este marco se asume que la clasificación es supervisada, es decir, se tienen etiquetas de ambas clases. Sin embargo, una de las dos (en caso binario) está claramente desbalanceada. • Detección de anomalías: Este término pertenece a la clasificación semi-supervisada, en esta, los clasificadores únicamente se pueden entrenar con aquel conjunto de datos cuya clase es conocida, comúnmente este suele ser el caso del que tenemos el mayor número de instancias. Cabe destacar que en esta categoría se encuentra también one-class classification. 1 En este caso, se conocen a priori cuales son anómalas y por ello se puede representar de esta forma.. 19.

(32) 20. paradigmas de aprendizaje automático. Figura 6: Esquema resumen de los diferentes paradigmas de Machine Learning.. • Detección de datos atípicos: En esta ocasión, se refiere a la clasificación no supervisada. Por tanto, es una clasificación en la que se busca encerrar aquel conjunto de datos que más instancias tiene y clasificar como atípica aquella instancia que no pertenezca a este conjunto..

(33) 4. ALGORITMOS DE CLASIFICACIÓN. En este capítulo, se detallan los algoritmos que se han utilizado en el proyecto. Explicando cada uno de ellos de manera teórica, los resultados y la experimentación corresponden al Capítulo 5. Cabe destacar que dado que no existe un clasificador que obtenga mejores resultados que otro, se han utilizado una gran variedad de ellos para buscar el que mejor se comporta.. 4.1. aprendizaje supervisado. Bajo este marco de aprendizaje, se han utilizado tanto algoritmos deterministas como probabilísticos. • Regresión logística (logistic regression). • Árboles de decisión. C4.5 (decision trees). • Selvas aleatorias (random forest). • Máquinas de soporte vectorial (support vector machines(SVM)). • Naïve Bayes. • K-vecinos más cercanos (K-nearest neighbors(KNN)). 4.1.1. Regresión Logística. El modelo de regresión logística (David R. Cox, 1958; David Roxbee Cox y Snell, 1989) trata de explicar con qué probabilidad ocurre un evento en base a unas variables predictoras o independientes (xi , i = 1, . . . , k). Para ello, estableciendo que el evento a predecir es binario, la probabilidad de cada evento viene dada por la Expresión 1. pi =. 4.1.2. 1 1 + e−(β0 +β1 x1 +...+βk xk ). (1). Árboles de decisión (C4.5). Los árboles de decisión (Quinlan, 1986; Rokach y Maimon, 2014) han sido ampliamente utilizados en las áreas de economía y análisis de decisiones. No obstante, también tienen un gran impacto en machine learning.. 21.

(34) 22. algoritmos de clasificación. Figura 7: Ejemplo de árbol de decisión.. El objetivo del árbol de decisión es generar un modelo que a partir de un conjunto de variables sea capaz de predecir un valor (clase) de salida. Para una mejor explicación, en la Figura 7 se muestra un ejemplo de un árbol de decisión en el que la salida es un valor categórico. Analizando los componentes del ejemplo, se puede ver que hay 3 tipos de nodos. En primer lugar, los rectángulos hacen referencia a la característica que se analiza en esa profundidad del árbol. Los nodos intermedios tales como Soleado, Nublado o Lluvioso representan los valores que toman las variables de las cuales están colgando. Por último, los nodos hoja representan la salida, es decir, la clasificación que ofrece el árbol de decisión. La forma en la que clasifica el modelo es muy intuitiva. Una vez aprendido el modelo, la nueva instancia a clasificar deberá cumplir los criterios de arriba a abajo hasta llegar a un nodo hoja, obteniendo una clasificación de la instancia. La forma en la que aprende el modelo de clasificación, siguiendo el algoritmo utilizado en este proyecto, es la del C4.5 (Quinlan, 2014). En la primera fase, se computan y se ordenan las ganancias en información (info-gain)1 de todas las variables respecto de la clase. A continuación, partiendo de la característica que mayor ganancia en información tiene, se ramifica el árbol hasta llegar a un nodo hoja; momento en el cual se acaba el proceso. 4.1.3. Random forest. Este sistema de clasificación random forest (Breiman, 2001) se considera un meta-clasificador dado que utiliza árboles de clasificación como clasificadores base. Este modelo sigue la técnica de bagging, este método utiliza una variedad de modelos inestables pero que por sí mismos son muy deterministas. Por esto, los árboles si crecen lo suficiente se ajustan perfectamente a los datos de entrenamiento lo que al promediarlos a posteriori ofrecen buenos resultados. La técnica en la que se construyen los clasificadores base es la siguiente. En primer lugar se selecciona un número de características de entre todas las posibles con las que 1 La ganancia en información representa la capacidad de discriminación que tiene esa variable sobre la clase que se está analizando..

(35) 4.1 aprendizaje supervisado. Figura 8: Frontera de decisión de random forest.. se construirá el clasificador. De igual forma, se seleccionan un número de instancias del conjunto de entrenamiento. Una vez aprendido el modelo, se testea con las instancias que no han sido seleccionadas en la etapa de entrenamiento. Este proceso se hace varias veces hasta que todas las instancias han sido seleccionadas como entrenamiento de alguno de los árboles base. Para clasificar, las instancias son clasificadas por cada uno de los clasificadores base. A continuación, se cuentan las salidas de cada uno de ellos para asignar aquella etiqueta que más votos ha obtenido. Visualmente, un clasificador random forest divide el espacio de características en recuadros siempre paralelos a los ejes, como se puede ver en la Figura 8. Por ello, una de las desventajas es esa. Además, este clasificador puede sobreajustarse a los datos cuando los datos no están claramente diferenciados, al igual que ocurre con los árboles de decisión (Segal, 2004). 4.1.4. Máquinas de soporte vectorial. Las máquinas de soporte vectorial (SVM) (Cortes y Vladimir Vapnik, 1995) tratan de dividir el espacio de características mediante hiperplanos de tal forma que estos hagan de frontera entre las clases, creando así tantos subespacios como etiquetas haya. El proceso para determinar éstas fronteras se basa en trasladar las instancias al espacio de características F y buscar el hiperplano que separe a éstas. Este cambio de espacio se realiza utilizando un kernel, pudiendo ser polinomial, esférico, lineal, entre otros. Formalmente, dado un conjunto de datos D = {(x1 , y1 ), . . . , (xn , yn )} donde xi ∈ Rd y yi ∈ {0, 1}, el hiperplano separador tiene la forma wT x + b = 0, donde w ∈ F y b ∈ R. Para que la frontera de decisión no esté sobreajustada (overfitted), se añaden variables de holgura ξ. Por tanto, el objetivo del algoritmo SVM es realizar la siguiente minimización. w2 ξi +C 2 n. mı́n. w,b,ξ. sujetoa :. i=1. T. yi (w φ(xi ) + b) 1 − ξi. ∀i = 1, . . . , n. ξi 0. ∀i = 1, . . . , n. (2). 23.

(36) 24. algoritmos de clasificación. Figura 9: Diferentes tipos de kernel en SVM.. donde C > 0 es una constante, suficientemente grande elegida por el usuario, que permite controlar en qué grado influye el término del coste de ejemplos no separables en la minimización de la norma, es decir, permitirá regular el compromiso entre el grado de sobreajuste del clasificador final y la proporción del número de ejemplos no separables. Así, un valor de C muy grande permitirá valores de ξ muy pequeños. En el límite (C → ∞) se estaría considerando el caso de ejemplos perfectamente separables (ξ → 0). Por contra, un valor de C muy pequeño permitiría valores de ξ muy grandes, es decir, se estaría admitiendo un número muy elevado de ejemplos mal clasificados. En el caso límite (C → 0), se permitirá que todos los ejemplos estén mal clasificados (ξ → ∞). Después, al trasladar los puntos de nuevo al espacio original, las fronteras de decisión pueden tomar distintas formas como se ve en la Figura 9. Para la clasificación, basta con determinar a que subespacio pertenece la instancia y asignarle la clase consecuentemente. Cabe destacar que el hiperplano separador trata de maximizar la distancia entre las instancias de diferente clase. Por otro lado, el hiperplano separador puede tomar diferentes formas, esto viene definido por la función kernel. Como se muestra en la Figura 9, las fronteras de decisión se ajustan de tal forma que crean una separación máxima entre ambas clases y estas pueden ser de diferente forma dependiendo del kernel utilizado. 4.1.5. Naïve Bayes. El clasificador Naïve Bayes (Minsky, 1961) pertenece a la rama de clasificadores probabilísticos dado que asignan una probabilidad de pertenencia a una clase en vez de una asignación determinista. Este algoritmo está fundamentado en el teorema de Bayes haciendo una fuerte asunción sobre la independencia condicional de las variables dada la clase. Es decir, este modelo asume que las variables son condicionalmente independientes entre sí dada la clase. Esto se puede observar gráficamente en la Figura 10. Pese a esta fuerte característica el clasificador obtiene buenos resultados y es un buen punto de partida. Además, dada su rapidez para aprender el modelo es ampliamente utilizado. Formalmente, el clasificador asigna aquella clase con mayor probabilidad a una instancia siguiendo la siguiente expresión: n ∗ c = arg máx P(C = c) P(Xi = xi |C = c) (3) c. i=1. Por otro lado, caben destacar dos problemas subyacentes de este modelo de clasificación. En primer lugar, (Minsky, 1961) demostró que las fronteras de decisión de este.

(37) 4.1 aprendizaje supervisado. Figura 10: Ejemplo de clasificador Naïve Bayes.. modelo con variables binarias son hiperplanos. Esto supone que el clasificador no es capaz de generar fronteras que se ajusten perfectamente al conjunto de datos y que es posible que no clasifique correctamente. En segundo lugar, (Domingos y Pazzani, 1997) determinaron que el clasificador está mal calibrado, es decir, no tiene un buen Brier score 2 (Brier, 1950).. 4.1.6. K-vecinos más cercanos. El K-NN (K-Nearest Neighbors) es un clasificador determinista que comúnmente se describe como un clasificador vago (lazy) dado que no se genera un modelo de clasificación a partir del conjunto de entrenamiento sino que la asignación se realiza de forma independiente para cada una de las instancias. El proceso de clasificación se basa en asignar la clase mayoritaria entre los k vecinos más cercanos a la instancia a clasificar. Como se puede ver en la Figura 11, la clasificación es dinámica y es realizada para cada una de las instancias calculando así las distancias. En el ejemplo, el algoritmo se basa en un 4-NN y por tanto, la clase asignada es la azul para dicha instancia.. Figura 11: Ejemplo del algoritmo KNN con 4 vecinos.. 2 El Brier Score determina el nivel de exactitud con el cual un clasificador probabilístico acierta al determinar una clase cuando estas son mutuamente excluyentes.. 25.

(38) 26. algoritmos de clasificación. 4.2. one-class classification. En este paradigma de aprendizaje, explicado en el Capítulo 3, se han utilizado los siguientes algoritmos. • SVM One Class Classification. • Isolation Forest. • KNN 4.2.1. SVM One Class Classification. Este algoritmo se basa en una máquina de soporte vectorial pero únicamente considera una de las clases. Para obtener la frontera de decisión existen dos vertientes. En el caso de (Schölkopf et al., 2000) se considera que la frontera de decisión en el espacio de características es un plano. De otro modo, siguiendo la teoría de (Tax y Duin, 2004), las fronteras pueden ser esferas en el espacio de características. Dado que en este proyecto se ha utilizado esta última versión, se explica formalmente a continuación. Dado un conjunto de datos D = {(x1 , y1 ), . . . , (xn , yn )} donde xi ∈ Rd y yi ∈ {0, 1}, sabiendo que la frontera de decisión es una esfera con centro a y radio R > 0, el problema de minimización resultante es el siguiente: mı́n R2 + C R,a. sujeto a:. n i=1 2. ξi. | xi − a R2 + ξi. ∀i = 1, . . . , n. ξi 0. ∀i = 1, . . . , n. (4). donde C > 0, que expresa la separación mínima entre la instancia y la frontera de decisión, es decir, la esfera. Tras resolver esta minimización con los multiplicadores de Lagrange (Vapnyarskii, 2001) αi , se puede comprobar si la instancia z pertenece al subespacio formado por la esfera o no. Para ello, podemos utilizar un kernel gaussiano para medir las distancias. Siendo: n − z − xi 2 2 z − x = −R2 /2 + CR αi exp (5) σ2 i=1. donde αi corresponde a los multiplicadores de Lagrange y CR representa el parámetro de control que da holgura a la frontera de decisión. El comportamiento de este algoritmo, se puede ver gráficamente en la Figura 12. 4.2.2. Isolation Forest. El isolation forest (F. T. Liu, Ting y Zhou, 2008) tiene una estrecha relación con el random forest. El objetivo de este es aislar las instancias mediante divisiones aleatorias del.

(39) 4.2 one-class classification. Figura 12: Ejemplo gráfico de funcionamiento de SVM One Class. espacio. Para esto, en primer lugar selecciona de forma aleatoria una característica. A continuación parte el dominio de esta variable también de forma aleatoria. Este proceso se realiza tantas veces como sea necesario hasta que la instancia queda aislada totalmente generando así un árbol. La lógica dice que sería más sencillo aislar los datos anómalos ya que serán datos más peculiares y por tanto, aislar estos se realizaría con menor número de separaciones. Por esta razón, el algoritmo calcula una puntuación de anomalía que mide cómo de rara es esta instancia. Para ello, cuenta el número de condiciones que se requieren para aislar esta instancia. Ésta es la puntuación con la que clasifica entre instancias anómalas y comunes. Este proceso se puede ver en la Figura 13. Como se observa, se han generado gran cantidad de árboles de decisión (isolation Trees (ITree)). Estos son los que determinan si es normal que una instancia se aísle en N condiciones. Por tanto, si como ocurre en el primer ITree, una instancia se aísla únicamente en una condición, esta es clasificada como atípica o anómala.. 4.2.3. Mixturas de modelos gaussianos. El modelo de mixturas gaussianas (Gaussian Mixture Models (GMM)) puede representar cualquier escenario si una cantidad de modelos gaussianos son utilizados. Por esto, si se entiende el problema de la clasificación de sucesos raros como eventos que ocurren con una probabilidad muy baja. Se puede pensar en modelar este escenario con una mixtura de modelos gaussianos que, siendo aprendidos por los casos comunes, den una probabilidad muy baja a los sucesos anómalos. Por ello, como se ve en la Figura 14, la probabilidad que tienen los sucesos normales es muy superior a los sucesos anómalos. Sin embargo, la dificultad de ajustar el modelo viene en determinar la cantidad de mixturas de modelos gaussianos necesarios. 27.

(40) 28. algoritmos de clasificación. Figura 13: Ejemplo del algoritmo Isolation Forest.. para modelizar el problema. Además, esta complejidad se ve agravada a medida que la dimensión de las características aumenta.. Figura 14: Ejemplo de GMM para la detección de anomalías.. 4.2.4. KNN para detección de anomalías. Este proceso tiene una estrecha relación con el K-NN explicado anteriormente. Sin embargo, dado que el problema pertenece a la clasificación no supervisada, el proceso se asemeja más a crear clusters3 . Se puede imaginar que las instancias normales tendrán una mayor similitud, y por tanto, cercanía que aquellas que son anómalas. Por ello, como se puede observar en la Figura 15, se disciernen dos clusters en los que un conjunto de instancias está claramente diferenciado del conjunto normal. Este tipo de métodos pueden ser tanto por distancias, como el algoritmo K-Means (MacQueen et al., 1967) que busca el centroide minimizando la distancia euclídea cuadrática del centroide a todos los puntos del cluster. Sin embargo, este método, y todos los que se basan en encontrar el centro de un grupo de instancias, únicamente son capaces de obtener clusters con formas esféricas. Por ello, otra aproximación, que es la que 3 Un cluster es una agrupación de instancias similares. En el caso del KNN se entiende la similitud por la distancia que separa a una y otra instancia..

(41) 4.2 one-class classification se utiliza en este documento, es el DBScan (Ester et al., 1996), este algoritmo se basa en crear conjuntos en base a la densidad de puntos cercanos. Una de las características por las que se utiliza este algoritmo, es que aquellos puntos con baja densidad, son considerados atípicos.. Figura 15: Ejemplo de KNN para detección de casos anómalos.. 29.

(42)

(43) 5. E X P E R I M E N TA C I Ó N. En este capítulo se exponen los resultados obtenidos así como la metodología seguida para obtenerlos. Por otro lado, también se detallan los conjuntos de datos utilizados. Además, se exponen las conclusiones obtenidas de los experimentos. Dado que en este proyecto se han trabajado dos conjuntos de datos, en primer lugar, se detallan los experimentos realizados por el conjunto de datos mammography. Después, se describe el mismo análisis sobre el conjunto de datos real proporcionado por la AEAT.. 5.1. conjuntos de datos. En este proyecto se han utilizado dos conjuntos de datos. En primer lugar se ha trabajado con el conjunto de libre acceso conocido como mammography1 . Estos datos contienen información sobre calcificaciones en las mamas; consta de 11.183 instancias de las cuales 260 están clasificadas como calcificaciones. Se tiene en cuenta que para este conjunto de datos se sigue la siguiente relación: • Clase Positiva (+): Sin calcificación (sano). • Clase Negativa (-): Calcificación (enfermo). En cuanto al otro conjunto de datos, ha sido proporcionado por la AEAT. Estos son datos reales obtenidos de la base de datos de la Agencia Tributaria. Los datos corresponden a entidades declarantes de IVA entre los años 2010 y 2015, que están dadas de alta en el registro de operaciones intra-comuntarias (ROI) y que por tanto, también están dadas de alta en el VAT information Exchange System (VIES). Con todo esto, se reúnen hasta un total de 20 variables de clasificación. Cabe destacar que la AEAT también ha proporcionado un listado de empresas identificadas como truchas de forma manual. No obstante, pese a que no se puedan clasificar las demás entidades como legales, en este proyecto se asume que aquellas entidades que no se encuentran en el listado de truchas, son legales. Con esto, el número de instancias asciende a 715.239 de las cuales 3.778 son truchas. No obstante, es importante destacar que las empresas etiquetadas como legales, puede ser que sean aun fraudulentas dado que la AEAT no investiga a todas las empresas sino a aquellas que suscitan cierta sospecha. Al igual que en el caso anterior, se sigue esta relación de datos para el conjunto de datos de la AEAT: • Clase positiva (+): No fraudulenta (legal). • Clase negativa (-): Fraudulenta (ilegal). Además, en la Tabla 5 se encuentran las variables junto a su descripción. 1 El conjunto de datos se puede encontrar en http://odds.cs.stonybrook.edu/mammography-dataset/. 31.

(44) 32. experimentación. Tabla 5: Descripción de variables del conjunto de datos proporcionado por la AEAT. Variable (2015)Tipo de NIF. [Concepto] (2015)I.V.A. [ROI Censo Agregado] (2015) Ind.existe en cualquier censo [Concepto] (2014)I.V.A. [ROI Censo Agregado] (2014)Ind.existe en cualquier censo [Concepto] (2013)I.V.A. [ROI Censo Agregado] (2013)Ind.existe en cualquier censo [Concepto] (2012)I.V.A. [ROI Censo Agregado] (2012)Ind.existe en cualquier censo [Mod.TC1: Anual] (2015)No máximo de trabajadores [Act.Econ./IAE] Código de Epígrafe (Estudios / IAE) [IVA] [390: RG Devengado] (2015)Total Cuotas IVA [IVA] [M.390-2: Volumen op.] (2015)Total volumen operaciones (Art.121 Ley IVA) [Domicilio Fiscal] (2015)Provincia [Domicilio Fiscal] (2015)Código de Provincia [Concepto] (2015)VIES [M.347] [Pagos agregados] (2015)Pagos totales declarados [Concepto] (2015)I.SOCIEDADES [Estado del Cte.] (2015)Fecha alta BDC [R.O.I.] Tipo baja (AEAT). NIU- NIF Contribuyente identificado. Descripción Describe el tipo de entidad, si es una sociedad anónima, sociedad responsable limitada, persona fisica, entidad jurídica, etc. Si ha declarado o no IVA en 2015 Si está dado de alta en el ROI o no en 2015. Tipo String. Si ha declarado o no IVA en 2014 Si está dado de alta en el ROI o no en 2014. int int. Si ha declarado o no IVA en 2013 Si está dado de alta en el ROI o no en 2013. int int. Si ha declarado o no IVA en 2012 Si está dado de alta en el ROI o no en 2012. int int. Número de trabajadores que están empleados en la entidad a fecha de 2015 Grupo o gremio al que pertenece la actividad comercial Cantidad de IVA decengado en la declaración de IVA de 2015 Número de operaciones con IVA que se han realizado en 2015. int. Provincia en la que tiene la sede la entidad Código de la provincia en la que tiene la sede la entidad Si la entidad ha declarado VIES o no Todos los pagos que se han declarado en 2015 Si han declarado impuesto de sociedades o no La fecha de alta en el registro, es decir, fecha de creación de la empresa. Si la AEAT ha abierto un expediente bien por baja por fraude o por una misiva por fraude. Identificativo único de cada empresa. El NIF pero encriptado.. int int. String Double Double. String String int Double. int String String. String.

(45) 5.2 método de experimentación Con todo esto, se resumen las características de los datos en la Tabla 6. Como se puede observar, el porcentaje de inliers es algo superior en el caso del conjunto de datos de la AEAT por lo que se espera que la correcta clasificación sea más difícil. Tabla 6: Resumen de los conjuntos de datos utilizados. Dataset. # Instances Normales (inliers) Anómalas (outliers) 10923 260 711461 3778. Mammography AEAT. Porcentaje (inliers) 97.8 % 99.47 %. Por último, cabe destacar que la cantidad de variables existentes de cada una de las entidades en la base de datos de la AEAT y que la selección se ha llevado a cabo por un experto, escogiendo 20 de un total de aproximadamente 500 variables.. 5.2. método de experimentación. Para ambos conjuntos de datos, la experimentación se ha llevado a cabo siguiendo el método de stratified k-fold cross validation en el caso del aprendizaje supervisado cuales algoritmos se describieron en la Sección 4.1 y el método train-test para los algoritmos one-class explicados en la Sección 4.2. En cada uno de los dos tipos de ejecución se obtienen las siguientes figuras de mérito descritas a continuación: • Matríz de confusión: Es la matriz que representa las predicciones del clasificador yuxtapuestas con la realidad.. Clase Real → c +. −. Total. +. True Positive. False Positive. P. −. False Negative. True Negative. N. P. N. Predicción → ĉ. Total. • Accuracy = • f-measure = • Precision =. T P+T N T P+T N+FP+FN. 1 2. 1 Precision. TP T P+FP. +. 1 Recall. −1. =. 2·Recall·Precision Recall+Precision. 33.

(46) 34. experimentación • False Positive Rate =. FP FP+T N. • True Positive Rate (sensibility) =. TP T P+FN. • True Negative Rate (specificity) =. TN T N+FN. En cuanto a la clasificación no supervisada, se obtienen figuras de mérito diferentes dado el carácter de la clasificación. No obstante, dado que se tiene información sobre a qué conjunto deben pertenecer las instancias, es posible obtener ciertas figuras de mérito que se describen a continuación: • Homogeneidad. Representa la media de la mezcla de instancias de una y otra clase en los cluster. • Completitud. Representa que cada cluster está completo con instancias de una única clase. • V-measure (Rosenberg y Hirschberg, 2007). Esta medida representa la media armónica de la homogeneidad y de la completitud. Siendo la expresión: V − measure = 2 ·. homogeneidad · completitud homogeneidad + copletitud. (6). • Adjusted Rand Index. (Rand, 1971) Viene dada por al siguiente expresión. Cuando se obtiene un valor cercano a 0 se dice que el cluster es cercano a una definición aleatória. Sin embargo, si el valor se acerca a 1 se dice que la clasificación es correcta. Esta medida es independiente del número de clusters que se hagan y del número de instancias. AdjustedRandIndex =. Index − ExpectedIndex MaxIndex − ExpectedIndex. (7). • Adjusted Mutual Information. (Vinh, Epps y Bailey, 2010) Esta medida es una normalización de la información mutua. Para dos clusters, AMI es calculado así: AMI(U, V) =. MI(U, V) − E(MI(U, V)) max(H(U), H(V) − E(MI(U, V)). (8). donde MI(U, V) representa la información mutua entre los clusters U y V; E(. . .) describe la media. • Silhouette Coefficient. (Rousseeuw, 1987) Esta medida representa la relación o la similitud que tiene una instancia con su propio cluster respecto de los demás. El coeficiente se define como: ⎧ ⎪ 1 − a(i)/b(i), si a(i) < b(i) ⎪ ⎪ ⎪ ⎪ ⎨ s(i) = (9) 0, si a(i) = b(i) ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ b(i)/a(i) − 1, si a(i) > b(i) donde a(i) representa la similitud de la instancia i al cluster a, y b(i) representa la similitud de la í-esima instancia al cluster b..