Deep Learning aplicado a imágenes satelitales como herramienta de detección de viviendas sin servicio de energía en el caserı́o Media Luna Uribia Guajira

(1)

Deep Learning aplicado a im´

agenes

satelitales como herramienta de

detecci´

on de Viviendas Sin Servicio

de energ´ıa en el caser´ıo Media

Luna-Uribia-Guajira

Lalita Sakhi Vald´

es ´

Avila

Joher Mauricio Baquero Vanegas

Universidad Distrital Francisco Jos´e de Caldas Facultad de ingenier´ıa

(2)

satelitales como herramienta de

detecci´

on de Viviendas Sin Servicio

de energ´ıa en el caser´ıo Media

Luna-Uribia-Guajira

Lalita Sakhi Vald´

es ´

Avila

Joher Mauricio Baquero Vanegas

Tesis presentada como requisito para optar al t´ıtulo de:

Ingeniero de Sistemas

Director:

Ing. Oswaldo Alberto Romero Villalobos, M. Sc.

Universidad Distrital Francisco Jos´e de Caldas Facultad de ingenier´ıa

(3)

iii

AGRADECIMIENTOS

”Quiero agradecer a mi familia por su esfuerzo y comprensión en hacer de mi una mejor persona, a mi compañero sentimental por su confianza, inspiración y apoyo, a mis maestros

por las bases formativas que me dieron y principalmente me agradezco a m´ı misma, ya que todo este proceso solo fue posible gracias a la voluntad y esfuerzo personal”.

Lalita Sakhi Vald´es ´Avila

”Quiero agradecer a todos mis familiares que fueron un apoyo fundamental durante este largo camino de esfuerzo, crecimiento y aprendizaje, a la instituci´on por mi formaci´on y

con ella a todos aquellos docentes que dejaron su huella en mi persona. Agradezco su paciencia y esfuerzo, adicionalmente a mi compañera quien fue la persona que un d´ıa soñó

con esto, permitiendo con su trabajo y dedicaci´on que fuera posible”.

(4)

Glosario

API:

˙ Es un conjunto de funciones y procedimientos que cumplen una o muchas funciones con el fin de ser utilizadas por otro software. Sus siglas vienen del inglés Application Pro-gramming Interface o en español Interfaz de Programación de Aplicaciones.

Asociaci´on:

˙ Relaci´on que se establece entre dos patrones. Clase:

˙ Son los grupos o conjuntos de patrones que representan un mismo tipo de concepto. Modelo:

˙ Representación abstracta, conceptual, gráfica (o visual), f´ısica o matemática, de fen´ ome-nos, sistemas o procesos a fin de analizarlos, describirlos, explicarlos, simularlos y predecirlos. Patrones:

˙ Son representaciones abstractas de un objeto en el mundo f´ısico; los patrones exhiben cierta regularidad en una colecci´on de observaciones conectadas en el tiempo, en el espacio o en ambas, y pueden servir como modelo.

P´ıxel:

˙ Elemento discreto de una imagen digital, cuyo valor indica la intensidad del color o del nivel de gris de la imagen en ese punto.

Etiquetas

Nombre otorgado a un conjunto de datos que tiene caracter´ısticas en com´un. clasificaci´on

Lista o relaci´on ordenada de cosas o personas con arreglo a un criterio determinado. predicci´on

La predicción en el contexto cient´ıfico es una declaración precisa de lo que ocurrirá en de-terminadas condiciones especificadas.

detecci´on de objetos

La detección de objetos es una tecnolog´ıa de ordenador relacionada con la visión artificial y el procesamiento de imagen que trata de detectar casos de objetos semánticos de una cierta clase en v´ıdeos e imágenes digitales.

Reconocimiento de patrones:

˙ Es la rama cient´ıfica que se encarga de emular la habilidad humana de reconocer ob-jetos, mediante técnicas y métodos que sean implementados en máquinas desarrolladas y construidas para este fin.

Recuperaci´on:

˙ Proceso mediante el cual dado un patr´on conocido como llave se obtiene de una me-moria asociativa el patr´on asociado a dicha llave.

(5)

v

˙ Por sus siglas en inglés red, green, blue. Es la composición del color en términos de la intensidad de los colores primarios de la luz.

UPME

˙ Unidad de Planeaci´on Minero Energ´etica. VSS:

(6)

Resumen

En el presente trabajo de tesis, se realiza una aplicación de Deep Learning, espec´ıficamente detección de Viviendas Sin Servicio de energ´ıa (VSS) en el mapa satelital del caser´ıo de Media Luna, ubicado en el municipio de Uribia al norte de La Guajira. A partir de un con-junto de datos que conforman imágenes satelitales de viviendas de diferentes zonas rurales de Colombia, obtenidas a través de Google Earth, se realizan dos modelos de predicción diferentes, se hace una comparación de estos modelos, con el objetivo de obtener una mini-mización del error de predicción. Para resolver el Problema se utilizaron diversas tecnolog´ıas, entre ellas se encuentra TensorFlow y Keras para la creación de las redes neuronales, con sus respectivas configuraciones. Se propone trabajar con Redes Neuronales Convolucionales y un modelo pre-entrenado de Keras llamado VGG16, con una función de activación ReLu. Los experimentos realizados muestran que el uso de Redes Convolucionales y los algoritmos presentados tienen un desempeño aceptable y más eficiente que los métodos tradicionales aplicados para el conteo de VSS en zonas rurales, con tiempos de procesamiento razonables y rapidez en la entrega de la información requerida.

Palabras clave: Redes neuronales, redes convolucionales, convolución, deep learning, machine learning, visión artificial, predicción, clasificación de imágenes, imágenes sa-telitales, reconocimiento de patrones, aprendizaje profundo, aprendizaje automático, redes de entrenamiento, .

Abstract

In this thesis project, a Deep Learning application is developed, specifically a tool for de-tection of homes without utility services on the satellite map of the village of Media Luna, located in the municipality of Uribia, north of La Guajira. Using a dataset composed of sa-tellite images of homes in different rural areas of Colombia, obtained through Google Earth, two different prediction models are developed, a comparison of these models is made with the aim of minimizing the prediction error. Different technologies were used to solve the problem, including TensorFlow and Keras for the creation of neural networks, with their respective configurations. Convolutionary Neural Networks are proposed and a pre-trained Keras model called VGG16 with a ReLu activation function. The experiments carried out show that the use of Convolutional Networks and the algorithms presented have an ac-ceptable and more efficient performance than the traditional methods applied for the VSS counting in rural areas, with reasonable processing times and speed in the delivery of the required information.

(7)

´INDICE

Glosario iv

Resumen vi

0.1 Introducci´on . . . 2

0.2 Justificaci´on . . . 3

0.3 Objetivos . . . 4

0.3.1 Objetivo general . . . 4

0.3.2 Objetivos espec´ıficos . . . 4

1 Marco de referencia 5 1.1 Antecedentes . . . 5

1.2 Alcances y limitaciones . . . 6

1.2.1 Limitantes del algoritmo . . . 8

1.3 Marco te´orico . . . 9

1.3.1 Machine Learning o aprendizaje autom´atico . . . 9

1.3.2 Deep Learning o Aprendizaje Profundo . . . 13

1.3.3 Redes neuronales convolucionales (CNN o ConVet) . . . 18

1.4 Librer´ıas principales . . . 53

1.4.1 TensorFlow . . . 53

1.4.2 Flask . . . 56

1.4.3 Keras . . . 57

1.5 Viviendas sin servicio en Colombia (VSS) . . . 58

2 Aplicaci´on 60 2.1 Preparaci´on del entorno de trabajo . . . 60

2.1.1 Instalaci´on de TensorFlow y Keras . . . 61

2.2 Conjunto de datos de entrenamiento . . . 61

2.3 Pre-procesamiento de im´agenes . . . 63

2.4 Entrenamiento de los modelos CNN y VGG16 . . . 65

2.4.1 Primer modelo: CNN . . . 66

2.4.2 Segundo modelo: VGG16 . . . 80

(8)

3 Comparaci´on de los modelos 88

3.1 Discusi´on . . . 88

3.2 Observaciones . . . 93

4 Aplicaci´on Web 95 4.0.1 Manual de usuario . . . 95

5 Conclusiones 99 6 Anexos 101 6.1 Inteligencia Artificial . . . 101

6.1.1 Im´agenes satelitales . . . 103

6.1.2 Red Neuronal Artificial o RNA . . . 104

6.1.3 Anatom´ıa del cerebro . . . 107

6.1.4 Neurona . . . 109

6.2 Librer´ıas Keras . . . 113

6.2.1 Models . . . 113

6.2.2 Layers . . . 115

6.2.3 Preprocessing.image . . . 118

6.2.4 Aplications . . . 119

6.3 GPU . . . 120

(9)

Lista de Figuras

1-1. VSS de Media Luna - La Guajira [51] . . . 7

1-2. Diagrama de flujo del Machine Learning [28] . . . 10

1-3. Algoritmos utilizados en Machine Learning [49] . . . 11

1-4. Comparaci´on entre aprendizaje supervisado y no supervisado. . . 12

1-5. Diagrama perceptr´on[17] . . . 12

1-6. Estructura IA-ML-DL . . . 13

1-7. cronolog´ıa Deep Learning [64] . . . 14

1-8. Crecimiento exponencial de la capacidad de computaci´on como motor del Deep Learning [38] . . . 15

1-9. Transformaci´on de coordenadas . . . 16

1-10.Coordenadas polares con linea trazada [38] . . . 17

1-11.Matriz de 6x6px con 3 canales de profundidad( RGB) . . . 19

1-12.El neocognitr´on [16] . . . 19

1-13.Estructura jer´arquica del neocognitr´on[16] . . . 20

1-14.Modelo de una c´elula S usada en neocognitr´on[46] . . . 21

1-15.Arquitectura de una CNN por Lecun[46] . . . 22

1-16.kernel[52] . . . 23

1-17.Max Pooling . . . 24

1-18.Arquitectura de una CNN[52] . . . 25

1-19.Arquitectura de red VGG16 . . . 25

1-20.Arquitectura de red AlexNet [28] . . . 26

1-21.Encarnaci´on GoogLeNet de la arquitectura Inception [19] . . . 27

1-22.Arquitectura de red GoogLeNet [28] . . . 28

1-23.Funci´on binaria[61] . . . 29

1-24.Datos distribuidos en forma de circulo, Playground Tensorflow . . . 31

1-25.Modelo clasificador de una sola capa oculta con una sola neurona y funci´on de activaci´on lineal, Playground Tensorflow . . . 31

1-26.Modelo clasificador de varias capas ocultas con varias neuronas y funci´on de activaci´on lineal, Playground Tensorflow . . . 32

1-27.Funci´on sigmoidea[61] . . . 33

(10)

1-29.Modelo clasificador de una capa oculta y tres neuronas con funci´on de

acti-vaci´on sigmoid[61] . . . 34

1-30.Funci´on tanh[61] . . . 35

1-31.Funci´on tanh[61] . . . 36

1-32.Modelo clasificados con una capa oculta y una neurona con activaci´on ReLu[61] 37 1-33.Modelo clasificados con una capa oculta y una neurona con activaci´on ReLu[61] 38 1-34.Softmax vs Sigmoid . . . 39

1-35.Modelo neuronal de Dropout [53] . . . 39

1-36.Neuronas con Dropout[53] . . . 40

1-37.Comparación de las operaciones básicas de una red estándar y de Dropout[33] 41 1-38.Aprendizaje supervisado[39] . . . 42

1-39.Aprendizaje no supervisado[39] . . . 43

1-40.Redes Neuronales Artificiales . . . 43

1-41.Comparaci´on de clasificaci´on supervisada y no supervisada . . . 44

1-42.Gradiente [65] . . . 48

1-43.Evoluci´on de los optimizadores . . . 49

1-44.Optimizadores de descenso de gradiente[23] . . . 51

1-45.Etapas de una CNN [30] . . . 53

1-46.TensorBoard [56] . . . 55

1-47.TensorFlow Playground . . . 56

2-1. Conjunto de entrenamiento[33] . . . 62

2-2. Conjunto de entrenamiento[33] . . . 62

2-3. Conjunto de entrenamiento . . . 63

2-4. kernel . . . 67

2-5. Max pooling de 2x2 . . . 67

2-6. primera convoluci´on[52] . . . 68

2-7. segunda convoluci´on[52] . . . 69

2-8. Arquitectura de una CNN [52] . . . 70

2-9. Modelo CNN . . . 71

2-10.Objeto History devuelto por fit generator . . . 72

2-11.acc . . . 73

2-12.loss . . . 74

2-13.val acc . . . 74

2-14.val loss . . . 75

2-15.grafo del modelo cnn . . . 76

2-16.subgrafo conv1 de cnn . . . 77

2-17.subgrafo maxpooling de cnn . . . 78

2-19.subgrafo flatten de cnn . . . 78

(11)

Lista de Figuras 1

2-21.subgrafo metrics de cnn . . . 79

2-22.nodo auxiliar cnn . . . 80

2-23.modelo VGG16[28] . . . 80

2-24.modelo VGG16 [36] . . . 81

2-25.Ganancia de vgg16 . . . 83

2-26.P´erdida de vgg16 . . . 84

2-27.Ganancia validaci´on de vgg16 . . . 84

2-28.P´erdida validaci´on de vgg16 . . . 85

2-29.Mapa de Media luna dividido en parches de 60x60 [2] . . . 86

3-1. sitios UPME . . . 88

3-2. Mapa Media Luna . . . 89

3-3. acc modelos vgg16 y cnn . . . 90

3-4. loss modelos vgg16 y cnn . . . 90

3-5. val acc modelos vgg16 y cnn . . . 91

3-6. val loss modelos vgg16 y cnn . . . 92

3-7. Tabla comparativa . . . 93

4-1. P´agina de inicio . . . 96

4-2. P´agina de inicio . . . 96

4-3. P´agina de conteo . . . 97

4-4. P´agina de la app . . . 98

6-1. Inteligencia artificial . . . 103

6-2. Situaci´on de las redes neuronales en el campo de la Inteligencia Artificial[3] . 106 6-3. Tabla de resumen RNA [47] . . . 106

6-4. Anatom´ıa del cerebro [10] . . . 107

6-5. Analog´ıa entre cerebro humano y ordenador [6] . . . 108

6-6. Comparaci´on entre un ordenador y el cerebro [50] . . . 108

6-7. Imagen de una neurona de la corteza cerebral de una rata impregnada con la t´ecnica de Golgi [8]. . . 109

6-8. Neurona artificial [48]. . . 110

6-9. Neurona artificial [21] . . . 110

6-10.Comparaci´on Neurona Biol´ogica y Neurona Artificial[21] . . . 111

6-11.Comparaci´on Redes Neuronales Biol´ogicas y RNA [21] . . . 112

6-12.Esquema de una red de tres capas totalmente interconectadas[33] . . . 112

6-13.M´etodo compile Sequencial [25] . . . 114

6-14.Funci´on de impulso 2D [52] . . . 115

6-15.Maxpooling 2D [41] . . . 116

6-16.Tiempo total de entrenamiento del modelo en relaci´on con la GPU [67] . . . 121

(12)

0.1. Introducci´

on

En la actualidad, las imágenes satelitales pueden ser usadas para reconocer patrones de in-terés en un área geográfica que puede utilizarse para realizar calibraciones espaciales en un satélite, y as´ı dar a conocer el estado de una población,como por ejemplo, la deforestación de una zona, de la agricultura, entre otros. Las predicciones realizadas por computador pueden ayudar a automatizar el proceso de toma de decisiones, visualización y extracción de ca-racter´ısticas complejas en las imágenes satelitales, según un art´ıculo publicado en la revista Indepent, la Fundación Bill & Melinda Gates (EE.UU.) ha realizado un mapa de población más detallado y actualizado basado en un análisis de edificios en imágenes satelitales [59]. “Las imágenes satelitales podr´ıan ser una de las herramientas más poderosas e imparciales para contarle a la gente lo que está sucediendo en el planeta”, dijo en la cumbre Albert Lin, cient´ıfico investigador de la Universidad de California en San Diego.

En el reconocimiento de patrones de imágenes satelitales son utilizadas diversas técnicas de Deep Learning, como los algoritmos de reducción, clasificación y regresión, a través de las cuales se entrenan sistemas generalmente con muestras de imágenes y el sistema extrae las caracter´ısticas necesarias para modelar el comportamiento de la salida, ante determinado valor de entrada, de tal forma que permita asistir a empresas y organizaciones en la realiza-ción de proyectos [24].

En la actualidad, las imágenes satelitales pueden ser usadas para reconocer patrones de in-terés en un área geográfica, que sirven para realizar calibraciones espaciales en un satélite, y as´ı dar a conocer el estado de una población, como, por ejemplo, la deforestación de una zona, de la agricultura, entre otros. Las predicciones realizadas por computador pueden apli-carse en diferentes áreas de conocimiento y como una herramienta versátil, un antecesor de conteo poblacional fue ideado por GiveDirectly, una organización sin fines de lucro que iden-tifica hogares pobres en zonas rurales de Kenia y Uganda para entregar dinero (al menos el 90 % ) de cada dolar donado en manos de las personas que lo necesitan a través del teléfono móvil. Usando imágenes satélites de estas zonas, obtenidas de Google Maps, se implementó un algoritmo que identifico los hogares individuales en una imagen, usando la coincidencia de plantillas y fue capaz de identificar el umbral de color que los clasifico como paja o me-tal (representando techado de viviendas). En las primeras pruebas, se obtuvieron resultados bastantes alentadores, pues el algoritmo logro una alta tasa de clasificación, sin embargo, este dato se vio fuertemente alterado al encontrarse con que los techados de estructuras como cocina o cobertizos inflaban sus números [11].

(13)

capa-0.2 Justificaci´on 3

cidad de extraer caracter´ısticas impl´ıcitas en las imágenes satelitales sin que estas hayan sido previamente clasificadas y armar grupos ubicando las imágenes en diferentes categor´ıas, de-pendiendo de si se muestran signos que reflejen o signifiquen en determinada zona, liberando de esta pesada carga a las organizaciones a fin. Además existen técnicas capaces de realizar una extracción de caracter´ısticas automática, dependiendo los patrones de las imágenes, un ejemplo de estos es el Deep Learning.

El eje de este trabajo investigativo, es la necesidad de contar con una herramienta capaz de clasificar los techos de VSS, mediante modelos de entrenamiento de redes neuronales convolucionales ofrecidos por el Deep Learning, que har´an uso de im´agenes satelitales de zonas rurales en donde no se tengan servicios de electricidad, como el caso del caser´ıo de Media Luna.

0.2. Justificaci´

on

Sin lugar a dudas se está realizando un esfuerzo por parte del gobierno para identificar las VSS, por medio del levantamiento de información primaria, secundaria, as´ı como la información reportada por terceros; dicho esfuerzo no ha sido suficiente para cuantificar el número de VSS de una manera precisa y eficiente, ante este panorama se hace visible la necesidad de una herramienta tecnológica que contribuya en esta identificación. Para apoyar con esta labor existen diferentes alternativas, entre estas, Deep Learning (o aprendizaje profundo) que hace parte de la inteligencia artificial y para este caso se enfoca en la visión artificial con uso de algoritmos que van a parsear datos, aprender de ellos, identificar patrones y luego serán capaces de identificar VSS; No obstante, las imágenes satélitales a procesar han sido previamente seleccionadas y limitadas a una región particular por su claridad, definición y poca obstrucción de elementos, que faciliten la exploración detallada de las mismas, es este carácter exploratorio lo que se ajusta perfectamente a Python, un lenguaje de programación de alto nivel que tiene un gran potencial en este campo, la comunidad de desarrolladores ha aportado varios paquetes como PyBrain (Schaul et al., 2010) o scikit-learn (Pedregosa et al., 2011), entre otros, al campo del Deep Learning. De todos ellos, el más conocido tal vez sea scikit-learn1 _{y la librer´ıa Theano, que es un proyecto de c´}_{odigo abierto desarrollado}

principalmente por un grupo de aprendizaje autom´atico de la Universidad Montreal2_{. Esta}

librer´ıa y su integración Numpy, se convirtieron en sus inicios en una de las librer´ıas más usadas para Deep Learning de propósito general.

Este proyecto, es un medio para complementar y aplicar conocimientos relacionados con el aprendizaje de máquina y procesamiento de imágenes satélitales.

1_{Repositorio Github, disponible en: https://github.com/scikit-learn/scikit-learn, ´}_{ultima fecha de consulta:}

15/06/18

(14)

0.3. Objetivos

0.3.1. Objetivo general

Desarrollar una aplicaci´on basada en Deep Learning que detecte, clasifique y cuente Vivien-das Sin Servicio de energ´ıa en im´agenes satelitales del caser´ıo Media Luna-Uribia-Guajira.

0.3.2. Objetivos espec´ıficos

Crear un modelo de Redes Neuronales Convolucionales capaz de predecir si en una imagen satelital hay una vivienda.

Implementar un modelo pre-entrenado de Keras para verificar su eficacia en la detecci´on de viviendas en una imagen satelital.

Construir un algoritmo que cuente en un mapa la cantidad de viviendas detectadas en ´el, utilizando un modelo entrenado de Red Neuronal Convolucional.

(15)

1 Marco de referencia

1.1. Antecedentes

En la actualidad los satélites como el GeoEye-1 de Google nos ofrecen una buena perspectiva de la Tierra por medio de imágenes con alta resolución, lo que facilita ver detalles de lo que ocurre dentro de ella, por eso se usan cada vez con más frecuencia. En estas imágenes se aprecian todos sus recursos y el impacto ambiental. El uso de imágenes satelitales ha demostrado ser una fuente rentable de información relevante para numerosas aplicaciones, como por ejemplo la planificación urbana, la vigilancia del medio ambiente, para la evaluación agr´ıcola y de cultivos, exploraciones de minas y muchas otras [9].

Cabe destacar que la correcta clasificación de estas imágenes es sumamente importante como es el caso del estudio de recursos naturales o censos poblacionales, donde es necesaria la clasificación de diferentes imágenes como flores, agua, vegetación, nubes, suelos o techos de viviendas.

(16)

1.2. Alcances y limitaciones

La falta de servicios públicos es un gran problema para cualquier ser humano, si hablamos de la energ´ıa eléctrica en espec´ıfico, podemos ver que su existencia es de gran ayuda y sin mayor trascendencia hoy d´ıa, pero la falta de esta es bastante notoria y limitante. En Colombia 1.209.000 personas no tienen servicio de energ´ıa eléctrica, la población afectada por la falta de electricidad se encuentra distribuida en 1.562 localidades, la gran mayor´ıa en las zonas rurales del oriente y el sur colombiano, y en regiones del Chocó, Nariño, La Alta Guajira y Cauca sobre el litoral Pac´ıfico, según el más reciente informe de la Superintendencia de Servicios Públicos, donde se indica que la falta del servicio permanente afecta, de manera especial, las zonas del pa´ıs sin interconexión, que alcanzan el 66 % del territorio nacional [15].

Según David Riaño, superintendente delegado de energ´ıa y gas, la problemática general en las Zonas No Interconectadas - ZNI obedece, entre otras causas, a la baja demanda (producto de una reducida disponibilidad y la precaria actividad industrial y comercial); a los altos niveles de pérdidas por deficiencia en redes y en el esquema de comercialización; deterioro de la relación cliente prestador y deficientes sistemas de medición[42].

Es en esto último, los deficientes sistemas de medición, donde este proyecto pretende cola-borar, haciendo uso de redes neuronales artificiales-RNA basadas en Deep Learning, como las convolucionales, que reciben de entrada imágenes espec´ıficamente[63], se podr´ıan obtener datos más precisos, ya que el enorme desarrollo que está viviendo la tecnolog´ıa asociada a la Inteligencia Artificial (IA) está dando lugar en los últimos tiempos a nuevas herramientas y aplicaciones importantes, como el famoso caso de Google Brain para el reconocimiento de imágenes de gatos e imágenes faciales[42], donde los algoritmos lograron una precisión de más del 80 %. Una de las áreas donde los avances han sido más notables es el reconocimiento de patrones de imágenes, en parte gracias al desarrollo de nuevas técnicas de Deep Learning o aprendizaje profundo. Lo que aporta de sobremanera al objetivo de esta colaboración que es cuantificar las VSS y con una fiabilidad importante pues hoy en d´ıa tenemos al alcance de nuestra mano sistemas más precisos que los propios humanos, en las tareas de clasificación y detección en imágenes.

El caser´ıo Media Luna, ubicado en el municipio de Uribia en La Guajira, es un gran candidato para esta investigaci´on. Este caser´ıo fue seleccionado teniendo en cuenta muchos factores, como por ejemplo, el hecho de que su territorio es muy visible en las im´agenes satelitales de Google maps, lo cual es de vital importancia para que los algoritmos hagan lo suyo, contar VSS, y el hecho de que se cuenta con el dato de VSS, sacado del aplicativo Sitios Upme1_,

que será de utilidad a la hora de hacer una comparación entre los resultados obtenidos de la aplicación realizada en este proyecto y los datos obtenidos por la UPME.

Esto significa que Media Luna cumple con los requisitos para poder hacer uso de estos algoritmos de deep learning y lograr el mejor resultado posible.

(17)

1.2 Alcances y limitaciones 7

Sitios Upme es una herramienta para la recolección de la información correspondiente a la ubicación geográfica de los SITIOS as´ı como las viviendas totales y viviendas que no cuentan con el servicio de energ´ıa eléctrica, tanto urbano como rural. Esta herramienta es una ayuda para que las entidades territoriales reporten información, produciéndose una capa propia de la UPME quien validará con otras fuentes la ubicación espacial de las localidades, para conseguir mayor calidad en la información para el planeamiento de la expansión de cobertura de energ´ıa eléctrica de la región. 2

En la figura 1.1 se tiene una captura del aplicativo en el que se muestra la regi´on del caser´ıo Media Luna de La Guajira junto con su caja de informaci´on:

Figura 1-1: VSS de Media Luna - La Guajira [51]

Como se puede observar en la figura 1-1, según la UPME el caser´ıo de Media Luna - La Guajira, cuenta con un total de 179 VSS, aunque este es un dato obtenido por aproximación, lo que conlleva a una amplia tolerancia en un comparación de resultados. Esto quiere decir que podemos usar este dato de Sitios Upme para comparar con los resultados que se obtengan al implementar la herramienta que propone este proyecto.

Valga aclarar que este sector es seleccionado como una muestra pero podr´ıa replicarse a lo largo del territorio nacional o incluso mundial con la salvedad de que la imágenes a procesar deben ser claras, sin interferencia de nubes, arboles o cualquier otro artefacto que limite la visibilidad de la imagen y no permita funcionar al software. Por ejemplo, en Uganda una organización hizo algo parecido, haciendo uso de imágenes satélites y con Deep Learning encontraron pueblos necesitados, estos datos, muy importantes para organizaciones sin ánimo de lucro interesadas [62].

(18)

Con el uso de deep learning, en lugar de entrenar el algoritmo, como con el machine learning, este buscará por s´ı mismo los l´ımites de la imagen e irá analizando las formas de la imagen de manera jerárquica encontrando los atributos indicados. Por último, decidirá cuáles de estas propiedades son las necesarias para llegar a la respuesta. De esta forma, puede equivocarse una vez, pero aprenderá de su error y si le llegan millones de datos, se auto-entrenará para no fallar. Esto último es una de las desventajas del deep learning, ya que necesita un número muy alto de datos para que el algoritmo tome decisiones correctas. Sin embargo, como el flujo de datos del que disponemos cada vez tiende a ser mayor, se convierte en una de sus grandes ventajas, siempre que le lleguen nuevas situaciones, irá mejorando de forma automática. La red neuronal convolucional se implementará completamente en Python ya que este so-bresale sobre cualquier otro lenguaje porque cuenta con soportes para frameworks de Deep Learning de muy buena calidad. Los más destacados según un ranking realizado por The Data Incubato en 2017 son: TensorFlow, Theano, Keras, Caffe y MXNet [34].

Esta herramienta se entregar´a en modo ejecutable, y para el almacenamiento de im´agenes se implementa Google Cloud.

1.2.1. Limitantes del algoritmo

Al igual que en las redes neuronales convencionales, se tendrá un margen de error y el objetivo de este proyecto es llegar al punto m´ınimo de éste, o lo más cercano posible a ese punto. Dicho esto, se rescata que el porcentaje de VSS puede verse alterado por establos u otra construcción techada de forma similar a una casa, esto ya esta contemplado y aún as´ı son bastante alentadores los resultados a obtener por la herramienta y más al contemplar que el conteo se realiza para conocer la cantidad de viviendas sin servicio pero para el caso de la electricidad también se requiere en estas construcciones entonces conviene que existan en el conteo aunque ayudan a flexibilizar la cercan´ıa con la aproximación de VSS obtenida por la UPME. El algoritmo de retropropagación no tiene un buen desempeño, el problema radica en que este algoritmo está basado en el cálculo del gradiente, que es un método que usa información local y usualmente se inicia en puntos aleatorios, lo cual puede ocasionar que se quede atorado en m´ınimos locales, incluso si se hace uso de modificaciones al algoritmo como el batch-mode o el gradiente de descenso estocástico [14]. Este riesgo aumenta junto con la profundidad de la red.

(19)

1.3 Marco te´orico 9

de uso no se limite a gran medida mientras se sigan las instrucciones.

1.3. Marco te´

orico

1.3.1. Machine Learning o aprendizaje autom´

atico

El Machine Learning, también conocido como aprendizaje automático es cada vez más ha-bitual, las máquinas aprenden por s´ı solas, son capaces de auto programarse aprendiendo de su propia experiencia combinando datos de entradas y situaciones del mundo real.

En términos generales, los dos sub-grupos principales del Machine Learning son el apren-dizaje supervisadoy el aprendizaje no supervisado. En el aprendizaje supervisado, la atención se centra en la predicción precisa, mientras que en el aprendizaje no supervisado el objetivo es encontrar descripciones precisas y compactas de los datos.

Particularmente en el aprendizaje supervisado, uno está interesado en los métodos que funcio-nan bien con datos que no se hab´ıan visto anteriormente. Es decir, el método se ‘generalizaá datos invisibles. En este sentido, se distingue entre los datos que se utilizan para entrenar un modelo y los datos que se usan para probar el rendimiento del modelo entrenado[7].

En general el Machine Learning es supervisado y esto sucede gracias a que utiliza Deep Learning. Este funciona por medio de redes neuronales que imitan al cerebro humano usando hasta miles de millones de “neuronas” o unidades computacionales que se organizan en capas y cada capa aprende patrones una de la otra por lo que en conjunto se desarrollan patrones de definiciones, conducta, acciones, colores, objetos o simplemente luce algo.

(20)

Figura 1-2: Diagrama de flujo del Machine Learning [28]

Como se ve en la figura 1-14, la información potencial depositada en el lago (Conjunto de entrenamiento) se vierte hacia una primera l´ınea de clasificación cuando el algoritmo se pregunta si las caracter´ısticas de los datos son conocidas o no. La respuesta implicara la siguiente clasificación:

Aprendizaje supervisado. Dado un conjunto de datosD= (xn, yn), n= 1, ..., N la tarea es “aprender”la relación entre la entrada x y la salida y de tal manera que, cuando se le da una nueva entrada x, la salida predicha y * es precisa. Para especificar expl´ıcitamente qué significa la precisión, se define una función de pérdida L (ypred, ytrue) o, por el contrario, una función de utilidad U =L.

El termino ”Supervisado¨ındica que hay un ”supervisor”que especifica la salida y para cada entrada x en el datos D. La salida tambi´en se denomina .et_{iqueta”, particularmente cuando}

(21)

Aprendizaje No Supervisado: para los datos desconocidos. En este caso, el algoritmo tendrá que inferir el valor de los datos de entrada según un grupo de datos o por alguna probabilidad de producir un dato concreto que en su momento se convertirá en un dato ya conocido[23].

Resumiendo, en el aprendizaje supervisado, la atenci´on se centra enla predicci´on precisa, mientras que en el aprendizaje no supervisado el objetivo es encontrar descripciones precisas y compactas de los datos.

En el Machine Learning existen al menos siete grandes grupos de algoritmos que corres-ponden a cuatro clasificaciones[49]:

Figura 1-3: Algoritmos utilizados en Machine Learning [49]

Como segundo paso, el algoritmo hace un segundo agrupamiento al preguntarse si los datos pueden compartir atributos comunes entre s´ı para crear una Categor´ıa o si forma parte de un flujo continuo de datos no estructurados. La repuesta implicar´a una segunda clasifica-ci´on:

Aprendizaje continuo: La data se hace disponible siguiendo un orden secuencial y para la cual se necesitara algún tipo de regresión o de agrupación por lo que el algoritmo deberá ajustarse dinámicamente.

(22)

un análisis por asociación. En la figura 1-16 se muestran dos gráficas con las diferencias entre los aprendizajes supervisados y no supervisados:

Figura 1-4: Comparaci´on entre aprendizaje supervisado y no supervisado.

En la figura 1-17 tenemos un diagrama que muestra la red del Perceptrón, el cual usa aprendizaje supervisado, este actualiza su l´ımite lineal a medida que se agregan más ejemplos de capacitación.

(23)

1.3.2. Deep Learning o Aprendizaje Profundo

Aprendizaje profundo (en inglés, Deep Learning) es un conjunto de algoritmos de clase apren-dizaje automático (en inglés, machine learning) que intenta modelar abstracciones de alto nivel en datos usando arquitecturas compuestas de transformaciones no lineales múltiples[68]. En general se trata de una clase de algoritmos ideados para el aprendizaje automático, con este concepto nos referimos a una técnica concreta dentro del Machine Learning, un subcon-junto, el cual desarrolla la idea del aprendizaje profundo a través de modelos informáticos que funciona de forma similar al cerebro humano, un sistema de redes artificiales de neuronas que analiza los datos.

Como segundo paso, el algoritmo hace un segundo agrupamiento al preguntarse si el torrente de datos puede compartir atributos comunes entre s´ı para crear una Categor´ıa o si forma parte de un flujo continuo de datos no estructurados. La repuesta implicar´a una segunda clasificaci´on:

Aprendizaje Continuo: la data se hace disponible siguiendo un orden secuencial y para la cual se necesitara algún tipo de regresión o de agrupación por lo que el algoritmo deberá ajustarse dinámicamente. Aprendizaje en Categor´ıas: la data se va agrupando por alguna clasificación o siguiendo un análisis por asociación.

(24)

La máquina evalúa ejemplos e instrucciones para modificar el modelo en el caso de que se produzcan errores. El sistema extrae patrones que facilitan la solución de problemas de una manera bastante precisa, en definitiva, toma decisiones a partir de datos. En este paradigma los algoritmos son capaces de aprender sin intervención humana previa, es decir está orientado al aprendizaje no supervisado, sacando ellos mismos las conclusiones acerca de la semántica embebida en los datos. Ya existen compañ´ıas que se centran completamente en enfoques de aprendizaje automático no supervisado, como Loop AI Labs.

No existe una única definición de aprendizaje profundo, pero todas las formas de definir el deep learning tienen en común el uso de múltiples capas de procesamiento no lineal. Las capas forman una jerarqu´ıa de caracter´ısticas desde un nivel de abstracción más bajo a uno más alto.

Ya se ha mencionado que el equipo de Krizhevsky fue un punto de inflexión importante en el campo de Deep Learning, y desde entonces se han ido dando buenos resultados, uno tras otro, con un crecimiento exponencial de resultados cada vez más sorprendentes. Aunque la investigación en este campo ha estado guiada por los hallazgos experimentales más que por la teor´ıa, en el sentido de que aunque las primeras teor´ıas sobre el Deep Learning se desarrollaron en la década de los ochenta, estos grandes avances en el área se comenzaron a dar a partir del 2012.

En la figura 1-19 se puede observar la cronolog´ıa del Deep Learning:

Figura 1-7: cronolog´ıa Deep Learning [64]

(25)

campo han podido poner a prueba y ampliar viejas ideas, a la vez que han avanzado con nuevas que requer´ıan muchos recursos de computaci´on. Recientemente OpenAI3 _ha

publica-do en su blog un estudio [38] que corrobora precisamente esta visión de la que se ha hablado. Concretamente, presentan un análisis en el que se confirma que, desde 2012, la cantidad de computación disponible para generar modelos de inteligencia artificial ha aumentado expo-nencialmente a la vez que afirman que las mejoras en la capacidad de cálculo han sido un componente clave del progreso de la inteligencia artificial. En este mismo art´ıculo presentan una gráfica detallada para sintetizar los resultados de su análisis de la figura 1-20.

Las aplicaciones de Deep Learning se utilizan en sectores diferentes como la conducción autónoma, los dispositivos médicos, el sector aeroespacial y de defensa, automatización in-dustrial, electrónica y en procesamiento de imágenes para reconocer objetos o patrones.

Figura 1-8: Crecimiento exponencial de la capacidad de computaci´on como motor del Deep Learning [38]

(26)

En el Aprendizaje Profundo, la palabra “aprendizaje”describe un proceso de búsqueda au-tomática para obtener mejores representaciones de los datos que está analizando y es-tudiando, hay que tener esto en cuenta, el modelo no está haciendo que una computadora aprenda, sino unarepresentación que es solo una forma de ver los datos.

Para dar a entender mejor, se mostrar´a un ejemplo tomado del libro de Ian Goodfellow, Deep Learning[18]. Supongamos que se quiere dibujar una l´ınea que separe los c´ırculos azules de los tri´angulos verdes de la imagen de la izquierda:

Figura 1-9: Transformaci´on de coordenadas

Si la soluci´on pensada es usar una l´ınea, el autor dice lo siguiente:“. . . representamos algunos datos usando coordenadas cartesianas, y la tarea es imposible”.Y realmente es imposible si tenemos en cuenta la definici´on de una linea: “Una l´ınea es una figura recta unidimensional sin grosor y que se extiende infinitamente en ambas direcciones”. De Wolfram MathWorld.

(27)

Figura 1-10: Coordenadas polares con linea trazada [38]

Entonces, en este sencillo ejemplo, se encontró y eligió la transformación para obtener una mejor representación a mano. Pero si se crea un sistema, un programa que pueda buscar representaciones diferentes (en este caso, un cambio de coordenadas), y luego encontramos una forma de calcular el porcentaje de categor´ıas que se clasifican correctamente con este nuevo enfoque, en ese momento estaremos haciendo Machine Learning.

Esto es algo muy importante a tener en cuenta, el Deep Learning es el aprendizaje de repre-sentaciones utilizando diferentes tipos de redes neuronales y optimizando los hiperpar´ametros de la red para obtener (aprender) la mejor representaci´on de nuestros datos.

Hiperpar´ametros

Los hiperparámetros son parámetros ajustables que se eligen para entrenar un modelo y que rigen el propio proceso de entrenamiento. Por ejemplo, para entrenar una red neuronal profunda, debe decidir el número de capas ocultas en la red y la cantidad de nodos de cada capa antes de entrenar al modelo. Estos valores suelen permanecer constantes durante el proceso de entrenamiento. En escenarios de aprendizaje profundo o aprendizaje autom´ ati-co, el rendimiento del modelo depende en gran medida de los valores de hiperparámetro seleccionados. El objetivo de la exploración de los hiperparámetros es buscar entre diversas configuraciones de hiperparámetros hasta dar con la que tenga como resultado un rendi-miento óptimo. Normalmente, el proceso de exploración de hiperparámetros es un trabajo manual muy laborioso, dado que el espacio de búsqueda es muy extenso y la evaluación de cada configuración puede ser costosa[35].

El ajuste de hiperpar´ametros incluye los siguientes pasos[35]:

Definir el espacio de b´usqueda de par´ametros

(28)

Especificar criterios de finalizaci´on anticipada para

series de bajo rendimiento

Asignar recursos para el ajuste de hiperpar´ametros

Iniciar un experimento con la configuraci´on anterior

Visualizar las series de entrenamiento

Seleccionar la configuraci´on de rendimiento ´optima para el modelo

Cada hiperparámetro puede ser discreto o continuo, los hiperparámetros discretos se espe-cifican con un objeto choice entre valores discretos[35]. Los hiperparámetros continuos se especifican como una distribución a través de un intervalo continuo de valores. Las distribu-ciones admitidas son[35]:

uniform(low, high): devuelve un valor distribuido uniformemente entre bajo y alto.

loguniform(low, high): devuelve un valor que se extrae seg´un exp(uniform(low, high)) de forma que el logaritmo del valor devuelto se distribuye uniformemente.

normal(mu, sigma): devuelve un valor real que se distribuye normalmente con media mu y desviaci´on est´andar sigma.

lognormal(mu, sigma): devuelve un valor extra´ıdo seg´un exp(normal(mu, sigma)) de forma que el logaritmo del valor devuelto se distribuye normalmente.

Con esta herramienta se puede experimentar con diferentes hiperpar´ametros y ver su com-portamiento. Precisamente, la flexibilidad de las redes neuronales es una de sus virtudes y a la vez uno de sus inconvenientes para los que se inician en el tema: hay muchos hiperpar´ ame-tros para ajustar.

Tensorflow Play Ground es una herramienta web de Tensorflow que permite experimentar con algunos hiperparámetros y crear redes neuronales profundas, con esta herramienta es posible analizar la influencia de algún hiperparámetro en el aprendizaje de una red, ya que hace una simulación del comportamiento de esta. Para más información consulte la sección 2.4.14

1.3.3. Redes neuronales convolucionales (CNN o ConVet)

En redes neuronales, la red neuronal convolucional también llamadas ConvNets o simple-mente CNN, es una de las categor´ıas principales para hacer el reconocimiento de imágenes. Clasificaciones de imágenes, detecciones de objetos, reconocimientos faciales, etc., son algu-nas de las áreas donde se utilizan ampliamente las CNN.

(29)

Las CNN toman una imagen de entrada, la procesan y clasifican en ciertas categor´ıas o clases. Los ordenadores ven una imagen de entrada como una matriz de p´ıxeles y depende de la resolución de la imagen. Según la resolución de la imagen, verá hxwxd (h: Altura, w: Ancho, d: Dimensión). Por ejemplo, una imagen de 6x6x3 es una matriz de RGB (3 se refiere a la cantidad de canales, Red, Green, Blue) y una imagen de 6x6x1, es una matriz de una imagen de escala de grises.

Figura 1-11: Matriz de 6x6px con 3 canales de profundidad( RGB)

Las neuronas de una CNN poseen un patrón de conectividad inspirado en el córtex visual de un cerebro biológico, son una variación del Perceptrón Multicapa-MLP, pero están diseñadas para requerir la m´ınima cantidad de procesamiento, lo cual hace más eficiente las tareas de visión artificial, como el reconocimiento de imágenes.

(30)

Los fundamentos de las Redes Neuronales Convolucionales se basan en el Neocognitron, introducido por Kunihiko Fukushima en 1980, El neocognitron es una red neuronal artificial jerárquica y multicapa que ha sido utilizada para el reconocimiento de caracteres a mano y otras tareas de reconocimiento de patrones , y ha servido de inspiración para las redes neuronales convolucionales[32]. Este sistema posee una aplicación práctica muy amplia ya que a juzgar por las introducciones de algunos de sus art´ıculos, Fukushima y sus colaboradores parecen estar más interesados en desarrollar un modelo del cerebro. Con este objetivo, su diseño se basó en el trabajo seminal desarrollado por Hubel y Weisel, que aclaraba parte de la arquitectura funcional de la corteza visual.

El neocognitr´on es un buen ejemplo de la forma en que unos resultados neurobiol´ogicos se pueden emplear para desarrollar una arquitectura de red.

(31)

En el procesamiento de la capa S, la retina (capa u0), es una matriz de 19x19px, cada plano de Usi tendrá una matriz del mismo tamaño de la retina (19x19px) y cada plano barre toda la retina en busca de cierta caracter´ıstica. Cada célula del plano S busca exactamente la misma caracter´ıstica pero en una posición diferente de la retina. El campo receptivo de cada una de las células S corresponde a una matriz de 3x3 y hay un plano de células Vc asociado a cada capa S del sistema. La salida de una célula Vc va a una sola célula S de todos los planos de la capa, la salida de la célula Vc tiene un efecto inhibitorio sobre las células S [16].

Figura 1-14: Modelo de una c´elula S usada en neocognitr´on[46]

Este modelo fue más tarde mejorado por Yann LeCun et al en 1982 al introducir un método de aprendizaje basado en backpropagation(o propagación hacia atrás) para poder entrenar el sistema correctamente. En el año 2012, fueron refinadas por Dan Ciresan y otros, y fueron implementadas para una unidad de procesamiento gráfico (GPU) consiguiendo as´ı resultados impresionantes[16].

la arquitectura de la CNN de LeCun y el Neocognitron de Fukushima se parecen en muchos aspectos. Son una secuencia de capas-S y Capas-C alternas, aqu´ı llamadas capas de convo-luci´on y submuestreo, formadas por las llamadas mapas de caracter´ısticas correspondientes a los planos S y C del neocognitron.

(32)

se eligen manualmente sino que se encuentran automáticamente al aprender las máscaras de convolución formadas por los pesos de los respectivos mapas de caracter´ısticas.

Figura 1-15: Arquitectura de una CNN por Lecun[46]

Las Redes Neuronales Convolucionales están compuestas por una capa de entrada, una de salida y varias capas ocultas, as´ı como cualquier red neuronal, lo que diferencia a las CNN, es que hacen la suposición expl´ıcita de que las entradas son imágenes, por esto se nos permi-te codificar algunas propiedades en la arquipermi-tectura para reconocer objetos concretos en las imágenes. En una CNN cada capa va aprendiendo diferentes niveles de abstracción, as´ı que un número significativo de capas pueden conseguir identificar estructuras más complejas en los datos de entrada[60].

Técnicamente, en los modelos CNN de Deep Learning para entrenar y probar, cada imagen de entrada se pasa a través de una serie de capas de convolución con filtros (kernels), agrupación, capas totalmente conectadas (FC) y aplicará la función Softmax para clasificar un objeto con valores probabil´ısticos entre 0 y 1. La siguiente figura es un flujo completo de CNN para procesar una imagen de entrada y clasifica los objetos según los valores.

Componentes b´asicos de una ConVet:

(33)

Convoluci´on

La principal diferencia entre una capa densamente conectada y una capa especializada en la operación de convolución, es que la capa densa aprende patrones globales en su espacio global de entrada, mientras que las capas convolucionales aprenden patrones locales en pequeñas ventanas de dos dimensiones.

El objetivo principal de una capa convolucional es detectar caracter´ısticas o rasgos visuales en las imágenes como aristas, l´ıneas, gotas de color, etc. Una vez aprendida una caracter´ıstica en un punto concreto de la imagen la puede reconocer después en cualquier parte de la misma. En cambio, en una red neuronal densamente conectada tiene que aprender el patrón nuevamente si este aparece en una nueva localización de la imagen[60].

Generalmente las capas convolucionales operan sobre tensores de 3D, conocidos comofeature maps, este cuenta con dos ejes espaciales de altura y anchura y otro eje de canal, conocido como profundidad. Para una imagen de color RGB, la dimensi´on del eje de profundidad es 3, pues la imagen tiene tres canales: Rojo, verde y azul (RGB)[54]

Figura 1-16: kernel[52]

El kernel toma inicialmente valores aleatorios entre [−∞,∞], pero lo aconsejable es hacerlo en un rango entre [-5. 5], para que la red no tarde tanto en el proceso de aprendizaje, despu´es estos se van ajustando mediante backpropagation.

(34)

Pooling

Ahora viene un paso en el que se reducirá la cantidad de neuronas antes de hacer una nueva convolución. Esto se hace ya que al tener una imagen de 60x60x3, es decir, una imagen de 60 de ancho y alto que es a color, se tendr´ıa como entrada un total de 10.800 neuronas, después de la primer convolución, se tendrán por ejemplo 32 filtros, esto significa un total de 60x60x3x32= 345.600 neuronas, si se llegara a hacer una convolución a partir de esta capa, el número de neuronas de la siguiente capa ser´ıa enorme, lo que implica mayor procesamiento. Para reducir el tamaño de la próxima capa se hace un proceso de pooling en el que se reduce el tamaño de las imágenes filtradas, pero en donde deberán prevalecer las caracter´ısticas más importantes que detectó cada filtro. Hay diferentes tipos de pooling, entre estos el más utilizado se plasma en la figura 1-29 el Max pooling.

Figura 1-17: Max Pooling

Suponiendo que usaremos un Max pooling de tamaño 2x2. Esto quiere decir que recorreremos cada una de nuestras 32 imágenes de caracter´ısticas obtenidas anteriormente de 60x60px de izquierda a derecha, arriba a abajo, pero en vez de tomar de a 1 pixel, se tomarán de 2x2 (2 de alto por 2 de ancho = 4 pixeles) y se irá preservando el valor “más alto” de entre esos 4 pixeles (por eso lo de “Max”). En este caso, usando 2x2, la imagen resultante es reducida “a la mitad”y quedará de 3030 pixeles. Luego de este proceso de pooling quedarán 32 imágenes de 30x30, pasando de haber tenido 345.600 neuronas a 30x30x3x32= 86.400, son bastantes menos y, en teor´ıa-, siguen almacenando la información más importante para detectar ca-racter´ısticas deseadas.

Red Neuronal Tradicional

La ´ultima capa a la que se le aplica Max Pooling se dice que es “tridimensional” por tomar la forma, por ejemplo, 15x15x128 (alto,ancho,profundidad) y la “aplanamos”, esto es que deja de ser tridimensional, y pasa a ser una capa de neuronas “tradicionales”.

Entonces, a esta nueva capa oculta “tradicional”, se le aplica una funci´on llamada Softmax

(35)

Figura 1-18: Arquitectura de una CNN[52]

Arquitecturas de CNN

Existen modelos pre-entrenados como la red VGG, introducida por Karen Simonyan, An-drew Zisserman en 2015, con su publicaci´on Very Deep Comvolutional Networks For Large-Scale Image Recognition[22].

Figura 1-19: Arquitectura de red VGG16

(36)

AlexNet es el nombre de otra CNN, escrita originalmente con CUDA para funcionar con soporte GPU, que compiti´o en el desaf´ıo de reconocimiento de gran escala ImageNet [28]. AlexNet conten´ıa ocho capas: las primeras cinco fueron capas convolucionales y las tres ´

ultimas fueron capas conectadas por completo.

Figura 1-20: Arquitectura de red AlexNet [28]

El ganador del concurso ILSVRC 2014 fue GoogleNet (a.k.a. Inception V1) de Google. ¡Logró una tasa de error top-5 de 6.67 %! Este fue un desempeño muy cercano al nivel hu-mano que los organizadores del desaf´ıo se vieron obligados a evaluar. Resulta que, en realidad, esto era bastante dif´ıcil de realizar y requer´ıa algún entrenamiento humano para poder supe-rar la precisión de GoogLeNets. Después de unos d´ıas de entrenamiento, el experto humano (Andrej Karpathy) logró una tasa de error entre los 5 primeros del 5,1 % (modelo único) y el 3,6 % (conjunto).

(37)

(38)

Figura 1-22: Arquitectura de red GoogLeNet [28]

Funciones de activaci´on

Es solo una función que se usa para obtener la salida del nodo. También se conoce como función de transferencia.

Estas funciones de activaci´on con redes neuronales se utilizan para determinar la salida de la red neuronal, como s´ı o no. Mapea los valores resultantes entre [0,1] o [-1,1], etc. (dependiendo de la funci´on).

Las funciones de activaci´on se pueden dividir b´asicamente en 2 tipos:

Funci´on de activaci´on lineal

Funciones de activaci´on no lineales

Funci´on de paso

Para comprender lo que son las funciones de activaci´on es necesario saber lo que hace una neurona artificial, que en pocas palabras, calcula una ”suma ponderada”de su entrada, agrega un sesgo y luego decide si debe ”dispararse.o _{no (s´ı, claro, una funci´}_{on de activaci´}_{on hace}

esto, pero vamos con el flujo por un momento). As´ı que consideremos una neurona:

y=P

(weight∗input) +bias

El valor de Y puede ser cualquier cosa que va desde [−∞,+∞]. La neurona realmente no conoce los l´ımites del valor.

Funci´on de paso

(39)

el valor de Y est´a por encima de un cierto valor, declararlo activado. Si es menor que el umbral, entonces no. Se deciden agregar “funciones de activaci´on”para verificar el valor de Y producido por una neurona y decidir si las conexiones externas deben considerar esta neurona como “activada.o _no.

Funci´on de activaci´onA = activada, si Y >umbral, de lo contrario no. Alternativamente, A = 1, si Y >umbral, de lo contrario 0.

Lo anteriormente mencionado es una “funci´on escalonada”, consulte la figura 1-35.

Figura 1-23: Funci´on binaria[61]

As´ı que esto hace una funci´on de activaci´on para una neurona. Sin embargo, hay ciertos inconvenientes con esto.

Supongamos que est´a creando un clasificador binario. Algo que deber´ıa decir “s´ı.o_{“no”(activar}

o desactivar). Una Función de Paso podr´ıa hacer esto, diga un 1 o un 0. Ahora, se plantea el caso de uso en el que desear´ıa que varias neuronas de este tipo estuvieran conectadas para generar más clases. Clase 1, clase 2, clase 3, etc. Si se llegara a activar más de una neurona, todas las neuronas emitirán un 1 (desde la función de paso).

Lo deseado ser´ıa que la red activara solo 1 neurona y que otras fueran 0, solo entonces podr´ıa decir que clasificó correctamente o identificó la clase. Esto es más dif´ıcil de entrenar y converger de esta manera. Para este caso es mejor que la activación no sea binaria y en su lugar fuera “50 % activado.o _{“20 % activado} 2 _{as´ı sucesivamente. Y luego, si m´}_{as de}

1 neurona se activa, se lograr´ıa encontrar qué neurona tiene la “activación más alta 2 as´ı sucesivamente[61].

(40)

Para esto se necesita algo que nos de valores de activaci´on intermedios (anal´ogicos) en lugar de decir “activado.o _{no (binario).}

Funci´on lineal

A =cX

Es una función de l´ınea recta donde la activación es proporcional a la entrada (que es la suma ponderada de la neurona). De esta manera, proporciona un rango de activaciones, por lo que no es una activación binaria. Definitivamente, es posible conectar algunas neuronas juntas y si más de 1 se dispara, se toma el máximo (o softmax) y decidir con base a eso. Aunque esta función también tiene un inconveniente, el descenso de gradiente para el entrenamiento, observar´ıa que para esta función, la derivada es una constante.

A=cX, derivado con respecto a x es c. Eso significa que el gradiente no tiene relación con X. Es un gradiente constante y el descenso estará en un gradiente constante. Si hay un error en la predicción, los cambios realizados por la propagación hacia atrás son constantes y no dependen del cambio en la entrada delta (x)[61].

También hay otro problema. En las capas conectada, cada capa es activada por una función lineal. Esa activación, a su vez, pasa al siguiente nivel como entrada y la segunda capa calcula la suma ponderada de esa entrada y, a su vez, se activa basándose en otra función de activación lineal.

Sin importar la cantidad de capas, si todas son de naturaleza lineal, la función de activación final de la última capa no es más que una función lineal de la entrada de la primera capa. Eso significa que estas capas pueden ser reemplazadas por una sola capa, as´ı que, sin importar cómo se apilen, toda la red sigue siendo equivalente a una sola capa con activación lineal (una combinación de funciones lineales de manera lineal es otra función lineal).

Este comportamiento se puede analizar en PlayGround de TensorFlow5, que es una aplicaci´on web de visualizaci´on interactiva que permite simular redes neuronales simples que se ejecutan el nuestro navegador, y ver los resultados en tiempo real.

Esta herramienta nos ofrece cuatro tipos de datos (Gaussiano, circulo, exclusive OR y espi-ral). La idea es probar diferentes par´ametros y analizar el comportamiento de la red.

Para ejemplificar el problema anteriormente respecto a las funciones lineales, se realiz´o el modelo y se tomaron como datos los distribuidos en c´ırculo. En la siguiente figura podemos observar la aplicaci´on mostrando los datos en forma de circulo.

(41)

Figura 1-24: Datos distribuidos en forma de circulo, Playground Tensorflow

Ahora veamos el comportamiento del modelo con una capa oculta y que tiene una sola neurona usando la funci´on de activaci´onlinear.

Figura 1-25: Modelo clasificador de una sola capa oculta con una sola neurona y funci´on de activaci´on lineal, Playground Tensorflow

(42)

Ahora veamos qué pasa cuando se le agregan más capas ocultas al modelo anterior y más neuronas a cada capa:

Figura 1-26: Modelo clasificador de varias capas ocultas con varias neuronas y funci´on de activaci´on lineal, Playground Tensorflow

En conclusión una serie de capas ocultas con muchas neuronas en ellas, es equivalente a una sola neurona cuando se usa la función de activación lineal. esto pasa porque las neurona no añaden ninguna no linealidad al modelo, simplemente colapsan las señales de entrada y simplemente hacen una combinación lineal lo que genera un plano. Entonces, as´ı se agreguen muchas capas ocultas y a estas capas se le agreguen muchas neuronas, la combinación lineal de todas las combinaciones lineales que se producen en todas las capas ocultas es el equi-valente a una sola neurona, por eso vemos en los modelos de las figuras 2-15 y 2-16 que a pesar de su diferencia en el modelo, producen el mismo resultado y ninguno logra solucionar el problema.

Funci´on sigmoidea

La razón principal por la que se usa la función sigmoidea es porque existe entre [0 a 1]. Por lo tanto, se utiliza especialmente para los modelos en los que tenemos que predecir la probabilidad como una salida. Dado que la probabilidad de que algo exista solo entre el rango de 0 y 1, sigmoidea es la opción correcta.

(43)

Figura 1-27: Funci´on sigmoidea[61]

Como se puede observar la ecuación y su representación gráfica en la figura 2-38 esta es de naturaleza no lineal. Las combinaciones de esta función también son no lineales. Con esta función de activación es posible apilar capas.

Si se observa, entre los valores de X[-2, 2], los valores deY son muy elevados. Lo que significa que cualquier pequeño cambio en los valores de X en esa región hará que los valores de Y cambien significativamente. Eso significa que esta función tiene una tendencia a llevar los valores Y a cualquiera de los extremos de la curva.

Parece que es bueno para un clasificador considerando su propiedad, tiende a llevar las activaciones a ambos lados de la curva (por encima de x = 2 y por debajo de x = -2, por ejemplo). Haciendo distinciones claras en la predicci´on[61].

Otra ventaja de esta función de activación es que, a diferencia de la función lineal, la salida de la función de activación siempre estará en el rango (0,1) en comparación con (-inf, inf) de la función lineal. As´ı que se tienen las activaciones ligadas en un rango.

Las funciones sigmoideas son una de las funciones de activación más utilizadas en la actua-lidad. Aunque también tienen un inconveniente, si observa, hacia cualquier extremo de la función sigmoidea, los valores de Y tienden a responder mucho menos a los cambios en X, esto significa que el gradiente en esa región será pequeño. Esto da lugar a un problema de “gradientes de fuga”.

El gradiente es pequeño o se ha desvanecido, no puede hacer un cambio significativo debido al valor extremadamente pequeño. La red se niega a aprender más o es drásticamente lenta (dependiendo del caso de uso y hasta que el gradiente / cálculo se vea afectado por los l´ımites de valor de punto flotante). Hay formas de solucionar este problema y sigmoid sigue siendo muy popular en los problemas de clasificación[61].

(44)

Figura 1-28: Modelo clasificador de una capa oculta y una neurona con funci´on de activa-ci´on sigmoid[61]

Evidentemente un modelo de clasificación compuesto por una sola neurona y con función de activaciónsigmoid no soluciona el problema de agrupación. Entonces agregamos más capas ocultas y más neuronas y obtuvimos el siguiente resultado:

(45)

Vemos que con solo agregar 3 neuronas a una capa oculta de un modelo de clasificación con función de activaciónsigmoid, se logra trazar la linea fronteriza entre ambos grupos de datos.

Funci´on Tanh

Figura 1-30: Funci´on tanh[61]

Otra función de activación que se utiliza es la función tanh. Esta es una función sigmoidea escalada, tiene caracter´ısticas similares a la función sigmoid discutidos anteriormente. Es de naturaleza no lineal, esto significa que podemos apilar capas. Está limitado a un rango (-1, 1), por lo que no hay preocupaciones de que las activaciones exploten. Un punto a mencionar es que el gradiente es más fuerte para tanh que para sigmoide (los derivados son más pronunciados). La decisión entre el sigmoide o el tanh dependerá del requisito de gradiente de fuerza. Al igual que sigmoide, Tanh también tiene el problema de la degradación de la desaparición. Tanh es también una función de activación muy popular y ampliamente utilizada[61].

f(x) = tanh(x) = ₁₊_e−22x₋₁

ReLu (Función de Activación Lineal Rectificada) Más tarde, viene la función ReLu,

(46)

Figura 1-31: Funci´on tanh[61]

La funci´on ReLu es como se muestra en la figura 1-43. Da una salida x, si x es positiva y 0 en caso contrario.

A simple vista, esto parecer´ıa tener los mismos problemas de función lineal, ya que es lineal en el eje positivo. En primer lugar, ReLu es de naturaleza no lineal, por tanto las combi-naciones de ReLu tampoco son lineales, as´ı que esto significa que podemos apilar capas. El rango de ReLu es [0,+∞). Esto significa que puede explotar la activación. Otro punto a tener en cuenta es la escasez de la activación. Si se tiene una gran red neuronal con muchas neuronas, el uso de un sigmoide o tanh hará que casi todas las neuronas se activen de forma análoga, eso significa que casi todas las activaciones se procesarán para describir la salida de una red. En otras palabras, la activación es densa. Esto es costoso, lo ideal ser´ıa que algunas neuronas de la red no se activen y, por lo tanto, hagan que las activaciones sean dispersas y eficientes[61].

(47)

ReLu. Tambi´en hay otras variaciones. La idea principal es dejar que el gradiente no sea cero y recuperarse durante el entrenamiento eventualmente[61].

ReLu es menos costoso computacionalmente que tanh y sigmoide porque involucra operacio-nes matemáticas más simples. Ese es un buen punto a considerar cuando estamos diseñando redes neuronales profundas.

Figura 1-32: Modelo clasificados con una capa oculta y una neurona con activaci´on ReLu[61]

Aplicando el mismo ejemplo que en la función de activación lineal y sigmoid, se diseñó un modelo de clasificación con una sola capa oculta y una neurona, pero esta vez con función de activación ReLu:

Obviamente una sola neurona no es capaz de solucionar el problema de agrupación, porque la información se concentrada en esa única neurona, pero luego de esa neurona a la neurona de salida no se está generando ninguna manipulación, sigue siendo como trabajar con una ´

unica capa.

(48)

Figura 1-33: Modelo clasificados con una capa oculta y una neurona con activaci´on ReLu[61]

Softmax

La función Softmax calcula la distribución de probabilidades del evento sobre ñéventos dife-rentes. En términos generales, esta función calculará las probabilidades de cada clase objetivo sobre todas las clases objetivo posibles. Más tarde, las probabilidades calculadas serán útiles para determinar la clase objetivo para las entradas dadas.

La principal ventaja de usar Softmax es el rango de probabilidades de salida. El rango será de 0 a 1 , y la suma de todas las probabilidades será igual a uno . Si la función softmax utilizada para el modelo de clasificación múltiple devuelve las probabilidades de cada clase y la clase objetivo tendrá una probabilidad alta.

La fórmula calcula la exponencial (e-potencia) del valor de entrada dado y la suma de los valores exponenciales de todos los valores en las entradas. Luego, la relación de la exponen-cial del valor de entrada y la suma de los valores exponenexponen-ciales es la salida de la función Softmax[40].

(49)

Figura 1-34: Softmax vs Sigmoid

Dropout

Las redes neuronales profundas contienen múltiples capas ocultas no lineales, lo que las convierte en modelos muy expresivos que pueden aprender relaciones muy complicadas entre sus entradas y salidas. Sin embargo, con datos de entrenamiento limitados, muchas de estas relaciones complejas serán el resultado del ruido de muestreo, por lo que existirán en el conjunto de entrenamiento pero no en datos de prueba reales, incluso si se extraen de la misma distribución. Esto conduce al sobreajuste y se han desarrollado muchos métodos para reducirlo. Estos incluyen detener el entrenamiento tan pronto como el rendimiento en un conjunto de validación empiece a empeorar [53].

Figura 1-35: Modelo neuronal de Dropout [53]

(50)

izquierda. Se han eliminado unidades cruzadas.

Dropout es una técnica que aborda estos dos problemas: Previene el sobreajuste y proporcio-na uproporcio-na forma de combiproporcio-nar aproximadamente de manera exponencial muchas arquitecturas de redes neuronales diferentes de manera eficiente. El término ”Dropout”se refiere a abandonar unidades (ocultas y visibles) en una red neuronal. Al abandonar una unidad, nos referimos a su eliminación temporal de la red, junto con todas las conexiones entrantes y salientes, como se muestra en la siguiente figura. La elección de qué unidades eliminar es aleatoria. En el caso más simple, cada unidad se retiene con una probabilidad fija p independiente de otras unidades, donde p puede elegirse utilizando un conjunto de validación o simplemente puede establecerse en 0.5, lo que parece ser casi óptimo para una amplia gama de redes y Tareas. Sin embargo, para las unidades de entrada, la probabilidad óptima de retención suele ser más cercana a 1 que a 0.5 [53].

,

Figura 1-36: Neuronas con Dropout[53]

A la izquierda se tiene una unidad en tiempo de entrenamiento que está presente con pro-babilidad p y está conectada a unidades en la siguiente capa con pesos w. A la derecha está en el momento de la prueba, la unidad siempre está presente y los pesos se multiplican por

p. La salida en el momento de la prueba es la misma que la salida esperada en tiempo de entrenamiento.[53].

Aplicar Dropout a una red neuronal equivale a muestrear una red “reducida” de ella. La red reducida consta de todas las unidades que sobrevivieron a la eliminación. Una red neuronal con n unidades, puede verse como una colección de 2n posibles redes neuronales adelgaza-das. Todas estas redes comparten ponderaciones, de modo que el número total de parámetros sigue siendo 0 (n2), o menos. Para cada presentación de cada caso de capacitación, se mues-trea y entrena una nueva red reducida. Por lo tanto, la capacitación de una red neuronal con abandono se puede ver como una colección de 2n redes reducidas con un amplio intercambio de peso, donde cada red adelgazada se entrena muy rara vez, si es que lo hace [53].

La idea del Dropout no se limita a alimentar las redes neuronales. Se puede aplicar de manera más general a modelos gráficos como las máquinas Boltzmann6_.

(51)

Descripci´on del modelo

Esta secci´on describe el modelo de red neuronal Dropout. Considere una red neuronal con L capas ocultas. Sea l{1, ., ., ., L} indexa las capas ocultas de la red. Sea z(l) _{el vector de}

entradas en la capa l, y(l) _{el vector de salidas de la capa l (y}(0) ₌_x _{es la entrada).w}(l) _y _b(l)

son los pesos y sesgos en la capa l. La operaci´on de avance de una red neuronal est´andar se puede describir como (para l{1, ., ., ., L−1} y cualquier unidad oculta i):

z_i(l+1) =w_i(l+1)+b(_il+1),

y(_il+1) =f(z_i(l+1))

donde f es cualquier funci´on de activaci´on, por ejemplo, f(x) = ₍₁₊_e1(−x)₎, con el Dropout, la

operaci´on de avance se convierte en:

r_j(l)∼Bernoulli(p),

e

y(l) ₌_r(l)_∗_y(l)_,

z_i(l+1) =w_i(l+1)y_el+b(1+_i l),

y(_il+1) =f(z_i(l+1))

Figura 1-37: Comparación de las operaciones básicas de una red estándar y de Dropout[33]