Aprendizaje supervisado por la web basado en información multi-modal de imágenes

(1)

basado en informaci´

on multi-modal de

im´

agenes

Por

Ricardo Ben´ıtez Jim´enez

Tesis sometida como requisito parcial para obtener el grado de

Maestro en Ciencias en el ´area de Ciencias Computacionales

en el

Instituto Nacional de Astrof´ısica, ´Optica y Electr´onica Agosto, 2019

Tonantzintla, Puebla, Mexico

Dirigida por:

Hugo Jair Escalante Balderas Eduardo Francisco Morales Manzanares

Coordinaci´on de Ciencias Computacionales INAOE, Mexico

c

INAOE 2019

El autor otorga al INAOE el permiso de reproducir esta tesis en su totalidad o en partes.

(2)

(3)

Agradecimientos

A mis asesores, el Dr. Hugo Jair Escalante y el Dr.Eduardo Morales Manzana-res, por su gu´ıa invaluable durante el desarrollo de esta tesis.

Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACYT) por el apoyo brindado para la culminaci´on de mis estudios.

Al Instituto Nacional de Astrof´ısica, ´Optica y Electr´onica (INAOE) y a los profe-sores por el conocimiento de me han transmitido.

(4)

(5)

Abstract

Nowadays, in domestic assistance robotics it is of great interest to find objects as part of a sub-task of a particular activity, such as carrying an object from one place to another. However, sometimes the object to be recognized is not part of the existing models for object recognition. An alternative it is learning to recognize a new object category is by retrieving images of the object via the Internet, this technique is known as Webly-supervised learning (WSL). However, use all the retrieved images to train a classifier produces a low performance in this task due to the amount of irrelevant images retrieved from the Web.

Recent approaches use irrelevant images in their initial classifiers in order to filter irrelevant images, furthermore, they do not show evidence that their approaches work to learn unknown object categories. In this thesis we present a new method inspired by meta-learning allowing to take advantage of the information (textual and visual) in the Web to image filtering of unknown object categories in a multi-modal approach. The experimental results show that the proposed method is an alternative that offers a similar performance to the manual selection of relevant images in object recognition task.

(6)

(7)

Resumen

Actualmente en robótica de asistencia doméstica es de gran interés encontrar objetos como parte de una subtarea de una actividad en particular, tal es el caso de mover un objeto de un lugar a otro. Sin embargo, en ocasiones el objeto a reconocer no forma parte de los modelos existentes para el reconocimiento de objetos. Una manera de aprender a reconocer un nuevo objeto es recuperando imágenes del objeto por medio de Internet, a esta técnica se le conoce como aprendizaje supervisado por la Web (WSL por sus siglas en inglés). No obstante, utilizar todas las imágenes recuperadas para el entrenamiento de un clasificador produce un bajo rendimiento en esta tarea debido a la cantidad de imágenes irrelevantes recuperadas de la Web.

Los enfoques existentes conservan imágenes irrelevantes en sus clasificadores ini-ciales para el filtrado de imágenes irrelevantes, además de no presentar evidencia de que sus enfoques funcionen adecuadamente en objetos desconocidos. En este trabajo se propone un nuevo método inspirado en el meta-aprendizaje que permite tomar ventaja de la información (textual y visual) presente en la Web para filtrar de mane-ra multi-modal imágenes de categor´ıas desconocidas. Los resultados experimentales muestran que el método propuesto es una alternativa que ofrece un rendimiento si-milar a la selección manual de imágenes relevantes en la tarea de reconocimientos de objetos.

(8)

(9)

´Indice general

Agradecimientos III

Abstract V

Resumen VII

1. Introducci´on 1

1.1. Motivaci´on . . . 5

1.2. Descripci´on del problema . . . 6

1.3. Objetivos . . . 7

1.3.1. Objetivo general . . . 7

1.3.2. Objetivos espec´ıficos . . . 7

1.4. Organizaci´on de tesis . . . 8

2. Marco te´orico 9 2.1. Aprendizaje computacional . . . 9

2.2. Herramientas para la extracci´on de conocimiento . . . 12

(10)

2.2.1. ConceptNet: Conocimiento del sentido com´un . . . 12

2.2.2. Word embeddings . . . 13

2.3. Medidas de similitud entre vectores . . . 14

2.4. Aprendizaje computacional multi-modal . . . 17

2.5. Meta-aprendizaje . . . 18

2.6. Algoritmos de aprendizaje computacional . . . 20

2.7. Aprendizaje profundo para la tarea de reconocimiento de objetos . . . 22

2.7.1. Perceptr´on simple . . . 23

2.7.2. Perceptr´on multi-capa . . . 24

2.7.3. Red neuronal profunda . . . 25

2.7.4. Red neuronal convolucional . . . 28

2.7.5. Entrenamiento deCNN . . . 29

2.8. Medidas de evaluaci´on . . . 31

2.9. Prueba estad´ıstica de Friedman . . . 32

2.10. Prueba de Nemenyi . . . 34

3. Trabajo relacionado 35 3.1. WSL para el reconocimiento de objetos . . . 35

3.2. Aprendizaje multi-modal para la clasificaci´on . . . 44

4. M´etodo propuesto 49 4.1. Generaci´on de consulta . . . 52

(11)

4.3. Filtrado de im´agenes . . . 54

4.3.1. Extracci´on de meta-atributos visuales . . . 55

4.3.2. Meta-atributos de informaci´on textual . . . 58

4.4. Entrenamiento de CNN para el reconocimiento de objetos . . . 61

4.5. Construcci´on de base de datos . . . 62

5. Experimentos y resultados 67 5.1. Configuraci´on general de experimentos . . . 68

5.2. Determinaci´on de consulta visual . . . 69

5.2.1. Evaluaci´on de la consulta visual . . . 70

5.2.2. Evaluación del filtrado de imágenes basado en información visual 75 5.3. Filtrado de imágenes con información dependiente del objeto y contexto 79 5.3.1. Evaluación del filtrado de imágenes basado en información tex-tual dependiente del contexto . . . 79

5.3.2. Evaluación del filtrado de imágenes basado en información tex-tual dependiente del objeto . . . 83

5.4. Filtrado multi-modal . . . 87

5.4.1. Configuraci´on de experimentos para el reconocimiento de objetos 99 5.5. Evaluaci´on del reconocimiento de objetos . . . 100

(12)

6. Conclusiones y trabajo futuro 107

6.1. Filtrado de im´agenes . . . 107

6.2. Reconocimiento de objetos . . . 108

6.3. Contribuciones . . . 109

(13)

´Indice de figuras

Lista de Acr´onimos . . . XXI

1.1. Ejemplo primeros resultados de b´usqueda recuperados para la consul-ta apple proporcionados por Google Im´agenes. . . 5

2.1. Representaci´on de los t´erminos relacionados a los conceptos apple y

house. . . 13

2.2. Representaci´on vectorial obtenida de Word2Vec de algunos pa´ıses y sus capitales . . . 14

2.3. Tipos de fusi´on de informaci´on para el aprendizaje multi-modal . . . 19

2.4. Fronteras encontradas por una SVM con kernel de base lineal y una

SVM con base radial. . . 21

2.5. Representación de a) un perceptrón simple y b) un perceptrón multi-capa. . . 24

2.6. La ilustraci´on de una red neuronal con una capa oculta (derecha) y la representaci´on de una red neuronal profunda con 3 capas ocultas. . 26

2.7. Función de activación sigmoid,tangente hiperbólica y unidad lineal rectificada ilustradas en ese mismo orden de izquierda a derecha. . . . 27

(14)

2.8. Ilustraci´on de las capas que conforman a la CNN Inception V3 (ima-gen recuperada deGoogle Cloud Platform . . . 29

3.1. Figura de tabla comparativa del trabajo relacionado . . . 36

3.2. Ejemplos de imágenes y relaciones encontradas enmarcando la detec-ción que realiza después del entrenamiento [Divvala et al., 2014]. . . . 38

3.3. Primeras 20 im´agenes recuperadas de Google para la consulta dish. . 40

3.4. Proceso de entrenamiento para la detecci´on de objetos propuesto por [Chen and Gupta, 2015]. . . 41

3.5. Proceso de aprendizaje utilizado por CurriculumNet propuesto por [Guo et al., 2018] basado en el entrenamiento por medio de curricula. 42

3.6. Esquema del modelo de predicción multi-modal empleado por [Zhu et al., 2019] para la clasificación de imágenes. . . 46

4.1. Esquema general del WSL . . . 49

4.2. Diagrama de la generación de consulta y la recuperación de informa-ción del método propuesto. . . 53

4.3. Ejemplo de las consultas visual (QV C) y textuales dependientes del

objeto (QO,QEO) y contexto (QC,QEC). . . 55

4.4. Esquema de la etapa del filtrado y entrenamiento para el reconoci-miento de objetos del m´etodo propuesto. . . 56

4.5. Ejemplos de la informaci´on disponible por objeto y algunos meta-atributos visuales y textuales obtenidos para distintas im´agenes (re-levantes e irre(re-levantes). . . 58

(15)

conforma la base de datos. . . 65

4.7. Ejemplos del etiquetado de los objetosApple, Cup y Softener que se realiz´o en la base de datos. . . 65

5.1. Gr´aficas de vela de la exactitud, precisi´on, recuerdo, medida-F1 y

AUC ROC respecto al n´umero de im´agenes que construyen la consulta visual . . . 72

5.2. Prueba de Nemenyi de la exactitud, precisi´on, recuerdo, medida-F1 y AUC ROC utilizando el vector promedio de las primerasm im´agenes 73

5.3. Comparaci´on de diferentes clasificadores utilizando la consulta visual con el vector promedio de las primeras 75 im´agenes. . . 76

5.4. Prueba estad´ıstica utilizando el vector representativo de los primeras 75 im´agenes con diferentes clasificadores. . . 77

5.5. Comparación de la exactitud, precisión, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de imágenes utili-zando meta-atributos dependientes del contexto. . . 80

5.6. Prueba estad´ıstica de la exactitud, precisi´on, recuerdo, medida-F1 y

AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos dependientes del contexto. . . 81

5.7. Comparación de la exactitud, precisión, recuerdo, medida-F1 y AUC ROC respecto al número modelo utilizado para el filtrado de imágenes utilizando meta-atributos dependientes del objeto. . . 84

(16)

AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos dependientes del objeto. . . 85

5.9. Ejemplos de las im´agenes seleccionadas de los objetos Apple, Cup y Softener con meta-atributos visuales, de objeto y del contexto. . . 87

5.10. Comparación de la exactitud, precisión, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de imágenes utili-zando meta-atributos con fusión temprana del objeto y contexto. . . . 89

AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del objeto y contexto . 90

5.12. Medidas de la exactitud, precisi´on, recuerdo, medida-F1 yAUC ROC

respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del objeto y visual. . . 91

5.13. Estad´ıstica de la exactitud, precisión, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de imágenes utili-zando meta-atributos con fusión temprana del objeto y visual. . . 92

5.14. Medidas de la exactitud, precisi´on, recuerdo, medida-F1 yAUC ROC

respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del contexto y visual. . . 94

AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del contexto y visual. . 95

(17)

respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del objeto, contexto y visual. . . 96

5.17. Estad´ıstica de la exactitud, precisión, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de imágenes uti-lizando meta-atributos con fusión temprana del objeto, contexto y visual. . . 97

5.18. Gráfica de bigotes de cada una de las medidas de evaluación (eje vertical) y cada uno de los modelos entrenados con diferentes métodos de filtrado (eje horizontal) para el reconocimiento de objetos. . . 103

5.19. Prueba estad´ıstica de la precisi´on, exactitud, recuerdo y medida-F1, en la tarea de reconocimiento de objetos. . . 104

(18)

(19)

Lista de Tablas

4.1. Lista de objetos, número de imágenes descargadas, imágenes relevan-tes e irrelevanrelevan-tes para cada objeto. . . 64

5.1. Tabla de resultados considerando las primerasm im´agenes utilizando regresi´on log´ıstica como clasificador. . . 71

5.2. Tabla de resultados del uso de diferentes modelos de clasificaci´on con meta-atributos visuales . . . 76

5.3. Tabla de resultados obtenidos por diferentes clasificadores utilizando s´olo meta-atributos dependientes contexto. . . 79

5.4. Tabla de resultados obtenidos del uso de meta-atributos considerando s´olo el objeto. . . 83

5.5. Tabla de resultados obtenidos realizando una fusi´on temprana con los meta-atributos basados en el objeto y contexto. . . 88

5.6. Tabla de resultados obtenidos realizando una fusi´on temprana con los meta-atributos basados en informaci´on visual y del objeto. . . 90

5.7. Tabla de resultados obtenidos realizando una fusi´on temprana con los meta-atributos basados en informaci´on visual y del contexto. . . 93

(20)

5.8. Tabla de resultados obtenidos de la fusi´on temprana de meta-atributos basados en informaci´on visual, del contexto y objeto. . . 97

5.9. Resumen de los resultados obtenidos por LDA en fusi´on temprana, tard´ıa y uni-modal en el filtrado de im´agenes. . . 98

5.10. Resultados obtenidos por diferentes m´etodos de filtrado en la tarea de reconocimiento de objetos. . . 102

(21)

CNN Red neuronal convolucional

LDA An´alisis discriminante lineal

MLP Perceptr´on multi-capa

SLP Perceptr´on de una capa

SVM M´aquina de soporte vectorial

TP Verdadero positivo

FP Falso positivo

VN Verdadero negativo

FN Falso negativo

WMD Word mover’s distance

WSL Aprendizaje supervisado por la Web

(22)

(23)

Cap´ıtulo 1

Introducci´on

Hoy en d´ıa consultar la Web en busca de conocimiento, sugerencias de compras o para interactuar con amigos es una actividad común en la vida de muchas personas alrededor del mundo. Tan sólo en México según un estudio realizado durante el 2018 y publicado en Mayo del 2019 por el INEGI1 _{declara que hay 74.3 millones de usuarios} en la república mexicana. Este estudio reporta que las 3 principales actividades que realizan los usuarios en Internet son para entretenimiento, comunicarse y obtener información. Gracias a la Web interactiva con la que se cuenta en la actualidad y al interés de los usuarios por compartir sus experiencias, millones de datos son transferidos por múltiples dispositivos a través de Internet, dentro de los cuales se encuentran imágenes o fotograf´ıas y texto que los usuarios comparten por diferentes medios, incluyendo blogs, bancos de imágenes y por supuesto las redes sociales.

Los buscadores de Internet como Google, Yahoo y Bing, entre otros, enfrentan un reto importante para recuperar, organizar, filtrar y presentar a los usuarios la informaci´on disponible cuando se realiza una consulta. Estas herramientas han

des-1_{https://www.inegi.org.mx/contenidos/saladeprensa/aproposito/2019/internet2019_}

Nal.pdf

(24)

2

pertado interés en los investigadores que trabajan en distintas áreas de las ciencias computacionales, una de ellas es el área de visión por computadora. Debido a que es posible recuperar imágenes de Internet de manera automática por medio de los navegadores Web y utilizarlas como base de datos de entrenamiento en distintos mo-delos de aprendizaje para el reconocimiento de objetos, a esta técnica se le conoce como aprendizaje supervisado por la Web (WSL por sus siglas en inglés).

El WSL consiste principalmente en, generar la consulta o consultas a la Web, recuperar, extraer o filtrar la información de interés y posteriormente entrenar un algoritmo de aprendizaje computacional para una tarea espec´ıfica. Obtener la infor-mación deseada de manera automática por medio de la Web es dif´ıcil debido a que una imagen puede estar relacionada a texto irrelevante o en otro caso texto relevante asociado a una imagen irrelevante lo que produce finalmente un bajo rendimiento en la tarea de clasificación final.

Recientemente los buscadores de Internet han mejorado sus algoritmos de b´ usque-da de imágenes basada en texto, sin embargo, en algunas ocasiones no son lo suficien-temente discriminatorios para eliminar algunos resultados de búsqueda irrelevantes para la consulta. Para lidiar con ello generalmente el usuario cambia o expande la consulta para obtener mejores resultados de búsqueda. Aún con estas acciones, utilizar todo el conjunto de imágenes directamente para entrenamiento de algún mo-delo de aprendizaje produce un bajo rendimiento en la tarea de reconocimiento de imágenes. Por lo tanto, aprender de la Web la representación visual de un objeto en particular requiere de seleccionar automáticamente del conjunto de imágenes aque-llas que son relevantes y as´ı obtener un desempeño similar al filtrado manual de una persona en la tarea de reconocimiento.

(25)

En la literatura se han propuesto diferentes técnicas para el WSL, algunas de ellas consideran realizar múltiples consultas sobre un mismo objeto esperando que al conservar las primeras imágenes de los resultados de búsqueda, las irrelevantes sean minor´ıa y no afecten de manera considerable en la exactitud del modelo resul-tante [Chen et al., 2013]. Otros trabajos proponen utilizar las primeras n imágenes descargadas para entrenar un clasificador inicial con el cual durante una serie de nuevas etapas posteriores descartar aquellas que no son relevantes [Divvala et al., 2014, Chen and Gupta, 2015, Modolo and Ferrari, 2017]. Por otro lado [Guo et al., 2018] realiza un aprendizaje por curr´ıcula, que consiste en aprender de manera or-denada, primero los ejemplos fáciles y después con los dif´ıciles.

Los métodos antes mencionados no consideran la abundante información textual existente en la Web para filtrar o clasificar las imágenes obtenidas, [Divvala et al., 2014] sólo usan la información textual para expandir la consulta, mientras que [Chen et al., 2013,Chen and Gupta, 2015,Modolo and Ferrari, 2017] y [Guo et al., 2018] no consideran la información textual en ninguna de sus etapas. En el presente trabajo se considera la información textual para expandir la consulta y para el filtrado de las imágenes relevantes. Lo anterior permite capturar la relación semántica entre el texto que acompaña a una imagen y la consulta (objeto y contexto).

[Guillaumin et al., 2010] y [Nag Chowdhury et al., 2018] han abordado la tarea de clasificación de imágenes desde un aprendizaje modal. El aprendizaje multi-modal toma en cuenta la información de múltiples dominios o modos, por ejemplo la información visual y textual.

En su trabajo [Guillaumin et al., 2010] y [Nag Chowdhury et al., 2018] reportan que el uso de ambas fuentes de información para la clasificación de un instancia mejora los resultados comparado con utilizar sólo una de las dos modalidades de manera

(26)

4

independiente. Estos métodos propuestos se encuentran limitados en aplicaciones de escenarios reales donde requieren hacer inferencias sobre un conjunto que sólo contienen información visual. Tal es el caso en el que un robot de servicio requiere la representación visual de un objeto para luego reconocerlo en un entorno f´ısico determinado (contexto).

Utilizar el contexto donde se realiza la consulta tampoco ha sido considerado por los m´etodos presentes en la literatura, por ejemplo, al consultar el objeto manzana

(apple) los buscadores de Internet usualmente presentan en los primeros resultados de búsqueda imágenes correspondientes al nombre de la empresa y de ciertos productos de la marca (ver figura 1.1). Considerar el contexto puede ayudar a resolver esa ambigüedad filtrando solo aquella información relevante para la escena donde se realizó la consulta. Por ejemplo para un el entornocasa (house), se podr´ıa considerar una mayor relevancia para las imágenes que corresponden a la fruta, posteriormente a los dispositivos y finalmente la empresa.

En el presente trabajo se presenta un método de WSL para el reconocimiento de objetos, que cuenta con un nuevo mecanismo de filtrado de imágenes inspirado en el meta-aprendizaje. La idea general del meta-aprendizaje es aprender a aprender basado en experiencias previas. En el aprendizaje computacional esto usualmente se realiza obteniendo atributos descriptivos (meta-atributos) sobre el rendimiento de varios clasificadores, sus parámetros empleados para ciertas tareas y los meta-atributos de la base de datos de la tarea donde se evaluó el desempeño [Hutter et al., 2019].

El método presentado logra mejorar el desempeño en el reconocimiento de objetos eliminando aquellas imágenes irrelevantes por medio de una clasificación multi-modal (visual y textual) que considera a la consulta (objeto y contexto) para determinar

(27)

la relevancia de la imagen.

Figura 1.1: Ejemplo primeros resultados de b´usqueda recuperados para la consulta apple

proporcionados por Google Im´agenes.

1.1. Motivaci´on

Desde hace algunos años se ha extra´ıdo información de la Web para usarla en el desarrollo de métodos que permitan estimar la ubicación de un objeto en un entorno espec´ıfico, usualmente dentro del hogar, por ejemplo, encontrar una manzana en una habitación. Como los métodos desarrollados por [Kollar et al., 2012, Samadi et al., 2012, Samadi et al., 2013] e [Izquierdo-Cordova et al., 2016]. En robótica, especialmente en robots de asistencia doméstica, es de gran interés encontrar objetos como parte de una subtarea de una actividad en particular, tal es el caso de mover un objeto de un lugar a otro.

Dentro de la b´usqueda de objetos en un entorno, reconocer el objeto es una tarea dif´ıcil, adicional a eso en algunos casos el objeto o los objetos solicitados no forman parte del conjunto de datos del modelo previamente entrenado, como los modelos desarrollados por [Szegedy et al., 2016,Szegedy et al., 2017] o [Redmon and Farhadi, 2018], que a pesar de alcanzar resultados calificados como buenos, no es posible que realicen una inferencia sobre alguna imagen que se encuentra fuera de su conjunto de entrenamiento de manera correcta. Una alternativa es aprender el nuevo objeto

(28)

6 1.2. DESCRIPCI ´ON DEL PROBLEMA

deseado a partir de las im´agenes recuperadas de Internet, sin embargo, anotar ma-nualmente las im´agenes adquiridas es una tarea que consume esfuerzo y un tiempo considerable.

El WSL ha sido utilizado para diferentes tareas de visión por computadora, como el reconocimiento y detección de objetos [Chen et al., 2013,Divvala et al., 2014,Chen and Gupta, 2015, Modolo and Ferrari, 2017, Guo et al., 2018], para el refinamiento de etiquetado [Nag Chowdhury et al., 2018] e incluso también para la segmentación de imágenes [Jin et al., 2017].

1.2. Descripci´on del problema

Los modelos de aprendizaje profundo elaborados por [Szegedy et al., 2016,Sze-gedy et al., 2017] o [Redmon and Farhadi, 2018] han logrado un alto rendimiento en la tarea de reconocimiento de objetos. Estos modelos han sido entrenados con conjuntos de datos etiquetados manualmente, tales como ImageNet [Deng et al., 2009],PASCAL VOC [Everingham et al., 2010],MS COCO [Lin et al., 2014], Label-Me [Russell et al., 2008], sin embargo, para reconocer un nuevo objeto inexistente en estos conjuntos de datos, es necesario recopilar un gran n´umero de ejemplos positivos del objeto. Una manera de hacerlo es recuperar im´agenes de Internet (por ejemplo,

Google Imágenes 2) y, a continuación, filtrar manualmente las imágenes relevantes de las irrelevantes, pero esto es un trabajo con un costo elevado y toma un tiempo considerable la realización de esta tarea. Por esta razón ha crecido el interés por el

WSL en el ´area de visi´on computacional.

Formalmente el WSL se puede expresar como la tarea de aprender una funci´on

f :X 7→ Y por medio de un conjunto de entrenamiento D={(x1, y1), ...,(xm, ym)},

(29)

donde X es el conjunto de atributos o caracter´ısticas, Y es la clase o etiqueta. En este caso particular del aprendizaje computacional la etiqueta ym es asignada por

la Web, desafortunadamente la información proveniente de Internet presenta ruido y datos faltantes lo que dificulta la caracterización correcta de cada ejemplo. Es por eso que usualmente se agregan mecanismos que reafirmen la pertenencia de las imágenes a la etiquetaym y con ello disminuir el impacto que producen las imágenes

irrelevantes en la tarea de reconocimiento de objetos.

1.3. Objetivos

A continuaci´on se presenta el objetivo general de este trabajo de tesis y los objetivos espec´ıficos que complementan al objetivo general.

1.3.1. Objetivo general

Desarrollar un método de aprendizaje de objetos supervisado por la Web basa-do en información multi-modal de imágenes que mejore el reconocimiento de objetos tomando en cuenta la información del escenario.

1.3.2. Objetivos espec´ıficos

1. Diseñar e implementar un método de filtrado de imágenes basado en informa-ción textual que considere al objeto y al contexto.

2. Diseñar e implementar un método de filtrado de imágenes basado en informa-ción visual de las imágenes.

3. Desarrollar un método de filtrado multi-modal que utilice la información tex-tual (dependiente del objeto y del contexto) y la información visual para el

(30)

8 1.4. ORGANIZACI ´ON DE TESIS

filtrado de im´agenes relevantes.

4. Desarrollar un m´etodo de aprendizaje supervisado por la Web para la tarea de reconocimiento de objetos.

1.4. Organizaci´on de tesis

El documento se encuentra organizado en 5 cap´ıtulos, posteriores al presente, en el próximo cap´ıtulo se introducen los conceptos fundamentales para la comprensión de las técnicas y herramientas de aprendizaje computacional contempladas en la tesis.

En el cap´ıtulo 3 se presentan los métodos y técnicas que se encuentran relacionados a este trabajo de tesis en cada una de las tareas correspondientes, por un lado para elWSL en reconocimiento de objetos y en el otro caso el uso de información multi-modal para la clasificación.

Los cap´ıtulos 4 y 5 abordan la construcción de la base de datos, el método propues-to para el filtrado de imágenes relevantes por medio de meta-atributos derivados de información multi-modal y los experimentos realizados entorno al método propuesto.

Finalmente el cap´ıtulo 6 remarca las conclusiones, contribuciones y el trabajo futuro respecto al presente trabajo.

(31)

Cap´ıtulo 2

Marco te´orico

En esta sección se describen los conceptos básicos que son utilizados dentro del presente documento. Comenzando por el aprendizaje computacional y el aprendizaje supervisado por la Web, posteriormente los recursos para la extracción de conoci-miento, las medidas de similitud empleadas para la construcción de meta-atributos, el aprendizaje multi-modal y sus variantes respecto a la fusión de información para la clasificación, los algoritmos utilizados para el método de filtrado, continuando con el aprendizaje profundo para el reconocimiento de objetos, las medidas de evalua-ción empleadas y finalmente, la descripción de las pruebas estad´ısticas a las que son sometidos cada uno de los experimentos realizados.

2.1. Aprendizaje computacional

El aprendizaje computacional se caracteriza por extraer conocimiento por me-dio de un conjunto de datos. Existen problemas en los cuales se conoce el modelo matemático y puede ser descrito a través de un algoritmo para llegar a la solución o a una aproximación de la solución del problema. Por otro lado en el aprendiza-je computacional se cuenta con un conjunto de datos y generalmente con la salida

(32)

10 2.1. APRENDIZAJE COMPUTACIONAL

(D = {(x1, y1), ...,(xi, yi)}, xi ∈ X, y yi ∈ Y) para cada elemento del conjunto en problemas de clasificación y regresión. Usualmente el conjunto de datos se divide en dos partes, una para el entrenamiento y otra para validar el método (conjun-to de prueba). Los algoritmos de aprendizaje computacional son los encargados de aprender una función (f : X 7→ Y) por medio de los datos de entrada del conjunto de entrenamiento para realizar predicciones sobre muestras no vistas en el futuro (conjunto de prueba).

Una forma de subdividir al aprendizaje computacional de acuerdo a la manera en la que se conoce la salida yi de cada uno de los elementos del conjunto de datos es

la siguiente:

Aprendizaje Supervisado: Considerando una clasificaci´on binaria entre las clases Y y N, Y = {Y, N}. El aprendizaje supervisado formalmente se define como una funci´on f : X 7→ Y que a partir de un conjunto de entrenamiento

D = {(x1, y1), ...,(xi, yi)}, xi ∈ X, y yi ∈ Y, sea capaz de realizar

aproximacio-nes del valor de salida yi por medio de un conjunto de atributos X. La etiqueta o

clase yi de cada ejemplo del conjunto de entrenamiento es asignada por un experto

y se considera que ha sido correctamente asignada [Zhou, 2017].

Aprendizaje no supervisado: En este tipo de aprendizaje se desconoce la eti-queta o clase yi de todos los ejemplos en el conjunto de entrenamiento, por lo que

solo se cuenta con el conjunto de atributos X de cada instancia y se pretende que los algoritmos de clasificación encuentren una separación entre los ejemplos perte-necientes a una clase y otra. Este tipo de aprendizaje no es útil cuando se quiere determinar de manera automática el grupo perteneciente a la clase (0 o1 ,spam o

no-spam, etc.) ya que no es posible asignar por medio de los algoritmos dise˜nados para este tipo de aprendizaje qu´e parte de la frontera corresponde a cada una de las

(33)

clases.

Aprendizaje semi-supervisado o supervisión incompleta: Se refiere gene-ralmente a la situación en la que se cuenta con una pequeña cantidad de datos etiquetados y se dispone de abundantes datos no etiquetados. Formalmente esta ta-rea se define como, encontrar una funciónf :X 7→ Y por medio de un conjunto de entrenamiento D ={(x1, y1), ...,(xl, yl), xl+1, ..., xm}, donde hay l número de ejem-plos etiquetados yu=m−l número de ejemplos sin etiquetar [Zhou, 2017], al igual que el aprendizaje supervisado la etiqueta yi ha sido etiquetada por un experto y se considera correctamente asignada.

Aprendizaje supervisado por la web: En WSL la etiqueta o clase yi ∈ Y,

corresponde a la consulta realizada, consultar la Web para la construcción de una base de datos, en espec´ıfico de imágenes, permite extraer información textual relacio-nada a la imagen, sin embargo, esto trae consigo una combinación de las siguientes situaciones:

1. En el caso ideal, tanto la imagen como el texto corresponden a la consulta realizada.

2. La imagen corresponde a la etiqueta pero el texto que la acompa˜na es irrele-vante para la consulta.

3. La imagen es irrelevante para la consulta, sin embargo, el texto asociado se encuentra relacionado.

4. En el peor caso, la imagen y el texto no se encuentran relacionados con la consulta.

5. Adicional a los casos anteriores, en ocasiones no es posible recuperar el texto que acompa˜na a la imagen lo que produce una gran cantidad de datos faltantes.

(34)

12 2.2. HERRAMIENTAS PARA LA EXTRACCI ´ON DE CONOCIMIENTO

Por estos motivos los trabajos relacionados alWSLproponen técnicas que utilizan información de las imágenes o de herramientas que agregan información de la consul-ta realizada basada en texto [Chen et al., 2013, Divvala et al., 2014, Nag Chowdhury et al., 2018] con la intención de disminuir el impacto del ruido en los datos de entre-namiento en la tarea de reconocimiento de objetos.

2.2. Herramientas para la extracci´on de conocimiento

Diferentes herramientas han sido propuestas para encontrar relaciones entre conceptos, cada una de estas con diferente representación del conocimiento, Concept-Net con una representación basada en grafos y Word2Vec basada en representación vectorial (Word embeddings).ConceptNet yWord2Vec son parte de las herramientas más utilizadas en la literatura y han mostrado proporcionar buenos resultados por medio de su uso individual o combinando la información que proporcionan, ambas herramientas se describen a continuación.

2.2.1. ConceptNet: Conocimiento del sentido com ´un

ConceptNet es un grafo que conecta palabras y frases del lenguaje natural con etiquetas (relaciones) y aristas ponderadas. La informaci´on o conocimiento que con-tiene esta herramienta proviene de m´ultiples fuentes, por ejemplo,WordNet, Wiktio-nary, Open Mind Common Sense y DBPedia. Algunas de las relaciones que podemos encontrar son: IsA, UsedFor y CapableOf, es un, se usa para y es capaz de, respec-tivamente [Speer et al., 2017].

La figura 2.1 ilustra a los conceptos apple y house por medio de relaciones entre diferentes t´erminos recuperados de ConceptNet. Se pueden observar relaciones como

(35)

living room is part of house entre otras.

Figura 2.1: Representaci´on de los t´erminos relacionados a los conceptosappleyhouse.

2.2.2. Word embeddings

Word embddings es una representación de un conjunto de palabras (vocabula-rio) en una representación vectorial, actualmente existen múltiples modelos que han sido entrenados con diferentes corpus y diferentes modelos de aprendizaje, entre los más destacados se encuentran,Glove [Pennington et al., 2014],FastText [Bojanowski et al., 2017] y Word2Vec [Mikolov et al., 2013a].

Word2Vec: Es posible extraer una representaci´on vectorial de palabras del len-guaje natural. Uno de los modelos pre-entrenados es el desarrollado por [Mikolov et al., 2013a], el cual fue entrenado con noticias de Google. Contiene 3 millones de palabras y frases, cada una representada en vectores de 300 dimensiones, esto

(36)

14 2.3. MEDIDAS DE SIMILITUD ENTRE VECTORES

permite llevar palabras, frases e incluso documentos de texto a una representaci´on vectorial. La figura 2.2 muestra algunos ejemplos de la representaci´on de pa´ıses y sus capitales.

Figura 2.2: Proyección en 2 dimensiones usando análisis de componentes principales (PCA por sus siglas en inglés) de la representación vectorial obtenida de Word2Vec de algunos pa´ıses y sus capitales (imagen recuperada de [Mikolov et al., 2013b])

2.3. Medidas de similitud entre vectores

Gracias a la representación vectorial de las palabras, frases o documentos de texto que podemos extraer conWord2Vecy en general de cualquier vector de n com-ponentes es posible obtener medidas de similitud basadas en vectores que nos ayuden a ponderar la similitud entre la consulta y cada resultado de búsqueda recuperado de la Web, las medidas utilizadas se presentan a continuación:

Suma de diferencias al cuadrado: SeanU y V dos vectoresn dimensionales, la suma de diferencias al cuadrado (SSD por sus siglas en ingl´es) se calcula basado en la ecuaci´on 2.1, donde ui y vi corresponden a cada uno de los elementos de los

(37)

vectores U y V respectivamente. El resultado de esta operaci´on se encuentra en el intervalo [0,n], cuanto m´as cercano el valor a cero indica una menor diferencia que puede ser interpretada como una mayor similitud entre los vectores y en caso contrario una menor similitud.

SSD =

n

X

i=0

(ui−vi)

2

(2.1)

Suma de diferencias absolutas: Considerando nuevamente a U y V dos vecto-resn dimensionales, la suma de diferencias absolutas (SAD por sus siglas en ingl´es) se determina basado en la ecuaci´on 2.2, donde ui ∈ U y vi ∈ U. Al igual que la

SSD los valores de esta funci´on van de 0 an, un valor cercano a 0 indica una menor diferencia entre los vectores lo que tambi´en representa una mayor similitud.

SAD=

n

X

i=0

(|ui−vi|) (2.2)

Distancia Euclidiana: Esta funci´on usa de manera interna la SSD, posterior a esto se calcula la ra´ız cuadrada de la suma total. La ecuaci´on 2.3 expresa la distancia Euclidiana, dondeui yvi son elementos de los vectoresU yV, los valores que retorna

esta funci´on se encuentran en el intervalo [0,n] y de igual manera, un valor cercano a 0 indica menor diferencia entre los vectores.

DistanciaEuclidiana= v u u t n X i=0

(ui −vi)2 (2.3)

Similitud coseno: Toma valores de -1 a 1, 1 cuando los vectores conservan la misma orientaci´on, es decir existe un ´angulo de 0◦ entre ellos, 0 cuando existe un ´

angulo de 90◦y -1 cuando los vectores se encuentran totalmente en dirección opuesta, es decir 180◦. Esta medida no considera la magnitud de los vectores involucrados, sólo su orientación. Cuando esta medida es utilizada para calcular similitud entre palabras o texto se interpreta que valores cercanos a 1 indican una mayor similitud.

(38)

16 2.3. MEDIDAS DE SIMILITUD ENTRE VECTORES

El calculo de la similitud coseno se realiza obteniendo el ángulo que existe entre los vectores U y V, para ello se divide el producto punto de los vectores, entre la multiplicación de sus normas. En la ecuación 2.4, U y V son dos vectores n

dimensionales y||U||, ||V|| se refieren a la norma del vector U y V respectivamente y cos se refiere a la funci´on trigonom´etrica coseno.

SimilitudCoseno(U, V) = cos(θ) =cos

U ·V ||U|| ||V||

(2.4)

Coeficiente de correlaci´on: Para dos vectores U y V el coeficiente de correlaci´on

r considera la covarianza existente entre los vectores U y V y es dividido por la ra´ız cuadrada de la multiplicación de la covarianza de cada vector individual. Este coeficiente retorna valores de−1 a 1, siendo−1 el indicador de una correlación lineal negativa, 0 la inexistencia de correlación y 1 una correlación lineal positiva entre los vectores, siendo [−1,1] el intervalo de esta función.

La función 2.6 expresa el coeficiente de correlaciónr, mientras que la función 2.5 la covarianza entre 2 vectores, dondemU y mV representan a la media del vector U

y V respectivamente.

Cov(U, V) = 1

n n

X

i=1

(ui−mU) (vi−mV) (2.5)

r = _p Cov(U, V)

Cov(U, U)∗Cov(V, V) (2.6)

Word Mover’s Distance (WMD): Es una medida presentado por [Kusner et al., 2015], especialmente dise˜nada para calcular la similitud entre dos documentos de texto, d1 y d2. Esta medida cuantifica el costo C m´ınimo en el que cada palabra

wdel documentod1 sea exactamente igual a alguna de las palabrasv del documento

d2. Para establecer este costo se empleaWord2Vec para obtener el vector que corres-ponde a cada una de las palabras de ambos documentos y posteriormente se realiza la suma de la distancia Euclidiana m´ınima entre las palabras de d1 y d2.

(39)

Formalmente se define en la ecuaci´on 2.7, donde n es la cantidad de palabras presentes end1,wi el vector de cada palabra que compone al documentod1, mientras quevj el vector de la palabrajque compone al documentod2, similar a otras medidas descritas un valor cercano a 0 indica una mayor similitud entre los documentos texto.

W M D(d1, d2) =

n

X

i=1

argmin[C(wi, v1), C(wi, v2), ..., C(wi, vm)] (2.7)

2.4. Aprendizaje computacional multi-modal

A diferencia del aprendizaje computacional uni-modal o aprendizaje compu-tacional, el aprendizaje multi-modal utiliza información de múltiples dominios o modalidades para realizar una predicción sobre un conjunto de datos que contiene información de cada dominio, existen tres medios de información principales por los que es posible obtener una representación de una instancia, visual, textual y audio.

Se han establecido tres maneras básicas de combinar o fusionar la información de cada una de las modalidades y también diferentes estrategias para realizar las inferencias sobre los ejemplos. De acuerdo a la manera en que se une la información de cada modalidad para representar a una instancia se categorizan en fusión temprana, tard´ıa e h´ıbrida [Baltruˇsaitis et al., 2018].

Fusión temprana: Consiste en la concatenación de la representación (com´ unmen-te vectorial) de cada una de las modalidades, por ejemplo, el vector que representa una imagen y el vector que representa su etiqueta o categor´ıa. El vector concate-nado sirve como entrada para los algoritmos de aprendizaje, al clasificar un nuevo ejemplo se requiere de ambas modalidades para hacer una predicción adecuada. El inciso a de la figura 2.3 ilustra un ejemplo de la fusión temprana. Se consideran dos

(40)

18 2.5. META-APRENDIZAJE

modalidades, la visual (M1) y textual (M2). Las representaciones M1 y M2 son concatenadas para conformar el vector de entrada para el clasificador C1. En esta estrategia el C1 es el encargado de hacer la predicci´on final sobre las instancias.

Fusión tard´ıa: En este caso se entrena un algoritmo de aprendizaje computacio-nal para cada una de las modalidades, posteriormente, con base en las decisiones de cada uno de los modelos entrenados se obtiene una decisión final, usualmente por medio de voto mayoritario, votación suave, votación pesada o entrenando un modelo de clasificación con los valores de salida de los clasificadores previos (stacking en ingles). En el incisob de la figura 2.3 se observa la representación gráfica de la fusión tard´ıa. En este tipo de fusión se entrena un clasificador C1 para la modalidad M1 y otro clasificador C2 para M2, posteriormente las salidas (confianza, probabilidad, etiqueta o clase) S1 y S2 conforman la entrada del clasificador (C3) encargado de realizar la predicción final.

Fusión h´ıbrida: Es una combinación de la fusión temprana y tard´ıa, considerando dos modalidadesM1 yM2 (ver incisocde la figura 2.3). Una fusión h´ıbrida se puede conformar por tres clasificadores, un clasificador C1 entrenado con la unión de las representaciones de M1 y M2 (fusión temprana), dos clasificadores, C2 y C3 cada uno para la clasificación individual deM1 yM2 correspondientemente y posterior a esto, realizar la inferencia por medio de voto mayoritario (fusión tard´ıa) [Baltruˇsaitis et al., 2018].

2.5. Meta-aprendizaje

El t´ermino meta-aprendizaje o aprender a aprender es generalmente asociado al aprendizaje basado en experiencias previas. Usualmente el meta-aprendizaje se emplea para hacer recomendaciones de algoritmos y de sus par´ametros a emplear en

(41)

Figura 2.3: Tipos de fusión de información para el aprendizaje multi-modal, a) fusión temprana, b) fusión tard´ıa y c) fusión h´ıbrida.

una nueva tarea, por ejemplo, el número deK vecinos más cercanos a considerar para mejorar el rendimiento de el algoritmo con el mismo nombre. Por medio del meta-aprendizaje se intenta disminuir el esfuerzo de la selección manual de los algoritmos para una nueva tarea [Hutter et al., 2019].

Las sugerencias de algoritmos y sus configuraciones a utilizar para una nueva tarea

tnew que proporciona el meta-aprendizaje se basan atributos que describen

(meta-atributos mj,k ∈ M) la tarea, por ejemplo, n´umero de instancias, atributos, clases,

etc. y el comportamiento de los modelos en tareas previastj ∈T similares. Adicional

a los algoritmos, se considera la configuraci´on de sus respectivos par´ametros θ ∈ Θ y respecto al comportamiento del algoritmo, se considera el conjunto de valores P

obtenidos en cada una de las medidas evaluadas. As´ı el valor Pi,j =P(θi, tj) indica el

resultado de evaluar un algoritmo con la configuraci´on de par´ametrosθi en la tarea tj.

En el presente trabajo caracterizamos cada instancia mediante meta-atributos que describen la relación entre la información recuperada de Internet (imágenes y texto)

(42)

20 2.6. ALGORITMOS DE APRENDIZAJE COMPUTACIONAL

y la consulta realizada al buscador. Lo que se espera es que los algoritmos aprendan la tarea de filtrar imágenes relevantes para categor´ıas nuevas basándose en ejemplos etiquetados de categor´ıas previas y as´ı evitar el esfuerzo de etiquetar manualmente cada una de las imágenes de categor´ıas desconocidas.

2.6. Algoritmos de aprendizaje computacional

A lo largo de los años se han propuesto múltiples algoritmos para la clasifi-cación binaria (0, 1), (Si, No), (Spam, No-spam), etc., muchos de los cuales, con algunas variantes, son capaces de resolver problemas en los que se involucran más de dos clases, por ejemplo, (apple, orange, ..., pitcher). En las siguientes secciones se describen los algoritmos utilizados para la clasificación de imágenes como relevantes

o irrelevantes para consulta realizada del objeto y un contexto determinado.

Máquina de soporte vectorial: Es un modelo de clasificación, que considera una función conocida comokernel para llevar a cabo una transformación en los datos que permita encontrar una separación entre ellos y as´ı determinar su pertenencia a su clase respectiva, entre los kernels más utilizados, se encuentran el lineal y el de base radial.

El objetivo de las máquinas de soporte vectorial (SVM por sus siglas en inglés) en términos geométricos es que durante el entrenamiento ajusta la l´ınea, el plano o hiper-plano lo más cercano a la frontera entre los datos de una clase y otra. La figura 2.4 ilustra geométricamente un caso del ajuste de una l´ınea que separa los datos por medio de dos fronteras. La l´ınea punteada corresponde a la frontera delimitada por una SVM con kernel lineal y la l´ınea continua con base radial. En la gran mayor´ıa de los casos el ajuste de la l´ınea, plano o hiper-plano se realiza por medio de la distancia Euclidiana [Wang, 2005].

(43)

Figura 2.4: Fronteras encontradas por unaSVM conkernelde base lineal y unaSVMcon base radial, la l´ınea punteada corresponde a unaSVMconkernellineal y la l´ınea continua con unkernelen base radial.

k-Vecinos m´as cercanos:Este algoritmo realiza la inferencia sobre instanciaxi

a clasificar considerando los k vecinos más cercanos y por medio de voto mayoritario se le asigna la clase. Para obtener los vecinos más cercanos se utiliza usualmente la distancia Euclidiana. Uno de los parámetros a establecer de este modelo de clasifi-cación es la cantidad de k vecinos a considerar para hacer una predicción correcta de cada uno de las instancias.

Análisis discriminante lineal (LDA): Encuentra una separación por medio de una combinación lineal de los los valores de un vector Z =β1x1+β2x2 +...+βixi

tal que los coeficientes β ponderen aquellos atributos x que ayuden a la separación de las las clases, para la clasificación los datos son transformados por el vector Z y se asigna la clase de pertenencia, debido a su naturaleza es posible realizar selección de atributos con este modelo. Sin embargo, este modelo se encuentra limitado al número de clases, solo es capaz de seleccionar n −1 atributos, n es el número de clases.

(44)

22

2.7. APRENDIZAJE PROFUNDO PARA LA TAREA DE RECONOCIMIENTO DE OBJETOS

Regresi´on log´ıstica: Es uno de los modelos mas utilizados para la clasificaci´on binaria en aprendizaje computacional, similar aLDAutilizay =β1x1+β2x2+...+βixi

con el ajuste los valores de β se evalúa la función de activación log´ıstica con la que se determina la clase a la que pertenece una instancia descrita por un conjunto de caracter´ısticas X, la función de activación se presenta en la ecuación 2.8.

sigmoid= 1

1 +e−(β1x1+β2x2+...+βixi) (2.8)

Clasificador Bayesiano simple (Naive Bayes): Este clasificador se basa en el teorema deBayes, obtiene la probabilidad de que una instancia pertenezca a una claseyi por medio del producto de la probabilidad de la clase por la probabilidad de

cada atributo xi dada una clase, dividido por la probabilidad de los atributos. Este

clasificador supone que todos los atributos son independientes entre si dada la clase, por lo que se puede expresar como la funci´on 2.9.

P(yi | X) =

P(yi)P(x1 |yi)P(x2 |yi)...P(xn|yi)

P(X) (2.9)

Naive Bayes es uno de los clasificadores m´as utilizados en el aprendizaje supervi-sado debido a dos ventajas que proporciona, una es el bajo costo computacional para su construcci´on y por otro lado, la posibilidad que brinda al usuario de interpretar las predicciones que realiza.

2.7. Aprendizaje profundo para la tarea de

reconocimien-to de objereconocimien-tos

El aprendizaje profundo o Deep Learning forma parte de un subconjunto de t´ecnicas del aprendizaje computacional empleado usualmente para tareas que cuen-tan con un gran volumen de datos. Una de las principales ventajas es la extracci´on

(45)

de caracter´ısticas que realiza de manera autom´atica, aprendiendo aproximaciones de funciones lineales o no lineales sobre un conjunto de entradas y salidas.

Los modelos de aprendizaje profundo para el reconocimiento de objetos actual-mente se basan en las redes neuronales convolucionales (CNN por sus siglas en inglés). La base principal de la creación de estas redes se remonta al perceptrón simple y el perceptrón multi-capa, hasta llegar a las redes neuronales profundas y finalmente las redes neuronales convolucionales.

2.7.1. Perceptr´on simple

Es una red neuronal simple, la cual se ilustra en el inciso a de la figura 2.5, consta de una capa de entrada X = {x1, x2, ..., xn} que se conecta por medio de

aristas pesadas w = {w1, w2, ..., wn} a un nodo de salida (S1) que para este caso considera una clasificaci´on binaria Y = 0,1.

El nodo de salida al que se conecta la capa de entrada recibe P

wixi y contiene

un umbral t, donde en cada iteración se ajusta el umbral t con la intención de realizar las predicciones de manera correcta, las predicciones en la versión elemental se realizan de acuerdo a la función escalonada (ver ecuación 2.10) conocida también como función de activación, no obstante esta función puede ser reemplazada por algunas descritas en la sección 2.7.3 con la intención de realizar mejores predicciones.

 



y= 1, siP

wixi > t

y= 0, en otro caso.

(46)

24

Figura 2.5: Representación de a) un perceptrón simple y b) un perceptrón multi-capa.

2.7.2. Perceptr´on multi-capa

Un perceptr´on multi-capa consta de una capa de entrada que corresponde a las dimensiones del vector de entrada, una o varias capas ocultas y una capa de salida, tambi´en es considerado como una red neuronal profunda cuando consta de n > 1 capas ocultas.

Capa de entrada: Los nodos de la capa de entrada reciben las variables de cada uno de los atributos del ejemplo y transmite esta informaci´on a la siguiente capa de manera directa.

Capa oculta: Se alimenta de los nodos conectados provenientes de la capa de entrada o de alguna capa oculta anterior a ésta. Cada nodo en la capa oculta con-tiene una función de activación que determina el valor de salida que alimenta hacia adelante a la siguiente capa.

Capa de salida: Es la última capa del perceptrón multi-capa, ésta es la encargada de producir la salida de la clasificación de acuerdo a los datos de entrada, esto está

(47)

directamente relacionado con la funci´on de activaci´on que se define en la capa de salida.

El inciso b de la figura 2.5 ilustra un perceptr´on multi-capa, con una capa de entrada conectada a una capa oculta y una capa de salida (S1).

2.7.3. Red neuronal profunda

Se considera al perceptrón multi-capa como una red neuronal simple y partien-do de esta es posible agregar un mayor número de capas ocultas para la construcción de una red neuronal profunda además de agregar nodos de salida para realizar la predicción de más de dos clases.

Una red neuronal es considerada profunda cuando el n´umero de capas ocultas es mayor a 1, la figura 2.6 ilustra a una red neuronal y a una red neuronal profunda. Al igual que los antes mencionados algoritmos de aprendizaje, las redes neuronales profundas constan de una etapa de entrenamiento, en la que se ajustan los pesos de las aristas que conectan cada uno de los nodos.

Algunos de los componentes importantes para el entrenamiento de las redes neu-ronales son la función de activación en cada una de sus capas o nodos, la función de pérdida y el algoritmo de propagación del error en la salida con el que se realiza el ajuste de los pesos de acuerdo a una tasa de aprendizaje (learning rate), entre otros.

Función de activación: La función de activación es la encargada de determinar el valor de salida que es transmitido a la capa posterior considerando los datos con los que el nodo es alimentado. Usualmente la función de activación se define por

(48)

26

Figura 2.6: La ilustraci´on de una red neuronal con una capa oculta (derecha) y la repre-sentaci´on de una red neuronal profunda con 3 capas ocultas.

capas, algunas de éstas son empleadas incluso para la clasificación como es el caso de la función log´ıstica (sigmoid), la tangente hiperbólica (tanh) o la unidad lineal rectificada (RELU), las funciones de activación más utilizadas son:

Log´ıstica (sigmoid): Esta funci´on se encuentra en el rango de 0 a 1, se define por la ecuaci´on 2.11, donde WT _{representa a la transpuesta del vector de pesos de}

las aristas procedentes de la capa anterior, X a los valores correspondientes de la salida de cada nodo y b el umbral del nodo tambi´en conocido como bias. Se puede observar gr´aficamente en el inciso a de la figura 2.7.

sigmoid= 1

1 +e−(WT_X₊_b₎ (2.11)

Tangente hiperbólica: Esta función devuelve valores en el rango de −1 y 1 se refiere a la ecuación 2.12, es similar a la función de activación sigmoid, donde

WT_X₊_b _{es multiplicado por dos, visualmente corresponde al inciso} _b _{de la figura}

2.7.

tanh= 2

1 +e−2(WT_X₊_b₎ −1 (2.12)

Unidad lineal rectificada (RELU): Es una funci´on lineal que generalmente se expresa como max(0, x), donde x=WT_X ₊_b _{y tambi´}_{en suele ser expresada como}

(49)

una funci´on escal´on definida por 2.13. Se ilustra en el inciso cde la imagen 2.7.

RELU =

 



0, si x <0

x, si x >= 0.

(2.13)

Figura 2.7: Función de activaciónsigmoid,tangente hiperbólica y unidad lineal rectificada ilustradas en ese mismo orden de izquierda a derecha.

Softmax: Retorna valores entre 0 y 1, es utilizada principalmente en la capa de salida para la predicci´on de la clase a la que pertenece una instancia. Una de las ventajas de esta funci´on es que considera las predicciones realizadas por sus vecinos por lo que la suma de los valores en la capa es igual a 1.

Se expresa como:

sof tmax= e

x

Pk

k=1exk

(2.14)

El termino x = WT_X ₊_b _{, mientras que el termino} _k _{corresponde a los nodos}

vecinos en la capa de salida.

Función de pérdida: La función de pérdida ayuda a la propagación del error para el ajuste de pesos. Existen una variedad de ellas que en mayor o menor propor-ción repercuten en el entrenamiento de una red neuronal convolucional (CNN por

(50)

28

sus siglas en inglés). La función empleada para el reconocimiento de objetos en el presente trabajo corresponde a Root Mean Squared Error (RMSE) o ra´ız cuadrada del promedio del error al cuadrado también utilizada por [Guo et al., 2018] durante el entrenamiento de laCNN.

Root Mean Squared Error (RMSE): Se describe en la funci´on 2.15 donde ˆy

corresponde a la predicci´on realizada por la CNN y y pertenece a la clase real del ejemplos.

RM SE =

v u u t 1 n n X i=1

(ˆyi−yi)2 (2.15)

2.7.4. Red neuronal convolucional

Las redes neuronales convolucionales o CNN son redes neuronales profundas aplicadas en la mayor´ıa de los casos a la clasificación de imágenes, objetos, escenas y detección de objetos.

Este tipo de redes se caracterizan por hacer uso de operaciones de convoluci´on, sub-muestreo y de capas totalmente conectadas.

La operación de convolución consiste en aplicar un filtro por medio de una ventana generalmente de 2 dimensiones sobre la imagen y los valores de salida de esta ope-ración corresponden a los obtenidos por la funciónRELU. El sub-muestreo también está conformado por una ventana y en este caso se obtiene generalmente el valor máximo presente en la ventana determinada.

El uso de capas totalmente conectadas se realiza en las ´ultimas capas de la red convolucional. Son utilizadas como el conjunto de caracter´ısticas obtenidas de la

(51)

imagen y la última capa totalmente conectada se utiliza para la clasificación, en la que con regularidad se utiliza la función de activaciónsoftmax, donde el nodo con el valor máximo corresponde a la clase que el modelo predice.

Se han propuesto diferentes arquitecturas deCNN para el reconocimiento de obje-tos como los desarrollados por [Szegedy et al., 2016, Szegedy et al., 2017] o [Redmon and Farhadi, 2018]. En el presente trabajo hacemos uso de la redInception V3 [Sze-gedy et al., 2016] (ver figura 2.8), esta red cuenta con 42 capas y se ha utilizado para clasificar las 1000 categor´ıas de la base de datos ImageNet [Deng et al., 2009], como entrada recibe imágenes de un tamaño de 299 x 299 pixeles. La última capa de caracter´ısticas corresponde a un vector de 2048 componentes.

Figura 2.8: Ilustraci´on de las capas que conforman a laCNN InceptionV3(imagen recu-perada deGoogle Cloud Platform2)

2.7.5. Entrenamiento de

CNN

Generalmente el entrenamiento de estos modelos consume una gran cantidad de tiempo debido a la cantidad de pesos a ajustar en cada iteraci´on. De acuerdo a

(52)

30

la manera en que se realiza el entrenamiento de estas redes se definen como:

Entrenamiento desde cero: Se refiere al entrenamiento de la red inicializando los pesos de las aristas de manera aleatoria. Este tipo de entrenamiento requiere de un mayor n´umero de iteraciones para alcanzar una exactitud cercana al 100 % en la clasificaci´on.

Re-entrenamiento: Esta t´ecnica permite inicializar los pesos de la red con un modelo pre-entrenado, como por ejemplo hacer uso del modelo resultante del entre-namiento con la base de datos ImageNet [Deng et al., 2009]. Esto permite iniciar el proceso de entrenamiento con un error base y esto ayuda a que con un menor n´umero de iteraciones alcanzar una exactitud considerada como buena.

Fine tuning: Hace uso del vector de caracter´ısticas que se encuentra en la penúltima capa, es decir el vector de 2048 en el caso del modelo Inception V3, y ajusta los pesos respecto a la capa totalmente conectada encargada de la clasifica-ción. Este proceso suele requerir una menor cantidad de tiempo para alcanzar un valor de exactitud máximo.

Por otro lado la cantidad de ejemplos que procesa la CNN antes de realizar el ajuste de los pesos tambi´en influye tanto en el tiempo de entrenamiento como en la exactitud alcanzada por el modelo. Existen dos vertientes principales, el entrena-miento en l´ınea y por batch.

Entrenamiento en l´ınea: Este tipo de entrenamiento realiza el ajuste de pesos por cada ejemplo procesado, independientemente de que el entrenamiento sea desde cero, re-entrenando un modelo pre-entrenado o con la t´ecnica de fine tuning.

(53)

Entrenamiento por batch: Se define un tama˜no n de batch, en el que en cada

batch, n imágenes son procesadas y se ajustan los pesos de la red, considerando el error promedio de cada una de las instancias procesadas. Suele reducir el tiempo de entrenamiento, usualmente el tamaño de n son 32, 64, 128 o 256. Una limitante es que a mayor número se requiere de una mayor cantidad de memoria.

2.8. Medidas de evaluaci´on

Evaluar un modelo de aprendizaje es un factor importante, usualmente las me-didas que se utilizan para la clasificación son: precisión, recuerdo, exactitud, medida-F1 y AUC ROC, las cuales se basan en los siguientes términos.

1. VP (verdadero positivo): Es aquella instancia cuya hip´otesis dice que debe ser positivo y en realidad es positivo.

2. FP (falso positivo): Es aquella instancia cuya hip´otesis dice que debe de ser positivo y en realidad es negativo.

3. VN (verdadero negativo): Es aquella instancia cuya hip´otesis dice que debe ser negativo y en realidad es negativo

4. FN (falso negativo): Es aquella instancia cuya hip´otesis dice que debe de ser negativo y en realidad es positivo.

A continuaci´on se definen cada una de las medidas antes mencionadas:

1. Precisi´on: Porcentaje o proporci´on de predicciones positivas que son correctas.

P recision´ = V P

(54)

32 2.9. PRUEBA ESTAD´ISTICA DEFRIEDMAN

2. Recuerdo: Porcentaje de verdaderos positivos predichos de entre todos los po-sitivos.

Recuerdo= V P

(V P +F N) (2.17)

3. Exactitud: Porcentaje de predicciones que son correctamente clasificadas.

Exactitud= V P +V N

(V P +F P +V N +F N) (2.18)

4. Medida-F1: Porcentaje de instancias negativas que fueron predichas como ne-gativas.

M edida−F1 = 2·P recision´ ·Recuerdo

P recision´ +Recuerdo (2.19)

5. AUC ROC: El área bajo la curva de caracter´ıstica operativa del receptor (AUC ROC por sus siglas en inglés) mide el área que se encuentra por de bajo de la curva obtenida por la medida de recuerdo, también conocido como tasa de VP y la tasa de FP (ecuación 2.20).

T F P = F P

(F P +V N) (2.20)

En el presente trabajo de tesis se utiliza cada una de las medidas antes mencio-nadas para la evaluaci´on de cada uno de los experimentos realizados.

2.9. Prueba estad´ıstica de

Friedman

Reportar el promedio de las medidas que alcanza cada clasificador no siempre es suficiente para medir el rendimiento en un conjunto de pruebas. El reporte del promedio de las medidas de evaluaci´on puede provocar dos situaciones no deseadas debido a que es susceptible a valores at´ıpicos. La primera sucede cuando, respecto al promedio, el rendimiento de un clasificador es considerado superior al resto de los clasificadores con los que es comparado y en realidad, s´olo obtiene excelentes

(55)

resultados en un pequeño subconjunto de las bases de datos. La otra situación es totalmente opuesta, un clasificador es inferior al resto, sin embargo, éste sólo obtiene muy malos resultados en un subconjunto pequeño de las bases de datos.

[Demˇsar, 2006] analiza diferentes pruebas estad´ısticas para la comparación de múltiples clasificadores en múltiples bases de datos, dentro de las cuales se encuentra la prueba de Friedman que se describe de la siguiente manera:

1. Se establece la hip´otesis nula,“Todos los clasificadores son equivalentes”.

2. Se asigna la posici´on a cada clasificador en cada una de las observaciones, es decir, la posici´on 1i la ocupa el clasificador con menor tasa de error y la

posici´onri el de mayor tasa de error en la base de datos i.

3. Si dos o más clasificadores obtienen el mismo desempeño en una observación, se asigna el valor de posición promedio.

4. Posteriormente se comparan las posiciones promedio de cada clasificadorRj =

1 N P ir j i.

5. De acuerdo a la distribuci´on X2

F con k −1 grados de libertad, es posible

ob-tener el valor cr´ıtico por medio de la ecuaci´on 2.21, donde k es el n´umero de clasificadores que son comparados y N la cantidad de bases de datos en la que el rendimiento del clasificador ha sido evaluado.

X2

F =

12N k(k+ 1)

X

j

Rj−

k(k+ 1)2 4

!

(2.21)

Esta prueba estad´ıstica nos permite determinar si los resultados obtenidos por los diferentes clasificadores evaluados en las diferentes bases de datos obtienen un rendi-miento similar es empleada para mostrar la diferencias estad´ısticas en los experimen-tos realizados, tanto en la tarea de filtrado de im´agenes como en el reconocimiento de objetos.

(56)

34 2.10. PRUEBA DENEMENYI

2.10. Prueba de

Nemenyi

Usualmente la prueba estad´ıstica deFriedman requiere de un análisis posterior para identificar de una manera más precisa y clara que clasificador obtiene el mejor rendimiento comparado con el resto. La prueba deNemenyi es analizada en el trabajo de [Demˇsar, 2006] y se caracteriza por hacer una comparación todos contra todos basada en las posiciones promedio obtenidas por cada clasificador. Para determinar una diferencia significativa se requiere de un valor criticoCD que se obtiene mediante la función 2.22.

CD =qα

r

k(k+ 1)

6N (2.22)

Dondek es el número de clasificadores en la comparación y N el número de bases de datos total en el que cada clasificador fue evaluado.

La prueba de Nemenyi es desarrollada en los experimentos para comparación de los métodos evaluados y con ello determinar que método o métodos son significa-tivamente diferentes entre si. Gracias al orden que provee la prueba estad´ıstica es posible determinar los métodos con mejor y peor desempeño en cada tarea.

(57)

Cap´ıtulo 3

Trabajo relacionado

Desde hace varios años se ha utilizado la información de Internet para diferentes objetivos, tales como, crear conocimiento de sentido común entre palabras mediante grafos (ConceptNet [Speer et al., 2017]), estimar la posible ubicación de un objeto [Kollar et al., 2012,Izquierdo-Cordova et al., 2016], crear una representación vectorial de texto [Mikolov et al., 2013a] o adquirir imágenes para la construcción de base de datos para el reconocimiento de objetos [Chen et al., 2013, Divvala et al., 2014, Li et al., 2017, Guo et al., 2018]. Este trabajo de tesis se encuentra principalmente relacionado al WSL para el reconocimiento de objetos. La figura 3.1 presenta una tabla comparativa del trabajo relacionado.

3.1. WSL

para el reconocimiento de objetos

Recuperar imágenes de la Web de manera automática y sin supervisión de un experto para el reconocimiento de objetos ha sido un problema abordado en los ´

ultimos años. Para afrontar este reto se han propuesto diferentes técnicas y métodos para cada una de las subtareas que conforman al WSL, la generación y expansión de consulta, el filtrado de imágenes y el aprendizaje para el reconocimiento de objetos.

(58)

36 3.1. WSLPARA EL RECONOCIMIENTO DE OBJETOS

Figura 3.1: Figura de tabla comparativa del trabajo relacionado

[Chen et al., 2013] propone un aprendizaje iterativo para la extracci´on de conoci-miento de la Web. Las principales relaciones que busca son Escena-Objeto, Objeto-Objeto, Objeto-Atributo y Escena-Atributo. Para extraer este tipo de relaciones pri-meramente entrena un detector de objetos utilizando explanar-LDA con las im´ age-nes descargadas deGoogle, posteriormente realiza un agrupamiento de acuerdo a las ventanas propuestas que enmarcan al objeto, en una siguiente etapa entrena nueva-mente el detector de objetos utilizando como entrenamiento los grupos identificados, finalmente encuentra las relaciones por medio de la matriz de co-detecci´on.

Además de la extracción de relaciones, [Chen et al., 2013] realiza dos pruebas de interés, una para el reconocimiento de escena y otra para la detección de objetos, ambas pruebas durante el entrenamiento utilizan imágenes deGoogle y en la prueba, las imágenes recuperadas deFlickr. En el reconocimiento de escenas (12 categor´ıas) y en la detección de objetos (15 categor´ıas) supera a los clasificadores básicos con los que se compara.

(59)

En ambos casos los mejores resultados por [Chen et al., 2013] pertenecen al modelo que considera las relaciones que extrae, por lo que se requiere de realizar m´ultiples consultas sobre un mismo objeto y recuperar todas las im´agenes correspondientes a cada consulta. Este proceso consume una gran cantidad de tiempo y en aplicaciones reales el tiempo es una medida importante.

El trabajo presentado por [Chen et al., 2013] se centra en la extracci´on de conoci-miento de la Web y no en el reconociconoci-miento de escenas y objetos, sin embargo, [Div-vala et al., 2014] presenta en su trabajo mayor evidencia de la posibilidad de aprender de la Web y obtener resultados similares a m´etodos totalmente supervisados para la tarea del reconocimiento de objetos.

Respecto a la generación de consulta y su expansión, [Divvala et al., 2014] con-sidera n imágenes de m consultas diferentes para cada objeto, donde los conceptos a buscar son extra´ıdos de WordNet. De cada concepto se recupera un vocabulario en forma de n-gramas proveniente deGoogle Books Ngrams obteniendom consultas para un concepto. Estas consultas toman en cuenta las variantes del objeto, el lado del objeto capturado (viewports), es decir, frontal, lateral derecho, izquierdo, etc., partes que componen al objeto y actividades que se realizan con éste. Por ejemplo, se tienen consultas comohorse, front horse, rearing horse, horse eye, entre otras, en promedio obtienen 5000 n-gramas por concepto.

[Divvala et al., 2014] expresa que de cada consulta se descargaron sólo las primeras 200 imágenes y se entrenó un clasificador inicial para eliminar aquellos n-gramas irrelevantes, as´ı, fueron eliminados aquellos n-gramas que obtuvieron una precisión promedio menor al 10 %, después de este proceso se conservan en promedio 1000