basado en informaci´
on multi-modal de
im´
agenes
Por
Ricardo Ben´ıtez Jim´enez
Tesis sometida como requisito parcial para obtener el grado de
Maestro en Ciencias en el ´area de Ciencias Computacionales
en el
Instituto Nacional de Astrof´ısica, ´Optica y Electr´onica Agosto, 2019
Tonantzintla, Puebla, Mexico
Dirigida por:
Hugo Jair Escalante Balderas Eduardo Francisco Morales Manzanares
Coordinaci´on de Ciencias Computacionales INAOE, Mexico
c
INAOE 2019
Todos los derechos reservados.
El autor otorga al INAOE el permiso de reproducir esta tesis en su totalidad o en partes.
Agradecimientos
A mis asesores, el Dr. Hugo Jair Escalante y el Dr.Eduardo Morales Manzana-res, por su gu´ıa invaluable durante el desarrollo de esta tesis.
Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACYT) por el apoyo brindado para la culminaci´on de mis estudios.
Al Instituto Nacional de Astrof´ısica, ´Optica y Electr´onica (INAOE) y a los profe-sores por el conocimiento de me han transmitido.
Abstract
Nowadays, in domestic assistance robotics it is of great interest to find objects as part of a sub-task of a particular activity, such as carrying an object from one place to another. However, sometimes the object to be recognized is not part of the existing models for object recognition. An alternative it is learning to recognize a new object category is by retrieving images of the object via the Internet, this technique is known as Webly-supervised learning (WSL). However, use all the retrieved images to train a classifier produces a low performance in this task due to the amount of irrelevant images retrieved from the Web.
Recent approaches use irrelevant images in their initial classifiers in order to filter irrelevant images, furthermore, they do not show evidence that their approaches work to learn unknown object categories. In this thesis we present a new method inspired by meta-learning allowing to take advantage of the information (textual and visual) in the Web to image filtering of unknown object categories in a multi-modal approach. The experimental results show that the proposed method is an alternative that offers a similar performance to the manual selection of relevant images in object recognition task.
Resumen
Actualmente en rob´otica de asistencia dom´estica es de gran inter´es encontrar objetos como parte de una subtarea de una actividad en particular, tal es el caso de mover un objeto de un lugar a otro. Sin embargo, en ocasiones el objeto a reconocer no forma parte de los modelos existentes para el reconocimiento de objetos. Una manera de aprender a reconocer un nuevo objeto es recuperando im´agenes del objeto por medio de Internet, a esta t´ecnica se le conoce como aprendizaje supervisado por la Web (WSL por sus siglas en ingl´es). No obstante, utilizar todas las im´agenes recuperadas para el entrenamiento de un clasificador produce un bajo rendimiento en esta tarea debido a la cantidad de im´agenes irrelevantes recuperadas de la Web.
Los enfoques existentes conservan im´agenes irrelevantes en sus clasificadores ini-ciales para el filtrado de im´agenes irrelevantes, adem´as de no presentar evidencia de que sus enfoques funcionen adecuadamente en objetos desconocidos. En este trabajo se propone un nuevo m´etodo inspirado en el meta-aprendizaje que permite tomar ventaja de la informaci´on (textual y visual) presente en la Web para filtrar de mane-ra multi-modal im´agenes de categor´ıas desconocidas. Los resultados experimentales muestran que el m´etodo propuesto es una alternativa que ofrece un rendimiento si-milar a la selecci´on manual de im´agenes relevantes en la tarea de reconocimientos de objetos.
´Indice general
Agradecimientos III
Abstract V
Resumen VII
1. Introducci´on 1
1.1. Motivaci´on . . . 5
1.2. Descripci´on del problema . . . 6
1.3. Objetivos . . . 7
1.3.1. Objetivo general . . . 7
1.3.2. Objetivos espec´ıficos . . . 7
1.4. Organizaci´on de tesis . . . 8
2. Marco te´orico 9 2.1. Aprendizaje computacional . . . 9
2.2. Herramientas para la extracci´on de conocimiento . . . 12
2.2.1. ConceptNet: Conocimiento del sentido com´un . . . 12
2.2.2. Word embeddings . . . 13
2.3. Medidas de similitud entre vectores . . . 14
2.4. Aprendizaje computacional multi-modal . . . 17
2.5. Meta-aprendizaje . . . 18
2.6. Algoritmos de aprendizaje computacional . . . 20
2.7. Aprendizaje profundo para la tarea de reconocimiento de objetos . . . 22
2.7.1. Perceptr´on simple . . . 23
2.7.2. Perceptr´on multi-capa . . . 24
2.7.3. Red neuronal profunda . . . 25
2.7.4. Red neuronal convolucional . . . 28
2.7.5. Entrenamiento deCNN . . . 29
2.8. Medidas de evaluaci´on . . . 31
2.9. Prueba estad´ıstica de Friedman . . . 32
2.10. Prueba de Nemenyi . . . 34
3. Trabajo relacionado 35 3.1. WSL para el reconocimiento de objetos . . . 35
3.2. Aprendizaje multi-modal para la clasificaci´on . . . 44
4. M´etodo propuesto 49 4.1. Generaci´on de consulta . . . 52
4.3. Filtrado de im´agenes . . . 54
4.3.1. Extracci´on de meta-atributos visuales . . . 55
4.3.2. Meta-atributos de informaci´on textual . . . 58
4.4. Entrenamiento de CNN para el reconocimiento de objetos . . . 61
4.5. Construcci´on de base de datos . . . 62
5. Experimentos y resultados 67 5.1. Configuraci´on general de experimentos . . . 68
5.2. Determinaci´on de consulta visual . . . 69
5.2.1. Evaluaci´on de la consulta visual . . . 70
5.2.2. Evaluaci´on del filtrado de im´agenes basado en informaci´on visual 75 5.3. Filtrado de im´agenes con informaci´on dependiente del objeto y contexto 79 5.3.1. Evaluaci´on del filtrado de im´agenes basado en informaci´on tex-tual dependiente del contexto . . . 79
5.3.2. Evaluaci´on del filtrado de im´agenes basado en informaci´on tex-tual dependiente del objeto . . . 83
5.4. Filtrado multi-modal . . . 87
5.4.1. Configuraci´on de experimentos para el reconocimiento de objetos 99 5.5. Evaluaci´on del reconocimiento de objetos . . . 100
6. Conclusiones y trabajo futuro 107
6.1. Filtrado de im´agenes . . . 107
6.2. Reconocimiento de objetos . . . 108
6.3. Contribuciones . . . 109
´Indice de figuras
Lista de Acr´onimos . . . XXI
1.1. Ejemplo primeros resultados de b´usqueda recuperados para la consul-ta apple proporcionados por Google Im´agenes. . . 5
2.1. Representaci´on de los t´erminos relacionados a los conceptos apple y
house. . . 13
2.2. Representaci´on vectorial obtenida de Word2Vec de algunos pa´ıses y sus capitales . . . 14
2.3. Tipos de fusi´on de informaci´on para el aprendizaje multi-modal . . . 19
2.4. Fronteras encontradas por una SVM con kernel de base lineal y una
SVM con base radial. . . 21
2.5. Representaci´on de a) un perceptr´on simple y b) un perceptr´on multi-capa. . . 24
2.6. La ilustraci´on de una red neuronal con una capa oculta (derecha) y la representaci´on de una red neuronal profunda con 3 capas ocultas. . 26
2.7. Funci´on de activaci´on sigmoid,tangente hiperb´olica y unidad lineal rectificada ilustradas en ese mismo orden de izquierda a derecha. . . . 27
2.8. Ilustraci´on de las capas que conforman a la CNN Inception V3 (ima-gen recuperada deGoogle Cloud Platform . . . 29
3.1. Figura de tabla comparativa del trabajo relacionado . . . 36
3.2. Ejemplos de im´agenes y relaciones encontradas enmarcando la detec-ci´on que realiza despu´es del entrenamiento [Divvala et al., 2014]. . . . 38
3.3. Primeras 20 im´agenes recuperadas de Google para la consulta dish. . 40
3.4. Proceso de entrenamiento para la detecci´on de objetos propuesto por [Chen and Gupta, 2015]. . . 41
3.5. Proceso de aprendizaje utilizado por CurriculumNet propuesto por [Guo et al., 2018] basado en el entrenamiento por medio de curricula. 42
3.6. Esquema del modelo de predicci´on multi-modal empleado por [Zhu et al., 2019] para la clasificaci´on de im´agenes. . . 46
4.1. Esquema general del WSL . . . 49
4.2. Diagrama de la generaci´on de consulta y la recuperaci´on de informa-ci´on del m´etodo propuesto. . . 53
4.3. Ejemplo de las consultas visual (QV C) y textuales dependientes del
objeto (QO,QEO) y contexto (QC,QEC). . . 55
4.4. Esquema de la etapa del filtrado y entrenamiento para el reconoci-miento de objetos del m´etodo propuesto. . . 56
4.5. Ejemplos de la informaci´on disponible por objeto y algunos meta-atributos visuales y textuales obtenidos para distintas im´agenes (re-levantes e irre(re-levantes). . . 58
conforma la base de datos. . . 65
4.7. Ejemplos del etiquetado de los objetosApple, Cup y Softener que se realiz´o en la base de datos. . . 65
5.1. Gr´aficas de vela de la exactitud, precisi´on, recuerdo, medida-F1 y
AUC ROC respecto al n´umero de im´agenes que construyen la consulta visual . . . 72
5.2. Prueba de Nemenyi de la exactitud, precisi´on, recuerdo, medida-F1 y AUC ROC utilizando el vector promedio de las primerasm im´agenes 73
5.3. Comparaci´on de diferentes clasificadores utilizando la consulta visual con el vector promedio de las primeras 75 im´agenes. . . 76
5.4. Prueba estad´ıstica utilizando el vector representativo de los primeras 75 im´agenes con diferentes clasificadores. . . 77
5.5. Comparaci´on de la exactitud, precisi´on, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utili-zando meta-atributos dependientes del contexto. . . 80
5.6. Prueba estad´ıstica de la exactitud, precisi´on, recuerdo, medida-F1 y
AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos dependientes del contexto. . . 81
5.7. Comparaci´on de la exactitud, precisi´on, recuerdo, medida-F1 y AUC ROC respecto al n´umero modelo utilizado para el filtrado de im´agenes utilizando meta-atributos dependientes del objeto. . . 84
5.8. Prueba estad´ıstica de la exactitud, precisi´on, recuerdo, medida-F1 y
AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos dependientes del objeto. . . 85
5.9. Ejemplos de las im´agenes seleccionadas de los objetos Apple, Cup y Softener con meta-atributos visuales, de objeto y del contexto. . . 87
5.10. Comparaci´on de la exactitud, precisi´on, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utili-zando meta-atributos con fusi´on temprana del objeto y contexto. . . . 89
5.11. Prueba estad´ıstica de la exactitud, precisi´on, recuerdo, medida-F1 y
AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del objeto y contexto . 90
5.12. Medidas de la exactitud, precisi´on, recuerdo, medida-F1 yAUC ROC
respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del objeto y visual. . . 91
5.13. Estad´ıstica de la exactitud, precisi´on, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utili-zando meta-atributos con fusi´on temprana del objeto y visual. . . 92
5.14. Medidas de la exactitud, precisi´on, recuerdo, medida-F1 yAUC ROC
respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del contexto y visual. . . 94
5.15. Prueba estad´ıstica de la exactitud, precisi´on, recuerdo, medida-F1 y
AUC ROC respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del contexto y visual. . 95
respecto al modelo utilizado para el filtrado de im´agenes utilizando meta-atributos con fusi´on temprana del objeto, contexto y visual. . . 96
5.17. Estad´ıstica de la exactitud, precisi´on, recuerdo, medida-F1 y AUC ROC respecto al modelo utilizado para el filtrado de im´agenes uti-lizando meta-atributos con fusi´on temprana del objeto, contexto y visual. . . 97
5.18. Gr´afica de bigotes de cada una de las medidas de evaluaci´on (eje vertical) y cada uno de los modelos entrenados con diferentes m´etodos de filtrado (eje horizontal) para el reconocimiento de objetos. . . 103
5.19. Prueba estad´ıstica de la precisi´on, exactitud, recuerdo y medida-F1, en la tarea de reconocimiento de objetos. . . 104
Lista de Tablas
4.1. Lista de objetos, n´umero de im´agenes descargadas, im´agenes relevan-tes e irrelevanrelevan-tes para cada objeto. . . 64
5.1. Tabla de resultados considerando las primerasm im´agenes utilizando regresi´on log´ıstica como clasificador. . . 71
5.2. Tabla de resultados del uso de diferentes modelos de clasificaci´on con meta-atributos visuales . . . 76
5.3. Tabla de resultados obtenidos por diferentes clasificadores utilizando s´olo meta-atributos dependientes contexto. . . 79
5.4. Tabla de resultados obtenidos del uso de meta-atributos considerando s´olo el objeto. . . 83
5.5. Tabla de resultados obtenidos realizando una fusi´on temprana con los meta-atributos basados en el objeto y contexto. . . 88
5.6. Tabla de resultados obtenidos realizando una fusi´on temprana con los meta-atributos basados en informaci´on visual y del objeto. . . 90
5.7. Tabla de resultados obtenidos realizando una fusi´on temprana con los meta-atributos basados en informaci´on visual y del contexto. . . 93
5.8. Tabla de resultados obtenidos de la fusi´on temprana de meta-atributos basados en informaci´on visual, del contexto y objeto. . . 97
5.9. Resumen de los resultados obtenidos por LDA en fusi´on temprana, tard´ıa y uni-modal en el filtrado de im´agenes. . . 98
5.10. Resultados obtenidos por diferentes m´etodos de filtrado en la tarea de reconocimiento de objetos. . . 102
CNN Red neuronal convolucional
LDA An´alisis discriminante lineal
MLP Perceptr´on multi-capa
SLP Perceptr´on de una capa
SVM M´aquina de soporte vectorial
TP Verdadero positivo
FP Falso positivo
VN Verdadero negativo
FN Falso negativo
WMD Word mover’s distance
WSL Aprendizaje supervisado por la Web
Cap´ıtulo 1
Introducci´on
Hoy en d´ıa consultar la Web en busca de conocimiento, sugerencias de compras o para interactuar con amigos es una actividad com´un en la vida de muchas personas alrededor del mundo. Tan s´olo en M´exico seg´un un estudio realizado durante el 2018 y publicado en Mayo del 2019 por el INEGI1 declara que hay 74.3 millones de usuarios en la rep´ublica mexicana. Este estudio reporta que las 3 principales actividades que realizan los usuarios en Internet son para entretenimiento, comunicarse y obtener informaci´on. Gracias a la Web interactiva con la que se cuenta en la actualidad y al inter´es de los usuarios por compartir sus experiencias, millones de datos son transferidos por m´ultiples dispositivos a trav´es de Internet, dentro de los cuales se encuentran im´agenes o fotograf´ıas y texto que los usuarios comparten por diferentes medios, incluyendo blogs, bancos de im´agenes y por supuesto las redes sociales.
Los buscadores de Internet como Google, Yahoo y Bing, entre otros, enfrentan un reto importante para recuperar, organizar, filtrar y presentar a los usuarios la informaci´on disponible cuando se realiza una consulta. Estas herramientas han
des-1https://www.inegi.org.mx/contenidos/saladeprensa/aproposito/2019/internet2019_
Nal.pdf
2
pertado inter´es en los investigadores que trabajan en distintas ´areas de las ciencias computacionales, una de ellas es el ´area de visi´on por computadora. Debido a que es posible recuperar im´agenes de Internet de manera autom´atica por medio de los navegadores Web y utilizarlas como base de datos de entrenamiento en distintos mo-delos de aprendizaje para el reconocimiento de objetos, a esta t´ecnica se le conoce como aprendizaje supervisado por la Web (WSL por sus siglas en ingl´es).
El WSL consiste principalmente en, generar la consulta o consultas a la Web, recuperar, extraer o filtrar la informaci´on de inter´es y posteriormente entrenar un algoritmo de aprendizaje computacional para una tarea espec´ıfica. Obtener la infor-maci´on deseada de manera autom´atica por medio de la Web es dif´ıcil debido a que una imagen puede estar relacionada a texto irrelevante o en otro caso texto relevante asociado a una imagen irrelevante lo que produce finalmente un bajo rendimiento en la tarea de clasificaci´on final.
Recientemente los buscadores de Internet han mejorado sus algoritmos de b´ usque-da de im´agenes basada en texto, sin embargo, en algunas ocasiones no son lo suficien-temente discriminatorios para eliminar algunos resultados de b´usqueda irrelevantes para la consulta. Para lidiar con ello generalmente el usuario cambia o expande la consulta para obtener mejores resultados de b´usqueda. A´un con estas acciones, utilizar todo el conjunto de im´agenes directamente para entrenamiento de alg´un mo-delo de aprendizaje produce un bajo rendimiento en la tarea de reconocimiento de im´agenes. Por lo tanto, aprender de la Web la representaci´on visual de un objeto en particular requiere de seleccionar autom´aticamente del conjunto de im´agenes aque-llas que son relevantes y as´ı obtener un desempe˜no similar al filtrado manual de una persona en la tarea de reconocimiento.
En la literatura se han propuesto diferentes t´ecnicas para el WSL, algunas de ellas consideran realizar m´ultiples consultas sobre un mismo objeto esperando que al conservar las primeras im´agenes de los resultados de b´usqueda, las irrelevantes sean minor´ıa y no afecten de manera considerable en la exactitud del modelo resul-tante [Chen et al., 2013]. Otros trabajos proponen utilizar las primeras n im´agenes descargadas para entrenar un clasificador inicial con el cual durante una serie de nuevas etapas posteriores descartar aquellas que no son relevantes [Divvala et al., 2014, Chen and Gupta, 2015, Modolo and Ferrari, 2017]. Por otro lado [Guo et al., 2018] realiza un aprendizaje por curr´ıcula, que consiste en aprender de manera or-denada, primero los ejemplos f´aciles y despu´es con los dif´ıciles.
Los m´etodos antes mencionados no consideran la abundante informaci´on textual existente en la Web para filtrar o clasificar las im´agenes obtenidas, [Divvala et al., 2014] s´olo usan la informaci´on textual para expandir la consulta, mientras que [Chen et al., 2013,Chen and Gupta, 2015,Modolo and Ferrari, 2017] y [Guo et al., 2018] no consideran la informaci´on textual en ninguna de sus etapas. En el presente trabajo se considera la informaci´on textual para expandir la consulta y para el filtrado de las im´agenes relevantes. Lo anterior permite capturar la relaci´on sem´antica entre el texto que acompa˜na a una imagen y la consulta (objeto y contexto).
[Guillaumin et al., 2010] y [Nag Chowdhury et al., 2018] han abordado la tarea de clasificaci´on de im´agenes desde un aprendizaje modal. El aprendizaje multi-modal toma en cuenta la informaci´on de m´ultiples dominios o modos, por ejemplo la informaci´on visual y textual.
En su trabajo [Guillaumin et al., 2010] y [Nag Chowdhury et al., 2018] reportan que el uso de ambas fuentes de informaci´on para la clasificaci´on de un instancia mejora los resultados comparado con utilizar s´olo una de las dos modalidades de manera
4
independiente. Estos m´etodos propuestos se encuentran limitados en aplicaciones de escenarios reales donde requieren hacer inferencias sobre un conjunto que s´olo contienen informaci´on visual. Tal es el caso en el que un robot de servicio requiere la representaci´on visual de un objeto para luego reconocerlo en un entorno f´ısico determinado (contexto).
Utilizar el contexto donde se realiza la consulta tampoco ha sido considerado por los m´etodos presentes en la literatura, por ejemplo, al consultar el objeto manzana
(apple) los buscadores de Internet usualmente presentan en los primeros resultados de b´usqueda im´agenes correspondientes al nombre de la empresa y de ciertos productos de la marca (ver figura 1.1). Considerar el contexto puede ayudar a resolver esa ambig¨uedad filtrando solo aquella informaci´on relevante para la escena donde se realiz´o la consulta. Por ejemplo para un el entornocasa (house), se podr´ıa considerar una mayor relevancia para las im´agenes que corresponden a la fruta, posteriormente a los dispositivos y finalmente la empresa.
En el presente trabajo se presenta un m´etodo de WSL para el reconocimiento de objetos, que cuenta con un nuevo mecanismo de filtrado de im´agenes inspirado en el meta-aprendizaje. La idea general del meta-aprendizaje es aprender a aprender basado en experiencias previas. En el aprendizaje computacional esto usualmente se realiza obteniendo atributos descriptivos (meta-atributos) sobre el rendimiento de varios clasificadores, sus par´ametros empleados para ciertas tareas y los meta-atributos de la base de datos de la tarea donde se evalu´o el desempe˜no [Hutter et al., 2019].
El m´etodo presentado logra mejorar el desempe˜no en el reconocimiento de objetos eliminando aquellas im´agenes irrelevantes por medio de una clasificaci´on multi-modal (visual y textual) que considera a la consulta (objeto y contexto) para determinar
la relevancia de la imagen.
Figura 1.1: Ejemplo primeros resultados de b´usqueda recuperados para la consulta apple
proporcionados por Google Im´agenes.
1.1.
Motivaci´on
Desde hace algunos a˜nos se ha extra´ıdo informaci´on de la Web para usarla en el desarrollo de m´etodos que permitan estimar la ubicaci´on de un objeto en un entorno espec´ıfico, usualmente dentro del hogar, por ejemplo, encontrar una manzana en una habitaci´on. Como los m´etodos desarrollados por [Kollar et al., 2012, Samadi et al., 2012, Samadi et al., 2013] e [Izquierdo-Cordova et al., 2016]. En rob´otica, especialmente en robots de asistencia dom´estica, es de gran inter´es encontrar objetos como parte de una subtarea de una actividad en particular, tal es el caso de mover un objeto de un lugar a otro.
Dentro de la b´usqueda de objetos en un entorno, reconocer el objeto es una tarea dif´ıcil, adicional a eso en algunos casos el objeto o los objetos solicitados no forman parte del conjunto de datos del modelo previamente entrenado, como los modelos desarrollados por [Szegedy et al., 2016,Szegedy et al., 2017] o [Redmon and Farhadi, 2018], que a pesar de alcanzar resultados calificados como buenos, no es posible que realicen una inferencia sobre alguna imagen que se encuentra fuera de su conjunto de entrenamiento de manera correcta. Una alternativa es aprender el nuevo objeto
6 1.2. DESCRIPCI ´ON DEL PROBLEMA
deseado a partir de las im´agenes recuperadas de Internet, sin embargo, anotar ma-nualmente las im´agenes adquiridas es una tarea que consume esfuerzo y un tiempo considerable.
El WSL ha sido utilizado para diferentes tareas de visi´on por computadora, como el reconocimiento y detecci´on de objetos [Chen et al., 2013,Divvala et al., 2014,Chen and Gupta, 2015, Modolo and Ferrari, 2017, Guo et al., 2018], para el refinamiento de etiquetado [Nag Chowdhury et al., 2018] e incluso tambi´en para la segmentaci´on de im´agenes [Jin et al., 2017].
1.2.
Descripci´on del problema
Los modelos de aprendizaje profundo elaborados por [Szegedy et al., 2016,Sze-gedy et al., 2017] o [Redmon and Farhadi, 2018] han logrado un alto rendimiento en la tarea de reconocimiento de objetos. Estos modelos han sido entrenados con conjuntos de datos etiquetados manualmente, tales como ImageNet [Deng et al., 2009],PASCAL VOC [Everingham et al., 2010],MS COCO [Lin et al., 2014], Label-Me [Russell et al., 2008], sin embargo, para reconocer un nuevo objeto inexistente en estos conjuntos de datos, es necesario recopilar un gran n´umero de ejemplos positivos del objeto. Una manera de hacerlo es recuperar im´agenes de Internet (por ejemplo,
Google Im´agenes 2) y, a continuaci´on, filtrar manualmente las im´agenes relevantes de las irrelevantes, pero esto es un trabajo con un costo elevado y toma un tiempo considerable la realizaci´on de esta tarea. Por esta raz´on ha crecido el inter´es por el
WSL en el ´area de visi´on computacional.
Formalmente el WSL se puede expresar como la tarea de aprender una funci´on
f :X 7→ Y por medio de un conjunto de entrenamiento D={(x1, y1), ...,(xm, ym)},
donde X es el conjunto de atributos o caracter´ısticas, Y es la clase o etiqueta. En este caso particular del aprendizaje computacional la etiqueta ym es asignada por
la Web, desafortunadamente la informaci´on proveniente de Internet presenta ruido y datos faltantes lo que dificulta la caracterizaci´on correcta de cada ejemplo. Es por eso que usualmente se agregan mecanismos que reafirmen la pertenencia de las im´agenes a la etiquetaym y con ello disminuir el impacto que producen las im´agenes
irrelevantes en la tarea de reconocimiento de objetos.
1.3.
Objetivos
A continuaci´on se presenta el objetivo general de este trabajo de tesis y los objetivos espec´ıficos que complementan al objetivo general.
1.3.1.
Objetivo general
Desarrollar un m´etodo de aprendizaje de objetos supervisado por la Web basa-do en informaci´on multi-modal de im´agenes que mejore el reconocimiento de objetos tomando en cuenta la informaci´on del escenario.
1.3.2.
Objetivos espec´ıficos
1. Dise˜nar e implementar un m´etodo de filtrado de im´agenes basado en informa-ci´on textual que considere al objeto y al contexto.
2. Dise˜nar e implementar un m´etodo de filtrado de im´agenes basado en informa-ci´on visual de las im´agenes.
3. Desarrollar un m´etodo de filtrado multi-modal que utilice la informaci´on tex-tual (dependiente del objeto y del contexto) y la informaci´on visual para el
8 1.4. ORGANIZACI ´ON DE TESIS
filtrado de im´agenes relevantes.
4. Desarrollar un m´etodo de aprendizaje supervisado por la Web para la tarea de reconocimiento de objetos.
1.4.
Organizaci´on de tesis
El documento se encuentra organizado en 5 cap´ıtulos, posteriores al presente, en el pr´oximo cap´ıtulo se introducen los conceptos fundamentales para la comprensi´on de las t´ecnicas y herramientas de aprendizaje computacional contempladas en la tesis.
En el cap´ıtulo 3 se presentan los m´etodos y t´ecnicas que se encuentran relacionados a este trabajo de tesis en cada una de las tareas correspondientes, por un lado para elWSL en reconocimiento de objetos y en el otro caso el uso de informaci´on multi-modal para la clasificaci´on.
Los cap´ıtulos 4 y 5 abordan la construcci´on de la base de datos, el m´etodo propues-to para el filtrado de im´agenes relevantes por medio de meta-atributos derivados de informaci´on multi-modal y los experimentos realizados entorno al m´etodo propuesto.
Finalmente el cap´ıtulo 6 remarca las conclusiones, contribuciones y el trabajo futuro respecto al presente trabajo.
Cap´ıtulo 2
Marco te´orico
En esta secci´on se describen los conceptos b´asicos que son utilizados dentro del presente documento. Comenzando por el aprendizaje computacional y el aprendizaje supervisado por la Web, posteriormente los recursos para la extracci´on de conoci-miento, las medidas de similitud empleadas para la construcci´on de meta-atributos, el aprendizaje multi-modal y sus variantes respecto a la fusi´on de informaci´on para la clasificaci´on, los algoritmos utilizados para el m´etodo de filtrado, continuando con el aprendizaje profundo para el reconocimiento de objetos, las medidas de evalua-ci´on empleadas y finalmente, la descripci´on de las pruebas estad´ısticas a las que son sometidos cada uno de los experimentos realizados.
2.1.
Aprendizaje computacional
El aprendizaje computacional se caracteriza por extraer conocimiento por me-dio de un conjunto de datos. Existen problemas en los cuales se conoce el modelo matem´atico y puede ser descrito a trav´es de un algoritmo para llegar a la soluci´on o a una aproximaci´on de la soluci´on del problema. Por otro lado en el aprendiza-je computacional se cuenta con un conjunto de datos y generalmente con la salida
10 2.1. APRENDIZAJE COMPUTACIONAL
(D = {(x1, y1), ...,(xi, yi)}, xi ∈ X, y yi ∈ Y) para cada elemento del conjunto en problemas de clasificaci´on y regresi´on. Usualmente el conjunto de datos se divide en dos partes, una para el entrenamiento y otra para validar el m´etodo (conjun-to de prueba). Los algoritmos de aprendizaje computacional son los encargados de aprender una funci´on (f : X 7→ Y) por medio de los datos de entrada del conjunto de entrenamiento para realizar predicciones sobre muestras no vistas en el futuro (conjunto de prueba).
Una forma de subdividir al aprendizaje computacional de acuerdo a la manera en la que se conoce la salida yi de cada uno de los elementos del conjunto de datos es
la siguiente:
Aprendizaje Supervisado: Considerando una clasificaci´on binaria entre las clases Y y N, Y = {Y, N}. El aprendizaje supervisado formalmente se define como una funci´on f : X 7→ Y que a partir de un conjunto de entrenamiento
D = {(x1, y1), ...,(xi, yi)}, xi ∈ X, y yi ∈ Y, sea capaz de realizar
aproximacio-nes del valor de salida yi por medio de un conjunto de atributos X. La etiqueta o
clase yi de cada ejemplo del conjunto de entrenamiento es asignada por un experto
y se considera que ha sido correctamente asignada [Zhou, 2017].
Aprendizaje no supervisado: En este tipo de aprendizaje se desconoce la eti-queta o clase yi de todos los ejemplos en el conjunto de entrenamiento, por lo que
solo se cuenta con el conjunto de atributos X de cada instancia y se pretende que los algoritmos de clasificaci´on encuentren una separaci´on entre los ejemplos perte-necientes a una clase y otra. Este tipo de aprendizaje no es ´util cuando se quiere determinar de manera autom´atica el grupo perteneciente a la clase (0 o1 ,spam o
no-spam, etc.) ya que no es posible asignar por medio de los algoritmos dise˜nados para este tipo de aprendizaje qu´e parte de la frontera corresponde a cada una de las
clases.
Aprendizaje semi-supervisado o supervisi´on incompleta: Se refiere gene-ralmente a la situaci´on en la que se cuenta con una peque˜na cantidad de datos etiquetados y se dispone de abundantes datos no etiquetados. Formalmente esta ta-rea se define como, encontrar una funci´onf :X 7→ Y por medio de un conjunto de entrenamiento D ={(x1, y1), ...,(xl, yl), xl+1, ..., xm}, donde hay l n´umero de ejem-plos etiquetados yu=m−l n´umero de ejemplos sin etiquetar [Zhou, 2017], al igual que el aprendizaje supervisado la etiqueta yi ha sido etiquetada por un experto y se considera correctamente asignada.
Aprendizaje supervisado por la web: En WSL la etiqueta o clase yi ∈ Y,
corresponde a la consulta realizada, consultar la Web para la construcci´on de una base de datos, en espec´ıfico de im´agenes, permite extraer informaci´on textual relacio-nada a la imagen, sin embargo, esto trae consigo una combinaci´on de las siguientes situaciones:
1. En el caso ideal, tanto la imagen como el texto corresponden a la consulta realizada.
2. La imagen corresponde a la etiqueta pero el texto que la acompa˜na es irrele-vante para la consulta.
3. La imagen es irrelevante para la consulta, sin embargo, el texto asociado se encuentra relacionado.
4. En el peor caso, la imagen y el texto no se encuentran relacionados con la consulta.
5. Adicional a los casos anteriores, en ocasiones no es posible recuperar el texto que acompa˜na a la imagen lo que produce una gran cantidad de datos faltantes.
12 2.2. HERRAMIENTAS PARA LA EXTRACCI ´ON DE CONOCIMIENTO
Por estos motivos los trabajos relacionados alWSLproponen t´ecnicas que utilizan informaci´on de las im´agenes o de herramientas que agregan informaci´on de la consul-ta realizada basada en texto [Chen et al., 2013, Divvala et al., 2014, Nag Chowdhury et al., 2018] con la intenci´on de disminuir el impacto del ruido en los datos de entre-namiento en la tarea de reconocimiento de objetos.
2.2.
Herramientas para la extracci´on de conocimiento
Diferentes herramientas han sido propuestas para encontrar relaciones entre conceptos, cada una de estas con diferente representaci´on del conocimiento, Concept-Net con una representaci´on basada en grafos y Word2Vec basada en representaci´on vectorial (Word embeddings).ConceptNet yWord2Vec son parte de las herramientas m´as utilizadas en la literatura y han mostrado proporcionar buenos resultados por medio de su uso individual o combinando la informaci´on que proporcionan, ambas herramientas se describen a continuaci´on.
2.2.1.
ConceptNet: Conocimiento del sentido com ´un
ConceptNet es un grafo que conecta palabras y frases del lenguaje natural con etiquetas (relaciones) y aristas ponderadas. La informaci´on o conocimiento que con-tiene esta herramienta proviene de m´ultiples fuentes, por ejemplo,WordNet, Wiktio-nary, Open Mind Common Sense y DBPedia. Algunas de las relaciones que podemos encontrar son: IsA, UsedFor y CapableOf, es un, se usa para y es capaz de, respec-tivamente [Speer et al., 2017].
La figura 2.1 ilustra a los conceptos apple y house por medio de relaciones entre diferentes t´erminos recuperados de ConceptNet. Se pueden observar relaciones como
living room is part of house entre otras.
Figura 2.1: Representaci´on de los t´erminos relacionados a los conceptosappleyhouse.
2.2.2.
Word embeddings
Word embddings es una representaci´on de un conjunto de palabras (vocabula-rio) en una representaci´on vectorial, actualmente existen m´ultiples modelos que han sido entrenados con diferentes corpus y diferentes modelos de aprendizaje, entre los m´as destacados se encuentran,Glove [Pennington et al., 2014],FastText [Bojanowski et al., 2017] y Word2Vec [Mikolov et al., 2013a].
Word2Vec: Es posible extraer una representaci´on vectorial de palabras del len-guaje natural. Uno de los modelos pre-entrenados es el desarrollado por [Mikolov et al., 2013a], el cual fue entrenado con noticias de Google. Contiene 3 millones de palabras y frases, cada una representada en vectores de 300 dimensiones, esto
14 2.3. MEDIDAS DE SIMILITUD ENTRE VECTORES
permite llevar palabras, frases e incluso documentos de texto a una representaci´on vectorial. La figura 2.2 muestra algunos ejemplos de la representaci´on de pa´ıses y sus capitales.
Figura 2.2: Proyecci´on en 2 dimensiones usando an´alisis de componentes principales (PCA por sus siglas en ingl´es) de la representaci´on vectorial obtenida de Word2Vec de algunos pa´ıses y sus capitales (imagen recuperada de [Mikolov et al., 2013b])
2.3.
Medidas de similitud entre vectores
Gracias a la representaci´on vectorial de las palabras, frases o documentos de texto que podemos extraer conWord2Vecy en general de cualquier vector de n com-ponentes es posible obtener medidas de similitud basadas en vectores que nos ayuden a ponderar la similitud entre la consulta y cada resultado de b´usqueda recuperado de la Web, las medidas utilizadas se presentan a continuaci´on:
Suma de diferencias al cuadrado: SeanU y V dos vectoresn dimensionales, la suma de diferencias al cuadrado (SSD por sus siglas en ingl´es) se calcula basado en la ecuaci´on 2.1, donde ui y vi corresponden a cada uno de los elementos de los
vectores U y V respectivamente. El resultado de esta operaci´on se encuentra en el intervalo [0,n], cuanto m´as cercano el valor a cero indica una menor diferencia que puede ser interpretada como una mayor similitud entre los vectores y en caso contrario una menor similitud.
SSD =
n
X
i=0
(ui−vi)
2
(2.1)
Suma de diferencias absolutas: Considerando nuevamente a U y V dos vecto-resn dimensionales, la suma de diferencias absolutas (SAD por sus siglas en ingl´es) se determina basado en la ecuaci´on 2.2, donde ui ∈ U y vi ∈ U. Al igual que la
SSD los valores de esta funci´on van de 0 an, un valor cercano a 0 indica una menor diferencia entre los vectores lo que tambi´en representa una mayor similitud.
SAD=
n
X
i=0
(|ui−vi|) (2.2)
Distancia Euclidiana: Esta funci´on usa de manera interna la SSD, posterior a esto se calcula la ra´ız cuadrada de la suma total. La ecuaci´on 2.3 expresa la distancia Euclidiana, dondeui yvi son elementos de los vectoresU yV, los valores que retorna
esta funci´on se encuentran en el intervalo [0,n] y de igual manera, un valor cercano a 0 indica menor diferencia entre los vectores.
DistanciaEuclidiana= v u u t n X i=0
(ui −vi)2 (2.3)
Similitud coseno: Toma valores de -1 a 1, 1 cuando los vectores conservan la misma orientaci´on, es decir existe un ´angulo de 0◦ entre ellos, 0 cuando existe un ´
angulo de 90◦y -1 cuando los vectores se encuentran totalmente en direcci´on opuesta, es decir 180◦. Esta medida no considera la magnitud de los vectores involucrados, s´olo su orientaci´on. Cuando esta medida es utilizada para calcular similitud entre palabras o texto se interpreta que valores cercanos a 1 indican una mayor similitud.
16 2.3. MEDIDAS DE SIMILITUD ENTRE VECTORES
El calculo de la similitud coseno se realiza obteniendo el ´angulo que existe entre los vectores U y V, para ello se divide el producto punto de los vectores, entre la multiplicaci´on de sus normas. En la ecuaci´on 2.4, U y V son dos vectores n
dimensionales y||U||, ||V|| se refieren a la norma del vector U y V respectivamente y cos se refiere a la funci´on trigonom´etrica coseno.
SimilitudCoseno(U, V) = cos(θ) =cos
U ·V ||U|| ||V||
(2.4)
Coeficiente de correlaci´on: Para dos vectores U y V el coeficiente de correlaci´on
r considera la covarianza existente entre los vectores U y V y es dividido por la ra´ız cuadrada de la multiplicaci´on de la covarianza de cada vector individual. Este coeficiente retorna valores de−1 a 1, siendo−1 el indicador de una correlaci´on lineal negativa, 0 la inexistencia de correlaci´on y 1 una correlaci´on lineal positiva entre los vectores, siendo [−1,1] el intervalo de esta funci´on.
La funci´on 2.6 expresa el coeficiente de correlaci´onr, mientras que la funci´on 2.5 la covarianza entre 2 vectores, dondemU y mV representan a la media del vector U
y V respectivamente.
Cov(U, V) = 1
n n
X
i=1
(ui−mU) (vi−mV) (2.5)
r = p Cov(U, V)
Cov(U, U)∗Cov(V, V) (2.6)
Word Mover’s Distance (WMD): Es una medida presentado por [Kusner et al., 2015], especialmente dise˜nada para calcular la similitud entre dos documentos de texto, d1 y d2. Esta medida cuantifica el costo C m´ınimo en el que cada palabra
wdel documentod1 sea exactamente igual a alguna de las palabrasv del documento
d2. Para establecer este costo se empleaWord2Vec para obtener el vector que corres-ponde a cada una de las palabras de ambos documentos y posteriormente se realiza la suma de la distancia Euclidiana m´ınima entre las palabras de d1 y d2.
Formalmente se define en la ecuaci´on 2.7, donde n es la cantidad de palabras presentes end1,wi el vector de cada palabra que compone al documentod1, mientras quevj el vector de la palabrajque compone al documentod2, similar a otras medidas descritas un valor cercano a 0 indica una mayor similitud entre los documentos texto.
W M D(d1, d2) =
n
X
i=1
argmin[C(wi, v1), C(wi, v2), ..., C(wi, vm)] (2.7)
2.4.
Aprendizaje computacional multi-modal
A diferencia del aprendizaje computacional uni-modal o aprendizaje compu-tacional, el aprendizaje multi-modal utiliza informaci´on de m´ultiples dominios o modalidades para realizar una predicci´on sobre un conjunto de datos que contiene informaci´on de cada dominio, existen tres medios de informaci´on principales por los que es posible obtener una representaci´on de una instancia, visual, textual y audio.
Se han establecido tres maneras b´asicas de combinar o fusionar la informaci´on de cada una de las modalidades y tambi´en diferentes estrategias para realizar las inferencias sobre los ejemplos. De acuerdo a la manera en que se une la informaci´on de cada modalidad para representar a una instancia se categorizan en fusi´on temprana, tard´ıa e h´ıbrida [Baltruˇsaitis et al., 2018].
Fusi´on temprana: Consiste en la concatenaci´on de la representaci´on (com´ unmen-te vectorial) de cada una de las modalidades, por ejemplo, el vector que representa una imagen y el vector que representa su etiqueta o categor´ıa. El vector concate-nado sirve como entrada para los algoritmos de aprendizaje, al clasificar un nuevo ejemplo se requiere de ambas modalidades para hacer una predicci´on adecuada. El inciso a de la figura 2.3 ilustra un ejemplo de la fusi´on temprana. Se consideran dos
18 2.5. META-APRENDIZAJE
modalidades, la visual (M1) y textual (M2). Las representaciones M1 y M2 son concatenadas para conformar el vector de entrada para el clasificador C1. En esta estrategia el C1 es el encargado de hacer la predicci´on final sobre las instancias.
Fusi´on tard´ıa: En este caso se entrena un algoritmo de aprendizaje computacio-nal para cada una de las modalidades, posteriormente, con base en las decisiones de cada uno de los modelos entrenados se obtiene una decisi´on final, usualmente por medio de voto mayoritario, votaci´on suave, votaci´on pesada o entrenando un modelo de clasificaci´on con los valores de salida de los clasificadores previos (stacking en ingles). En el incisob de la figura 2.3 se observa la representaci´on gr´afica de la fusi´on tard´ıa. En este tipo de fusi´on se entrena un clasificador C1 para la modalidad M1 y otro clasificador C2 para M2, posteriormente las salidas (confianza, probabilidad, etiqueta o clase) S1 y S2 conforman la entrada del clasificador (C3) encargado de realizar la predicci´on final.
Fusi´on h´ıbrida: Es una combinaci´on de la fusi´on temprana y tard´ıa, considerando dos modalidadesM1 yM2 (ver incisocde la figura 2.3). Una fusi´on h´ıbrida se puede conformar por tres clasificadores, un clasificador C1 entrenado con la uni´on de las representaciones de M1 y M2 (fusi´on temprana), dos clasificadores, C2 y C3 cada uno para la clasificaci´on individual deM1 yM2 correspondientemente y posterior a esto, realizar la inferencia por medio de voto mayoritario (fusi´on tard´ıa) [Baltruˇsaitis et al., 2018].
2.5.
Meta-aprendizaje
El t´ermino meta-aprendizaje o aprender a aprender es generalmente asociado al aprendizaje basado en experiencias previas. Usualmente el meta-aprendizaje se emplea para hacer recomendaciones de algoritmos y de sus par´ametros a emplear en
Figura 2.3: Tipos de fusi´on de informaci´on para el aprendizaje multi-modal, a) fusi´on temprana, b) fusi´on tard´ıa y c) fusi´on h´ıbrida.
una nueva tarea, por ejemplo, el n´umero deK vecinos m´as cercanos a considerar para mejorar el rendimiento de el algoritmo con el mismo nombre. Por medio del meta-aprendizaje se intenta disminuir el esfuerzo de la selecci´on manual de los algoritmos para una nueva tarea [Hutter et al., 2019].
Las sugerencias de algoritmos y sus configuraciones a utilizar para una nueva tarea
tnew que proporciona el meta-aprendizaje se basan atributos que describen
(meta-atributos mj,k ∈ M) la tarea, por ejemplo, n´umero de instancias, atributos, clases,
etc. y el comportamiento de los modelos en tareas previastj ∈T similares. Adicional
a los algoritmos, se considera la configuraci´on de sus respectivos par´ametros θ ∈ Θ y respecto al comportamiento del algoritmo, se considera el conjunto de valores P
obtenidos en cada una de las medidas evaluadas. As´ı el valor Pi,j =P(θi, tj) indica el
resultado de evaluar un algoritmo con la configuraci´on de par´ametrosθi en la tarea tj.
En el presente trabajo caracterizamos cada instancia mediante meta-atributos que describen la relaci´on entre la informaci´on recuperada de Internet (im´agenes y texto)
20 2.6. ALGORITMOS DE APRENDIZAJE COMPUTACIONAL
y la consulta realizada al buscador. Lo que se espera es que los algoritmos aprendan la tarea de filtrar im´agenes relevantes para categor´ıas nuevas bas´andose en ejemplos etiquetados de categor´ıas previas y as´ı evitar el esfuerzo de etiquetar manualmente cada una de las im´agenes de categor´ıas desconocidas.
2.6.
Algoritmos de aprendizaje computacional
A lo largo de los a˜nos se han propuesto m´ultiples algoritmos para la clasifi-caci´on binaria (0, 1), (Si, No), (Spam, No-spam), etc., muchos de los cuales, con algunas variantes, son capaces de resolver problemas en los que se involucran m´as de dos clases, por ejemplo, (apple, orange, ..., pitcher). En las siguientes secciones se describen los algoritmos utilizados para la clasificaci´on de im´agenes como relevantes
o irrelevantes para consulta realizada del objeto y un contexto determinado.
M´aquina de soporte vectorial: Es un modelo de clasificaci´on, que considera una funci´on conocida comokernel para llevar a cabo una transformaci´on en los datos que permita encontrar una separaci´on entre ellos y as´ı determinar su pertenencia a su clase respectiva, entre los kernels m´as utilizados, se encuentran el lineal y el de base radial.
El objetivo de las m´aquinas de soporte vectorial (SVM por sus siglas en ingl´es) en t´erminos geom´etricos es que durante el entrenamiento ajusta la l´ınea, el plano o hiper-plano lo m´as cercano a la frontera entre los datos de una clase y otra. La figura 2.4 ilustra geom´etricamente un caso del ajuste de una l´ınea que separa los datos por medio de dos fronteras. La l´ınea punteada corresponde a la frontera delimitada por una SVM con kernel lineal y la l´ınea continua con base radial. En la gran mayor´ıa de los casos el ajuste de la l´ınea, plano o hiper-plano se realiza por medio de la distancia Euclidiana [Wang, 2005].
Figura 2.4: Fronteras encontradas por unaSVM conkernelde base lineal y unaSVMcon base radial, la l´ınea punteada corresponde a unaSVMconkernellineal y la l´ınea continua con unkernelen base radial.
k-Vecinos m´as cercanos:Este algoritmo realiza la inferencia sobre instanciaxi
a clasificar considerando los k vecinos m´as cercanos y por medio de voto mayoritario se le asigna la clase. Para obtener los vecinos m´as cercanos se utiliza usualmente la distancia Euclidiana. Uno de los par´ametros a establecer de este modelo de clasifi-caci´on es la cantidad de k vecinos a considerar para hacer una predicci´on correcta de cada uno de las instancias.
An´alisis discriminante lineal (LDA): Encuentra una separaci´on por medio de una combinaci´on lineal de los los valores de un vector Z =β1x1+β2x2 +...+βixi
tal que los coeficientes β ponderen aquellos atributos x que ayuden a la separaci´on de las las clases, para la clasificaci´on los datos son transformados por el vector Z y se asigna la clase de pertenencia, debido a su naturaleza es posible realizar selecci´on de atributos con este modelo. Sin embargo, este modelo se encuentra limitado al n´umero de clases, solo es capaz de seleccionar n −1 atributos, n es el n´umero de clases.
22
2.7. APRENDIZAJE PROFUNDO PARA LA TAREA DE RECONOCIMIENTO DE OBJETOS
Regresi´on log´ıstica: Es uno de los modelos mas utilizados para la clasificaci´on binaria en aprendizaje computacional, similar aLDAutilizay =β1x1+β2x2+...+βixi
con el ajuste los valores de β se eval´ua la funci´on de activaci´on log´ıstica con la que se determina la clase a la que pertenece una instancia descrita por un conjunto de caracter´ısticas X, la funci´on de activaci´on se presenta en la ecuaci´on 2.8.
sigmoid= 1
1 +e−(β1x1+β2x2+...+βixi) (2.8)
Clasificador Bayesiano simple (Naive Bayes): Este clasificador se basa en el teorema deBayes, obtiene la probabilidad de que una instancia pertenezca a una claseyi por medio del producto de la probabilidad de la clase por la probabilidad de
cada atributo xi dada una clase, dividido por la probabilidad de los atributos. Este
clasificador supone que todos los atributos son independientes entre si dada la clase, por lo que se puede expresar como la funci´on 2.9.
P(yi | X) =
P(yi)P(x1 |yi)P(x2 |yi)...P(xn|yi)
P(X) (2.9)
Naive Bayes es uno de los clasificadores m´as utilizados en el aprendizaje supervi-sado debido a dos ventajas que proporciona, una es el bajo costo computacional para su construcci´on y por otro lado, la posibilidad que brinda al usuario de interpretar las predicciones que realiza.
2.7.
Aprendizaje profundo para la tarea de
reconocimien-to de objereconocimien-tos
El aprendizaje profundo o Deep Learning forma parte de un subconjunto de t´ecnicas del aprendizaje computacional empleado usualmente para tareas que cuen-tan con un gran volumen de datos. Una de las principales ventajas es la extracci´on
de caracter´ısticas que realiza de manera autom´atica, aprendiendo aproximaciones de funciones lineales o no lineales sobre un conjunto de entradas y salidas.
Los modelos de aprendizaje profundo para el reconocimiento de objetos actual-mente se basan en las redes neuronales convolucionales (CNN por sus siglas en ingl´es). La base principal de la creaci´on de estas redes se remonta al perceptr´on simple y el perceptr´on multi-capa, hasta llegar a las redes neuronales profundas y finalmente las redes neuronales convolucionales.
2.7.1.
Perceptr´on simple
Es una red neuronal simple, la cual se ilustra en el inciso a de la figura 2.5, consta de una capa de entrada X = {x1, x2, ..., xn} que se conecta por medio de
aristas pesadas w = {w1, w2, ..., wn} a un nodo de salida (S1) que para este caso considera una clasificaci´on binaria Y = 0,1.
El nodo de salida al que se conecta la capa de entrada recibe P
wixi y contiene
un umbral t, donde en cada iteraci´on se ajusta el umbral t con la intenci´on de realizar las predicciones de manera correcta, las predicciones en la versi´on elemental se realizan de acuerdo a la funci´on escalonada (ver ecuaci´on 2.10) conocida tambi´en como funci´on de activaci´on, no obstante esta funci´on puede ser reemplazada por algunas descritas en la secci´on 2.7.3 con la intenci´on de realizar mejores predicciones.
y= 1, siP
wixi > t
y= 0, en otro caso.
24
2.7. APRENDIZAJE PROFUNDO PARA LA TAREA DE RECONOCIMIENTO DE OBJETOS
Figura 2.5: Representaci´on de a) un perceptr´on simple y b) un perceptr´on multi-capa.
2.7.2.
Perceptr´on multi-capa
Un perceptr´on multi-capa consta de una capa de entrada que corresponde a las dimensiones del vector de entrada, una o varias capas ocultas y una capa de salida, tambi´en es considerado como una red neuronal profunda cuando consta de n > 1 capas ocultas.
Capa de entrada: Los nodos de la capa de entrada reciben las variables de cada uno de los atributos del ejemplo y transmite esta informaci´on a la siguiente capa de manera directa.
Capa oculta: Se alimenta de los nodos conectados provenientes de la capa de entrada o de alguna capa oculta anterior a ´esta. Cada nodo en la capa oculta con-tiene una funci´on de activaci´on que determina el valor de salida que alimenta hacia adelante a la siguiente capa.
Capa de salida: Es la ´ultima capa del perceptr´on multi-capa, ´esta es la encargada de producir la salida de la clasificaci´on de acuerdo a los datos de entrada, esto est´a
directamente relacionado con la funci´on de activaci´on que se define en la capa de salida.
El inciso b de la figura 2.5 ilustra un perceptr´on multi-capa, con una capa de entrada conectada a una capa oculta y una capa de salida (S1).
2.7.3.
Red neuronal profunda
Se considera al perceptr´on multi-capa como una red neuronal simple y partien-do de esta es posible agregar un mayor n´umero de capas ocultas para la construcci´on de una red neuronal profunda adem´as de agregar nodos de salida para realizar la predicci´on de m´as de dos clases.
Una red neuronal es considerada profunda cuando el n´umero de capas ocultas es mayor a 1, la figura 2.6 ilustra a una red neuronal y a una red neuronal profunda. Al igual que los antes mencionados algoritmos de aprendizaje, las redes neuronales profundas constan de una etapa de entrenamiento, en la que se ajustan los pesos de las aristas que conectan cada uno de los nodos.
Algunos de los componentes importantes para el entrenamiento de las redes neu-ronales son la funci´on de activaci´on en cada una de sus capas o nodos, la funci´on de p´erdida y el algoritmo de propagaci´on del error en la salida con el que se realiza el ajuste de los pesos de acuerdo a una tasa de aprendizaje (learning rate), entre otros.
Funci´on de activaci´on: La funci´on de activaci´on es la encargada de determinar el valor de salida que es transmitido a la capa posterior considerando los datos con los que el nodo es alimentado. Usualmente la funci´on de activaci´on se define por
26
2.7. APRENDIZAJE PROFUNDO PARA LA TAREA DE RECONOCIMIENTO DE OBJETOS
Figura 2.6: La ilustraci´on de una red neuronal con una capa oculta (derecha) y la repre-sentaci´on de una red neuronal profunda con 3 capas ocultas.
capas, algunas de ´estas son empleadas incluso para la clasificaci´on como es el caso de la funci´on log´ıstica (sigmoid), la tangente hiperb´olica (tanh) o la unidad lineal rectificada (RELU), las funciones de activaci´on m´as utilizadas son:
Log´ıstica (sigmoid): Esta funci´on se encuentra en el rango de 0 a 1, se define por la ecuaci´on 2.11, donde WT representa a la transpuesta del vector de pesos de
las aristas procedentes de la capa anterior, X a los valores correspondientes de la salida de cada nodo y b el umbral del nodo tambi´en conocido como bias. Se puede observar gr´aficamente en el inciso a de la figura 2.7.
sigmoid= 1
1 +e−(WTX+b) (2.11)
Tangente hiperb´olica: Esta funci´on devuelve valores en el rango de −1 y 1 se refiere a la ecuaci´on 2.12, es similar a la funci´on de activaci´on sigmoid, donde
WTX+b es multiplicado por dos, visualmente corresponde al inciso b de la figura
2.7.
tanh= 2
1 +e−2(WTX+b) −1 (2.12)
Unidad lineal rectificada (RELU): Es una funci´on lineal que generalmente se expresa como max(0, x), donde x=WTX +b y tambi´en suele ser expresada como
una funci´on escal´on definida por 2.13. Se ilustra en el inciso cde la imagen 2.7.
RELU =
0, si x <0
x, si x >= 0.
(2.13)
Figura 2.7: Funci´on de activaci´onsigmoid,tangente hiperb´olica y unidad lineal rectificada ilustradas en ese mismo orden de izquierda a derecha.
Softmax: Retorna valores entre 0 y 1, es utilizada principalmente en la capa de salida para la predicci´on de la clase a la que pertenece una instancia. Una de las ventajas de esta funci´on es que considera las predicciones realizadas por sus vecinos por lo que la suma de los valores en la capa es igual a 1.
Se expresa como:
sof tmax= e
x
Pk
k=1exk
(2.14)
El termino x = WTX +b , mientras que el termino k corresponde a los nodos
vecinos en la capa de salida.
Funci´on de p´erdida: La funci´on de p´erdida ayuda a la propagaci´on del error para el ajuste de pesos. Existen una variedad de ellas que en mayor o menor propor-ci´on repercuten en el entrenamiento de una red neuronal convolucional (CNN por
28
2.7. APRENDIZAJE PROFUNDO PARA LA TAREA DE RECONOCIMIENTO DE OBJETOS
sus siglas en ingl´es). La funci´on empleada para el reconocimiento de objetos en el presente trabajo corresponde a Root Mean Squared Error (RMSE) o ra´ız cuadrada del promedio del error al cuadrado tambi´en utilizada por [Guo et al., 2018] durante el entrenamiento de laCNN.
Root Mean Squared Error (RMSE): Se describe en la funci´on 2.15 donde ˆy
corresponde a la predicci´on realizada por la CNN y y pertenece a la clase real del ejemplos.
RM SE =
v u u t 1 n n X i=1
(ˆyi−yi)2 (2.15)
2.7.4.
Red neuronal convolucional
Las redes neuronales convolucionales o CNN son redes neuronales profundas aplicadas en la mayor´ıa de los casos a la clasificaci´on de im´agenes, objetos, escenas y detecci´on de objetos.
Este tipo de redes se caracterizan por hacer uso de operaciones de convoluci´on, sub-muestreo y de capas totalmente conectadas.
La operaci´on de convoluci´on consiste en aplicar un filtro por medio de una ventana generalmente de 2 dimensiones sobre la imagen y los valores de salida de esta ope-raci´on corresponden a los obtenidos por la funci´onRELU. El sub-muestreo tambi´en est´a conformado por una ventana y en este caso se obtiene generalmente el valor m´aximo presente en la ventana determinada.
El uso de capas totalmente conectadas se realiza en las ´ultimas capas de la red convolucional. Son utilizadas como el conjunto de caracter´ısticas obtenidas de la
imagen y la ´ultima capa totalmente conectada se utiliza para la clasificaci´on, en la que con regularidad se utiliza la funci´on de activaci´onsoftmax, donde el nodo con el valor m´aximo corresponde a la clase que el modelo predice.
Se han propuesto diferentes arquitecturas deCNN para el reconocimiento de obje-tos como los desarrollados por [Szegedy et al., 2016, Szegedy et al., 2017] o [Redmon and Farhadi, 2018]. En el presente trabajo hacemos uso de la redInception V3 [Sze-gedy et al., 2016] (ver figura 2.8), esta red cuenta con 42 capas y se ha utilizado para clasificar las 1000 categor´ıas de la base de datos ImageNet [Deng et al., 2009], como entrada recibe im´agenes de un tama˜no de 299 x 299 pixeles. La ´ultima capa de caracter´ısticas corresponde a un vector de 2048 componentes.
Figura 2.8: Ilustraci´on de las capas que conforman a laCNN InceptionV3(imagen recu-perada deGoogle Cloud Platform2)
2.7.5.
Entrenamiento de
CNN
Generalmente el entrenamiento de estos modelos consume una gran cantidad de tiempo debido a la cantidad de pesos a ajustar en cada iteraci´on. De acuerdo a
30
2.7. APRENDIZAJE PROFUNDO PARA LA TAREA DE RECONOCIMIENTO DE OBJETOS
la manera en que se realiza el entrenamiento de estas redes se definen como:
Entrenamiento desde cero: Se refiere al entrenamiento de la red inicializando los pesos de las aristas de manera aleatoria. Este tipo de entrenamiento requiere de un mayor n´umero de iteraciones para alcanzar una exactitud cercana al 100 % en la clasificaci´on.
Re-entrenamiento: Esta t´ecnica permite inicializar los pesos de la red con un modelo pre-entrenado, como por ejemplo hacer uso del modelo resultante del entre-namiento con la base de datos ImageNet [Deng et al., 2009]. Esto permite iniciar el proceso de entrenamiento con un error base y esto ayuda a que con un menor n´umero de iteraciones alcanzar una exactitud considerada como buena.
Fine tuning: Hace uso del vector de caracter´ısticas que se encuentra en la pen´ultima capa, es decir el vector de 2048 en el caso del modelo Inception V3, y ajusta los pesos respecto a la capa totalmente conectada encargada de la clasifica-ci´on. Este proceso suele requerir una menor cantidad de tiempo para alcanzar un valor de exactitud m´aximo.
Por otro lado la cantidad de ejemplos que procesa la CNN antes de realizar el ajuste de los pesos tambi´en influye tanto en el tiempo de entrenamiento como en la exactitud alcanzada por el modelo. Existen dos vertientes principales, el entrena-miento en l´ınea y por batch.
Entrenamiento en l´ınea: Este tipo de entrenamiento realiza el ajuste de pesos por cada ejemplo procesado, independientemente de que el entrenamiento sea desde cero, re-entrenando un modelo pre-entrenado o con la t´ecnica de fine tuning.
Entrenamiento por batch: Se define un tama˜no n de batch, en el que en cada
batch, n im´agenes son procesadas y se ajustan los pesos de la red, considerando el error promedio de cada una de las instancias procesadas. Suele reducir el tiempo de entrenamiento, usualmente el tama˜no de n son 32, 64, 128 o 256. Una limitante es que a mayor n´umero se requiere de una mayor cantidad de memoria.
2.8.
Medidas de evaluaci´on
Evaluar un modelo de aprendizaje es un factor importante, usualmente las me-didas que se utilizan para la clasificaci´on son: precisi´on, recuerdo, exactitud, medida-F1 y AUC ROC, las cuales se basan en los siguientes t´erminos.
1. VP (verdadero positivo): Es aquella instancia cuya hip´otesis dice que debe ser positivo y en realidad es positivo.
2. FP (falso positivo): Es aquella instancia cuya hip´otesis dice que debe de ser positivo y en realidad es negativo.
3. VN (verdadero negativo): Es aquella instancia cuya hip´otesis dice que debe ser negativo y en realidad es negativo
4. FN (falso negativo): Es aquella instancia cuya hip´otesis dice que debe de ser negativo y en realidad es positivo.
A continuaci´on se definen cada una de las medidas antes mencionadas:
1. Precisi´on: Porcentaje o proporci´on de predicciones positivas que son correctas.
P recision´ = V P
32 2.9. PRUEBA ESTAD´ISTICA DEFRIEDMAN
2. Recuerdo: Porcentaje de verdaderos positivos predichos de entre todos los po-sitivos.
Recuerdo= V P
(V P +F N) (2.17)
3. Exactitud: Porcentaje de predicciones que son correctamente clasificadas.
Exactitud= V P +V N
(V P +F P +V N +F N) (2.18)
4. Medida-F1: Porcentaje de instancias negativas que fueron predichas como ne-gativas.
M edida−F1 = 2·P recision´ ·Recuerdo
P recision´ +Recuerdo (2.19)
5. AUC ROC: El ´area bajo la curva de caracter´ıstica operativa del receptor (AUC ROC por sus siglas en ingl´es) mide el ´area que se encuentra por de bajo de la curva obtenida por la medida de recuerdo, tambi´en conocido como tasa de VP y la tasa de FP (ecuaci´on 2.20).
T F P = F P
(F P +V N) (2.20)
En el presente trabajo de tesis se utiliza cada una de las medidas antes mencio-nadas para la evaluaci´on de cada uno de los experimentos realizados.
2.9.
Prueba estad´ıstica de
Friedman
Reportar el promedio de las medidas que alcanza cada clasificador no siempre es suficiente para medir el rendimiento en un conjunto de pruebas. El reporte del promedio de las medidas de evaluaci´on puede provocar dos situaciones no deseadas debido a que es susceptible a valores at´ıpicos. La primera sucede cuando, respecto al promedio, el rendimiento de un clasificador es considerado superior al resto de los clasificadores con los que es comparado y en realidad, s´olo obtiene excelentes
resultados en un peque˜no subconjunto de las bases de datos. La otra situaci´on es totalmente opuesta, un clasificador es inferior al resto, sin embargo, ´este s´olo obtiene muy malos resultados en un subconjunto peque˜no de las bases de datos.
[Demˇsar, 2006] analiza diferentes pruebas estad´ısticas para la comparaci´on de m´ultiples clasificadores en m´ultiples bases de datos, dentro de las cuales se encuentra la prueba de Friedman que se describe de la siguiente manera:
1. Se establece la hip´otesis nula,“Todos los clasificadores son equivalentes”.
2. Se asigna la posici´on a cada clasificador en cada una de las observaciones, es decir, la posici´on 1i la ocupa el clasificador con menor tasa de error y la
posici´onri el de mayor tasa de error en la base de datos i.
3. Si dos o m´as clasificadores obtienen el mismo desempe˜no en una observaci´on, se asigna el valor de posici´on promedio.
4. Posteriormente se comparan las posiciones promedio de cada clasificadorRj =
1 N P ir j i.
5. De acuerdo a la distribuci´on X2
F con k −1 grados de libertad, es posible
ob-tener el valor cr´ıtico por medio de la ecuaci´on 2.21, donde k es el n´umero de clasificadores que son comparados y N la cantidad de bases de datos en la que el rendimiento del clasificador ha sido evaluado.
X2
F =
12N k(k+ 1)
X
j
Rj−
k(k+ 1)2 4
!
(2.21)
Esta prueba estad´ıstica nos permite determinar si los resultados obtenidos por los diferentes clasificadores evaluados en las diferentes bases de datos obtienen un rendi-miento similar es empleada para mostrar la diferencias estad´ısticas en los experimen-tos realizados, tanto en la tarea de filtrado de im´agenes como en el reconocimiento de objetos.
34 2.10. PRUEBA DENEMENYI
2.10.
Prueba de
Nemenyi
Usualmente la prueba estad´ıstica deFriedman requiere de un an´alisis posterior para identificar de una manera m´as precisa y clara que clasificador obtiene el mejor rendimiento comparado con el resto. La prueba deNemenyi es analizada en el trabajo de [Demˇsar, 2006] y se caracteriza por hacer una comparaci´on todos contra todos basada en las posiciones promedio obtenidas por cada clasificador. Para determinar una diferencia significativa se requiere de un valor criticoCD que se obtiene mediante la funci´on 2.22.
CD =qα
r
k(k+ 1)
6N (2.22)
Dondek es el n´umero de clasificadores en la comparaci´on y N el n´umero de bases de datos total en el que cada clasificador fue evaluado.
La prueba de Nemenyi es desarrollada en los experimentos para comparaci´on de los m´etodos evaluados y con ello determinar que m´etodo o m´etodos son significa-tivamente diferentes entre si. Gracias al orden que provee la prueba estad´ıstica es posible determinar los m´etodos con mejor y peor desempe˜no en cada tarea.
Cap´ıtulo 3
Trabajo relacionado
Desde hace varios a˜nos se ha utilizado la informaci´on de Internet para diferentes objetivos, tales como, crear conocimiento de sentido com´un entre palabras mediante grafos (ConceptNet [Speer et al., 2017]), estimar la posible ubicaci´on de un objeto [Kollar et al., 2012,Izquierdo-Cordova et al., 2016], crear una representaci´on vectorial de texto [Mikolov et al., 2013a] o adquirir im´agenes para la construcci´on de base de datos para el reconocimiento de objetos [Chen et al., 2013, Divvala et al., 2014, Li et al., 2017, Guo et al., 2018]. Este trabajo de tesis se encuentra principalmente relacionado al WSL para el reconocimiento de objetos. La figura 3.1 presenta una tabla comparativa del trabajo relacionado.
3.1.
WSL
para el reconocimiento de objetos
Recuperar im´agenes de la Web de manera autom´atica y sin supervisi´on de un experto para el reconocimiento de objetos ha sido un problema abordado en los ´
ultimos a˜nos. Para afrontar este reto se han propuesto diferentes t´ecnicas y m´etodos para cada una de las subtareas que conforman al WSL, la generaci´on y expansi´on de consulta, el filtrado de im´agenes y el aprendizaje para el reconocimiento de objetos.
36 3.1. WSLPARA EL RECONOCIMIENTO DE OBJETOS
Figura 3.1: Figura de tabla comparativa del trabajo relacionado
[Chen et al., 2013] propone un aprendizaje iterativo para la extracci´on de conoci-miento de la Web. Las principales relaciones que busca son Escena-Objeto, Objeto-Objeto, Objeto-Atributo y Escena-Atributo. Para extraer este tipo de relaciones pri-meramente entrena un detector de objetos utilizando explanar-LDA con las im´ age-nes descargadas deGoogle, posteriormente realiza un agrupamiento de acuerdo a las ventanas propuestas que enmarcan al objeto, en una siguiente etapa entrena nueva-mente el detector de objetos utilizando como entrenamiento los grupos identificados, finalmente encuentra las relaciones por medio de la matriz de co-detecci´on.
Adem´as de la extracci´on de relaciones, [Chen et al., 2013] realiza dos pruebas de inter´es, una para el reconocimiento de escena y otra para la detecci´on de objetos, ambas pruebas durante el entrenamiento utilizan im´agenes deGoogle y en la prueba, las im´agenes recuperadas deFlickr. En el reconocimiento de escenas (12 categor´ıas) y en la detecci´on de objetos (15 categor´ıas) supera a los clasificadores b´asicos con los que se compara.
En ambos casos los mejores resultados por [Chen et al., 2013] pertenecen al modelo que considera las relaciones que extrae, por lo que se requiere de realizar m´ultiples consultas sobre un mismo objeto y recuperar todas las im´agenes correspondientes a cada consulta. Este proceso consume una gran cantidad de tiempo y en aplicaciones reales el tiempo es una medida importante.
El trabajo presentado por [Chen et al., 2013] se centra en la extracci´on de conoci-miento de la Web y no en el reconociconoci-miento de escenas y objetos, sin embargo, [Div-vala et al., 2014] presenta en su trabajo mayor evidencia de la posibilidad de aprender de la Web y obtener resultados similares a m´etodos totalmente supervisados para la tarea del reconocimiento de objetos.
Respecto a la generaci´on de consulta y su expansi´on, [Divvala et al., 2014] con-sidera n im´agenes de m consultas diferentes para cada objeto, donde los conceptos a buscar son extra´ıdos de WordNet. De cada concepto se recupera un vocabulario en forma de n-gramas proveniente deGoogle Books Ngrams obteniendom consultas para un concepto. Estas consultas toman en cuenta las variantes del objeto, el lado del objeto capturado (viewports), es decir, frontal, lateral derecho, izquierdo, etc., partes que componen al objeto y actividades que se realizan con ´este. Por ejemplo, se tienen consultas comohorse, front horse, rearing horse, horse eye, entre otras, en promedio obtienen 5000 n-gramas por concepto.
[Divvala et al., 2014] expresa que de cada consulta se descargaron s´olo las primeras 200 im´agenes y se entren´o un clasificador inicial para eliminar aquellos n-gramas irrelevantes, as´ı, fueron eliminados aquellos n-gramas que obtuvieron una precisi´on promedio menor al 10 %, despu´es de este proceso se conservan en promedio 1000