• No se han encontrado resultados

Reconocedor de poses y acciones con manos mediante cámara Kinect

N/A
N/A
Protected

Academic year: 2020

Share "Reconocedor de poses y acciones con manos mediante cámara Kinect"

Copied!
46
0
0

Texto completo

(1)Escuela Técnica Superior de Ingenieros Informáticos Universidad Politécnica de Madrid. Reconocedor de poses y acciones con manos mediante cámara Kinect. Trabajo Fin de Máster Máster Universitario en Inteligencia Artificial. AUTOR: Javier Ramón Domı́nguez TUTOR: Javier de Lope Asiaı́n. 2018.

(2)

(3) i. AGRADECIMIENTOS Gracias a mi familia y amigos por su apoyo durante la realización de este Trabajo Final de Máster..

(4) ii.

(5) iii. RESUMEN El presente Trabajo Fin de Máster (TFM) plantea la investigación y el desarrollo de una herramienta en el ámbito del reconocimiento de imágenes, más concretamente, en el reconocimiento de poses y acciones realizadas con las manos. Con la ayuda de dicho estudio y a partir de los resultados obtenidos en este trabajo, se pueda realizar un estudio de las acciones que se realizan con las manos. Para comenzar, se realizará una fundamentación teórica que servirá de apoyo a la hora de situar y centrar el objeto de estudio del trabajo. A continuación, se describirá el trabajo propuesto para el reconocimiento de poses y acciones con las manos. Para terminar, se presentarán los resultados más relevantes que se obtienen de esta investigación y las conclusiones que se extraen de dichos resultados, ası́ como también una serie de recomendaciones y futuras mejoras que podrı́an establecerse. Palabras clave: etologı́a, Kinect, reconocimiento de imágenes, imagen de profundidad y segmentación por color de piel..

(6) iv.

(7) v. SUMMARY This Master’s Thesis proposes a main investigation objective. The research aims to investigate and develop a tool in relation with image recognition, that can recognize hand poses and actions, so that, based on the study and the obtained results, a study of actions that human performs with their hands. To begin with, a theoretical framework, which will be supported later, will be made. Thereby, we will be able to set and center the studied of this work. Then, we describe the proposed system for the hand poses and actions recognition. Finally, we show the most important results that we obtain and the main conclusions. We can see some recommendations and future improvements that we could set up. Keywords: ethology, Kinect, image recognition, depth image processing and skin color segmentation..

(8) vi.

(9) Índice. vii. Índice 1. 1.1. 1.2. 1.3. 2. 3. 3.1. 3.2. 3.3. 3.4. 3.5. 4. 4.1. 4.2. 4.3. 5. 5.1. 5.2. 5.3. 5.4. 6. 7.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . Cámara Kinect . . . . . . . . . . . . . . . . . . . . . . Estructura del documento . . . . . . . . . . . . . . . . Estado del arte . . . . . . . . . . . . . . . . . . . . . . Detección de poses y análisis del comportamiento de las Segmentación de las manos . . . . . . . . . . . . . . . . Elaboración del modelo . . . . . . . . . . . . . . . . . . Clasificación a partir del modelo . . . . . . . . . . . . . Representación de etogramas . . . . . . . . . . . . . . . Clasificación de acciones realizadas con las manos . . . Evaluación de riesgos . . . . . . . . . . . . . . . . . . . Problemática de entrada de imágenes . . . . . . . . . . Problemática de segmentación de imágenes . . . . . . . Problemática de datos a analizar . . . . . . . . . . . . Resultados . . . . . . . . . . . . . . . . . . . . . . . . . Utilización del ratón . . . . . . . . . . . . . . . . . . . Utilización del teclado del ordenador portátil . . . . . . Utilización del pad táctil del ordenador portátil . . . . Clasificación de tareas . . . . . . . . . . . . . . . . . . Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . Lı́neas futuras . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . manos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. 1 1 1 2 3 11 12 13 16 16 16 19 19 19 20 21 21 23 25 26 29 31.

(10) viii. Índice.

(11) Índice de figuras. ix. Índice de figuras 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.. Ingresos estimados en el sector de la Inteligencia Artificial en años futuros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procesamiento de imágenes mediante diferentes tipos de cámara. [Yeo et al. 2015]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Proceso a seguir en el trabajo [Pittman et al. 2013]. . . . . . . . . . Descripción general del sistema de estimación de pose de la mano en [Hummel et al. 2014]. . . . . . . . . . . . . . . . . . . . . . . . . . . Imagen de profundidad obtenida a partir de la cámara Kinect. . . . Imagen de vı́deo RGB. . . . . . . . . . . . . . . . . . . . . . . . . . Imagen de la mano tras el proceso de segmentación y búsqueda de contornos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cálculo de la inclinación en el sistema reconocedor de poses con las manos mediante una imagen de profundidad. . . . . . . . . . . . . . Cálculo del número de dedos en el sistema reconocedor de poses con las manos mediante una imagen de profundidad. . . . . . . . . . . . Datos del área para la acción de utilizar el ratón. . . . . . . . . . . Datos de la inclinación para la acción de utilizar el ratón. . . . . . . Datos del centro para la acción de utilizar el ratón. . . . . . . . . . Datos del área para la acción de escribir. . . . . . . . . . . . . . . . Datos de la inclinación para la acción de escribir. . . . . . . . . . . Datos del centro para la acción de escribir. . . . . . . . . . . . . . . Datos del área para la acción de utilizar el pad. . . . . . . . . . . . Datos de la inclinación para la acción de utilizar el pad. . . . . . . . Datos del centro para la acción de utilizar el pad. . . . . . . . . . . Resultados del entrenamiento k-NN. . . . . . . . . . . . . . . . . . . Resultados de los diferentes experimentos realizados. . . . . . . . .. .. 3. . .. 5 5. . 7 . 12 . 12 . 13 . 14 . . . . . . . . . . . .. 15 22 22 23 23 24 24 25 26 26 27 27.

(12) 1. 1.. Introducción. A lo largo de los años, el lenguaje corporal ha sido un importante objeto de estudio, a partir del cual poder deducir lo que el individuo está realizando en todo momento. Dentro del lenguaje corporal, encontramos de gran importancia el lenguaje a partir de los gestos que realizamos con nuestras manos. Las diferentes poses o la serie de movimientos que realizamos con las manos pueden llegar a decirnos que estamos haciendo sin necesidad de ninguna información adicional. A partir de todo lo anterior, surge la idea de elaborar un reconocedor de poses y acciones con las manos, haciendo uso además de la cámara Kinect.. 1.1.. Objetivos. El objetivo del trabajo presentado en este documento es la investigación y recopilación de información relevante en el campo del reconocimiento de imágenes. A partir de la información conseguida, se quiere elaborar un sistema capaz de reconocer y clasificar ciertas poses y acciones realizadas con las manos. Las poses de la mano vendrán dadas por caracterı́sticas como la lateralidad de la mano, el número de dedos mostrados o la inclinación de la mano, mientras que las acciones que se quieren reconocer serán la de escribir sobre el teclado de un ordenador portátil, utilizar un ratón de ordenador y utilizar el pad de un ordenador portátil.. 1.2.. Cámara Kinect. Para realizar este trabajo, se quiere hace uso de un dispositivo capaz de aportar imagen de vı́deo e imagen de profundidad. Por tanto, se ha planteado el uso de la cámara Kinect. La cámara Kinect es un controlador de juego libre y entretenimiento creado por Alex Kipman, y desarrollado por Microsoft. Kinect permite a los usuarios controlar e interactuar con la consola sin necesidad de tener contacto fı́sico con un mando de videojuegos tradicional, mediante una interfaz natural de usuario que reconoce gestos, comandos de voz, objetos e imágenes. Kinect cuenta con una cámara RGB, un sensor de profundidad, un micrófono multi-array y un procesador personalizado que ejecuta el software patentado, el cual proporciona captura de movimiento de todo el cuerpo en 3D, reconocimiento facial y capacidades de reconocimiento de voz. El micrófono de Kinect permite a la Xbox.

(13) 2. 1 Introducción. 360 llevar a cabo la localización de la fuente acústica y la supresión de ruido ambiental. Kinect fue anunciado el 1 de julio de 2009 con el sobrenombre de Proyecto Natal en la rueda de prensa anual del E3, lo cual supuso un gran avance en este tipo de herramientas por su independencia del uso de mandos. A partir de junio de 2010 se anunció que el nombre oficial del dispositivo seria Kinect y el 4 de noviembre de ese mismo año salió a la venta. A partir de ese momento han sido lanzadas diferentes versiones de este dispositivo compatibles para Windows o la nueva Xbox One, y ha sido utilizado para infinidad de proyectos en los cuales se realiza reconocimiento de imágenes y la cámara Kinect supone una gran ayuda a la hora de realizarse y un ahorro en cómputo muy grande.. 1.3.. Estructura del documento. El presente documento está estructurado en los siguientes apartados: El segundo capı́tulo trata acerca del estado del arte en relación con el proyecto realizado. El estado del arte trata de explicar los diferentes avances y descubrimientos más importantes encontrados en el reconocimiento de imágenes, de forma que estos sirvan de ayuda a la hora de elaborar un reconocedor de manos propio. El siguiente capı́tulo explica la propuesta elaborada para el reconocedor de poses y acciones con las manos. En el cuarto apartado, se muestran los resultados obtenidos a partir de la propuesta elaborada en el apartado anterior. El quinto capı́tulo tratará las conclusiones a la propuesta elaborada, viendo las ventajas e inconvenientes que esta tiene. Por último, el sexto apartado abordará las diferentes lı́neas futuras a seguir con el fin de continuar la investigación y mejorar la propuesta mostrada en este trabajo..

(14) 3. 2.. Estado del arte. Una de las áreas donde se ha producido un mayor número de avances es en el reconocimiento de imágenes. A dı́a de hoy, los sistemas de reconocimiento de imágenes tienen una capacidad de reconocimiento y clasificación más precisa que la del propio ser humano. Además, dentro de la Inteligencia Artificial, el reconocimiento de imágenes es una de las áreas donde más empresas están realizando una mayor inversión en grandes potencias mundiales como Estados Unidos. Como bien se muestra en la Figura 1, el reconocimiento de imágenes es la aplicación de la Inteligencia Artificial que se estima que aporte mayores ingresos a nivel mundial en los próximos años.. Fig. 1: Ingresos estimados en el sector de la Inteligencia Artificial en años futuros. El reconocimiento de imágenes abarca un amplio abanico de utilidades en diferentes ámbitos. Algunos de esos ámbitos son los siguientes: etiquetado de imágenes, identificación de usuarios basada en el rostro, análisis de opinión, análisis de clientes, diagnóstico de enfermedades, realidad aumentada o detección de matrı́culas. Un paper que resume el proceso y las diferentes fases a seguir para realizar un correcto reconocimiento de imágenes es [Ke, 2013]. El paper realiza una revisión de todos los distintos avances en el reconocimiento de actividades con cámaras hasta la fecha. En dicho documento habla acerca de diferentes métodos de segmentación, extracción de caracterı́sticas y representación de las mismas, detección de actividades y métodos o algoritmos de clasificación y por último, diferentes enfoques al reconocimiento de las propias actividades humanas. Dentro del reconocimiento de acciones, [Bobick, 1997] intenta identificar movi-.

(15) 4. 2 Estado del arte. mientos de seres humanos a partir de una base de datos de vı́deos en los cuales varias personas realizan diferentes acciones. Todas estas imágenes son identificadas por el sistema y etiquetadas en tiempo real. Para reconocer que se está produciendo movimiento, forma una imagen de historial de movimiento, la cual consiste en una imagen donde se destacan los pı́xeles en movimiento del resto. Con los movimientos ya marcados, compara los mismos con nuevos vı́deos mediante los momentos de Hu, [Hu, 1962], y calcula la distancia entre ambos valores mediante la técnica de Mahalanobis, [McLachlan, 1999]. Otro método para el reconocimiento de acciones se puede ver en [Robertson et al. 2006], el cual trata de identificar el comportamiento de las personas realizando actividades deportivas en la calle extrayendo en primer lugar una serie de caracterı́sticas más relevantes a la hora de poder identificar qué es lo que hace el individuo que se quiere clasificar. La base de datos de caracterı́sticas es realizada mediante modelos ocultos de Markov. A partir de esa base de datos con todas las imágenes correspondientes a diferentes acciones, se podrá identificar que acción se está realizando en la nueva señal de entrada. Si llegamos a la actualidad, el reconocimiento de imágenes, y en particular el reconocimiento de actividades, en los últimos años se ha convertido en una corriente muy popular. Uno de los estudios más recientes es [Boufama et al. 2017], donde a partir de imágenes, se sacan vectores de caracterı́sticas y estos vectores se pasan por una fase de aprendizaje. El método introducido es el del uso de trayectorias, las cuales se basan en el flujo de puntos de interés en 2D. Algunos de los métodos de extracción de trayectorias que aborda son mediante puntos de interés, Lucas-Kanade o trayectorias farnback. A la hora de reconocer algún tipo de actividad, es importante elegir bien el tipo de segmentación a utilizar en las imágenes obtenidas, ya que cada tipo de segmentación se ajusta de mejor o peor manera a un tipo de imagen. Varios tipos de segmentación como por ejemplo la detección de sombras, la umbralización o la segmentación basada en redes neuronales artificiales, son abordados en el paper [Dass et al. 2012]. Como bien se ha mencionado anteriormente, el tipo de imagen toma una gran importancia en el proceso de segmentación, y esta afirmación se puede ver reflejada en [Yeo et al. 2015], donde se construye una herramienta Human-Computer Interaction (HCI), con el fin de interactuar con la máquina mediante gestos de la mano detectados con una cámara convencional y una cámara Kinect. En el artı́culo, muestra todo el proceso de segmentación de la imagen, llegando ası́ a la conclusión de que el uso de cámaras de profundidad como Kinect aportan una mayor agilidad al proceso, ya que evita tareas como la sustracción del fondo o la aplicación de diferentes filtros. La diferencia entre ambos procesos se puede apreciar en la Figura 2, donde se ve que el proceso de la izquierda (correspondiente al procesamiento de una imagen de.

(16) 5. vı́deo normal) es más largo que el de la derecha (correspondiente al procesamiento de una imagen de vı́deo de profundidad). Con la imagen ya segmentada, saca una serie de caracterı́sticas del contorno de la mano y con ellas clasifica los diferentes gestos que posteriormente se utilizarán para la interacción humano-máquina.. Fig. 2: Procesamiento de imágenes mediante diferentes tipos de cámara. [Yeo et al. 2015]. [Pittman et al. 2013] apoya la idea mostrada anteriormente, tratando de explicar el proceso de segmentación de una imagen procedente de una cámara Kinect. El proceso se resume en leer la imagen de profundidad, procesarla, realizar una clasificación de las diferentes partes del cuerpo, calcular el centroide y realizar el montaje del modelo. A partir de ese modelo, se pueden reconocer diferentes acciones. Dicho proceso se puede ver en la Figura 3.. Fig. 3: Proceso a seguir en el trabajo [Pittman et al. 2013]. Una utilidad de la cámara de profundidad se puede ver en [Shotton et al. 2012], donde se trata de estimar la posición del cuerpo mediante el uso de la cámara de.

(17) 6. 2 Estado del arte. profundidad de Kinect. En este artı́culo se utiliza la imagen de profundidad para diferenciar diferentes partes del cuerpo, las cuales aparecen con diferentes tonalidades de grises en la imagen. Estas tonalidades de grises se pasan a colores más destacados para que su diferenciación sea más clara. Lo que se trata de explicar es que, a partir de dichas imágenes, se pueden sacar caracterı́sticas tales como el área, la rotación o la posición de la cámara, y mediante el entrenamiento de estos datos, se construye un reconocedor de diferentes poses según las partes del cuerpo visibles en cada imagen. Se puede encontrar otra utilidad en el paper [Du et al. 2012], en el cual se utiliza la Kinect con el fin de realizar una interacción humano-máquina a partir de la cual se podrı́a controlar un brazo robótico mediante el reconocimiento de diferentes gestos de la mano. Dado que el proyecto está orientado al reconocimiento de manos, a continuación se mostrarán diferentes técnicas y avances para el reconocimiento de poses y gestos con las manos. Como se ha visto anteriormente, la segmentación para localizar ciertas partes del cuerpo es mucho más eficiente si se utiliza una imagen de profundidad. En los siguientes trabajos, se ha hecho uso de una cámara de profundidad con el fin de detectar diferentes poses de la mano. [Raheja et al. 2011] muestra la cámara Kinect como una herramienta muy eficiente para poder sacar la imagen de únicamente la palma de la mano. En este proyecto, el seguimiento de la mano y la detección de puntos importantes se realizó mediante módulos NITE, los cuales utilizan la localización de objetos bayesianos. La única problemática encontrada radicó en la localización de los dedos, lo cual fue una tarea más compleja, ya que suponı́a detectar en primer lugar la palma de la mano, y tras eso, los dedos. [Ren et al. 2013] realiza un reconocedor de gestos de la mano el cual la metodologı́a utilizada es algo diferente a las vistas anteriormente, ya que para reconocer los diferentes gestos se hace uso de la distancia entre la imagen original y la que se lee, y la distancia de sus histogramas, también llamada Earth Mover’s Distance (EMD). [Hummel et al. 2014] trata la estimación de la posición de la mano mediante nuevas técnicas y el uso de la cámara Kinect. La fase de preprocesamiento y segmentación es similar a las vistas en trabajos de años anteriores. La diferencia de este trabajo con los vistos anteriormente consiste en la introducción de una fase de calibración. Tras eso se pasa un tracking por refuerzo. Todas las fases de este trabajo pueden verse en la Figura 4..

(18) 7. Fig. 4: Descripción general del sistema de estimación de pose de la mano en [Hummel et al. 2014]. [Coscia et al. 2016] describe un programa que calcula la posición de la mano con una Kinect, pero en este caso utiliza una herramienta propia de la cámara, que elabora una nube de puntos que representan la figura detectada. Con la imagen ya segmentada mediante este método, se genera el modelo de mano. Tras esto, se pasa a una fase de emparejamiento del gesto actual con el del modelo, mediante un algoritmo iterativo de puntos cercanos. En [Li, 2012], el uso de la cámara Kinect tiene un nuevo enfoque, el cual consiste en el reconocimiento de gestos con el fin de interpretar el lenguaje de sordos, para ası́ poder comunicarse con ellos o en cambio, poder entablar una conversación con una persona en situaciones en las cuales no se puede hablar. Para reconocer un gesto, se capta y se compara con una base de datos que contiene muestras de los diferentes gestos, viendo de esta forma cual es el más parecido al gesto realizado. Para el reconocimiento en imágenes también se pueden utilizar otro tipo de imágenes que no sean de profundidad. Se habla de la segmentación mediante la umbralización de una imagen de vı́deo convencional. Dicho estudio se puede ver en el paper [Al-amri et al. 2010], en el cual se ven diferentes métodos de umbralización de imágenes con el fin de identificar objetos o partes de la imagen en ellas. Con el uso de imágenes a partir de una cámara convencional, surge otro tipo de segmentación, la segmentación por color, la cual puede ser de gran utilidad a la hora de separar la mano del resto de la imagen por su color. En [Moss et al. 1996] se abordan diferentes tipos de segmentación por color, haciendo una comparativa de todas ellas para ver cuál es el mejor. Un ejemplo de segmentación por color se encuentra en [Vernon, 2000], en el cual las pruebas se realizan poniéndose un guante del color que se desea segmentar, quedando por tanto la figura de la mano completamente segmentada del resto. En este trabajo, la segmentación se realiza directamente de las componentes RGB de la imagen. Realizar una segmentación por color directamente de las componentes RGB quizás no es la mejor opción para la segmentación de color de piel que se desea en este trabajo. En [Vezhnovets et al. 2003] se pueden ver diferentes formatos de.

(19) 8. 2 Estado del arte. color con los cuales la segmentación del color de la piel es más efectiva. Los más prácticos a la hora de realizar la transformación y trabajar con ellos son los formatos HSV e YCrCb. Otros artı́culos como [Kaur et al. 2012] también realizan una comparativa entre diferentes formatos de color, donde se destacan las importantes ventajas del formato YCrCb para la segmentación por color de piel. Como bien se ha visto previamente, tras la segmentación y la extracción de ciertas caracterı́sticas de las imágenes, se puede pasar a la clasificación de las mismas. Existen dos tipos diferentes de clasificación. El primero de ellos consiste en un tipo de clasificación no supervisado, el cual no cuenta con una baterı́a de pruebas previas y trata de realizar una agrupación en función de las propiedades de los ejemplos. El segundo consiste en un aprendizaje supervisado, el cual a partir de un conjunto de ejemplos ya clasificados al que se le llama conjunto de entrenamiento, se intenta asignar una clasificación a un segundo conjunto de ejemplos. Para el tipo de clasificación no supervisada existen muchos algoritmos capaces de realizar una clasificación sin datos previos, pero uno de los más conocidos es el algoritmo k-means, el cual es utilizado y queda explicado en el paper [Wagstaff et al. 2001]. En cambio, para la clasificación supervisada, contando también con un gran número de algoritmos para la realización de tareas de clasificación, se ha visto el algoritmo k-NN, el cual es utilizado y explicado en el artı́culo [Warfield, 1996]. Toda esta identificación de diferentes acciones o actividades y la posterior clasificación de las mismas nos llevan a un estudio del comportamiento del ser humano a partir de las acciones detectadas. A este estudio se le denomina etologı́a. En el libro [Irenaus, 1989] se da una definición bastante elaborada de lo que es la etologı́a humana y los conceptos básicos del termino etologı́a. En uno de los artı́culos vistos anteriormente, [Bobick, 1997], además de realizarse un reconocimiento de actividades como bien se ha mencionado anteriormente, se relaciona dicho reconocimiento con el estudio etológico. Por tanto, este articulo trata de percibir ciertas acciones que pueden derivar de la detección de una serie de gestos que se suceden uno tras otro de forma consecutiva. A partir de ciertos gestos se derivan acciones, y a partir de esas acciones se pueden derivar comportamientos, los cuales nos dan una razón psicológica de porqué se están realizando. [Anderson et al. 2014] trata de explicar la anatomı́a de un sistema de etologı́a computacional, el cual se divide en tres principales partes. La primera de ellas es la fase de detección, la cual consiste en detectar lo que se quiere analizar y separarlo.

(20) 9. del resto de la imagen, para obtener ası́ su pose. Tras eso, se concatenan todas esas poses para establecer la trayectoria del movimiento. La segunda fase consiste en la clasificación de la acción, en la cual se identifican los intervalos de tiempo donde se realiza una acción. Este patrón se detecta con los clasificadores, los cuales están entrenados a partir de vı́deos positivos donde tiene lugar la acción, y negativos donde no se produce la acción. A partir de esto, el clasificador puede desarrollar un conjunto de reglas mediante las cuales se identifica la acción. Por último, la tercera y última fase consiste en el análisis del comportamiento, en el cual a partir de la identificación de una serie de acciones, se puede sacar en claro un comportamiento del ser humano. Cabe destacar que el comportamiento analizado en el trabajo es el de las moscas, pero como ha sido explicado anteriormente, las técnicas pueden ser extrapoladas al caso de seres humanos. Otro paper que aborda el tema de la etologı́a es [Sheng et al. 2010], el cual desarrolla un sistema Human-Computer Interaction (HCI) para el reconocimiento de gestos de la mano, para utilizarlos con el fin de interactuar con la máquina para asistir a personas dependientes. En este caso, hace uso de redes neuronales y modelos de Markov para identificar los diferentes gestos. Con el análisis de estos gestos, las personas mayores pueden interactuar con un robot que sirve para hacerles compañı́a o avisar a emergencias en el caso de que haya sucedido algo, mediante la interacción del sistema con un teléfono móvil. Por tanto, este sistema analiza el comportamiento de una persona para ası́ ajustar las acciones del robot a las necesidades del usuario. Cabe destacar que los dispositivos utilizados son del tipo wearables. [Zhu et al. 2012] consiste en otro trabajo de reconocimiento de actividades humanas a tiempo real. Al igual que el anterior, hace uso de sensores wearables, pero en este caso el objetivo está orientado al reconocimiento de actividades cotidianas como puede ser estar en un escritorio escribiendo o con el ordenador. Todas estas acciones son reconocidas con el fin de sacar una conclusión etológica en relación al comportamiento humano y las acciones que realiza cotidianamente. En este proyecto se utilizan redes bayesianas para implementar el modelo. [Ravi et al. 2005] es otro trabajo de reconocimiento de actividades cotidianas como el visto anteriormente, pero en este caso se hace uso de acelerómetros para obtener los datos que diferencian una acción de otra..

(21) 10. 2 Estado del arte.

(22) 11. 3.. Detección de poses y análisis del comportamiento de las manos. En este trabajo se va a proponer un método por el cual, a partir de una grabación, se analizarán las poses de las manos en función a diferentes caracterı́sticas extraı́das de las mismas, las cuales aportarán la información necesaria para conocer la pose de la mano. Además, a esta propuesta también se le añadirá el reconocimiento de ciertas acciones cotidianas realizadas con las manos. Para la realización de este trabajo se hará uso de una cámara Kinect, de la cual se utilizará tanto su cámara de profundidad, como su cámara convencional, con el fin de reconocer de manera más exacta la pose de la mano. Algunos requisitos funcionales para el correcto funcionamiento de ambas cámaras son: - Contar con una cámara que, además de una imagen de vı́deo normal, pueda aportar datos de profundidad. En este caso será una cámara Kinect, pero puede ser utilizada cualquier cámara que devuelva una imagen de profundidad. - Realizar las pruebas a la distancia a la cual está estipulado que deben realizarse, ya que de la manera opuesta, la segmentación por profundidad no se realizarı́a de forma correcta. - El requisito que posiblemente sea más relevante a la hora de realizar este sistema de reconocimiento de gestos de manos es el de la iluminación y tonalidad de la imagen. A la hora de realizar las pruebas, la iluminación de la sala es vital en el reconocimiento de las manos, ya que parte de dicho reconocimiento se realizará mediante segmentación por color de piel, y dicha tonalidad de piel puede verse modificada en función de la iluminación del lugar donde se esté realizando la prueba. También se ha de tener en cuenta el color del fondo donde se está realizando la grabación, con el fin de que nada de dicho fondo pueda ser confundido con el color de la piel. El trabajo quedará dividido en cuatro partes. En primer lugar se verá la segmentación de los diferentes tipos de imagen, tras eso se pasará a la extracción de caracterı́sticas de estas imágenes, para continuar con la clasificación de dichas imágenes, y por último, el reconocimiento de diferentes actividades. Esta estructura se toma del trabajo de revisión de otras investigaciones [Ke, 2013]..

(23) 12. 3.1.. 3 Detección de poses y análisis del comportamiento de las manos. Segmentación de las manos. Como bien se ha mencionado anteriormente, las imágenes se toman mediante dos vı́as diferentes, la imagen de profundidad y la imagen de vı́deo convencional. Ambos tipos de imagen se pueden ver en las Figuras 5 y 6.. Fig. 5: Imagen de profundidad obtenida a partir de la cámara Kinect.. Fig. 6: Imagen de vı́deo RGB. El proceso de segmentación es diferente para los dos tipos de imagen, siendo el proceso correspondiente a la imagen de profundidad mucho más sencillo. Como bien se ha visto en trabajos que elaboran una segmentación a partir de una imagen de.

(24) 3.2 Elaboración del modelo. 13. profundidad como [Yeo et al. 2015], [Pittman et al. 2013], [Shotton et al. 2012] y [Du et al. 2012] y mas particularmente en trabajos para la segmentación de manos a partir de imagen de profundidad como [Raheja et al. 2011], [Ren et al. 2013], [Hummel et al. 2014], [Coscia et al. 2016] y [Li, 2012], basta con realizar una umbralización de la imagen con el fin de quedarse con las partes de la imagen correspondientes a la profundidad donde se van a encontrar las manos. Tras eso se realiza una búsqueda de contornos con el fin de quedarse tan solo con la imagen correspondiente a la mano. Dicha imagen de la mano tras la segmentación y la búsqueda de contornos se puede ver en la Figura 7.. Fig. 7: Imagen de la mano tras el proceso de segmentación y búsqueda de contornos. Para la imagen de vı́deo convencional, se toma la decisión de realizar la segmentación a partir del color [Moss et al. 1996]. En particular, el color que se quiere segmentar es el color de la piel, el cual se corresponderá con el color de las manos en la imagen. Como bien se ha visto anteriormente, un buen formato para la realización de una segmentación por color de piel es el formato YCrCb [Vezhnovets et al. 2003] y [Kaur et al. 2012]. Con la imagen en este formato, el proceso de umbralización es mucho más sencillo, estableciendo un umbral inferior y superior, y guardando siempre especial cuidado con la tonalidad de piel que se quiere detectar. Tras esto, como en el caso de la imagen de profundidad, se realizará una búsqueda de contornos para quedarse únicamente con la imagen de la mano.. 3.2.. Elaboración del modelo. Como se ha visto en varios trabajos como [Pittman et al. 2013] o [Coscia et al. 2016], el siguiente paso consiste en la elaboración de un modelo de caracterı́sticas extraı́das de la figura de la mano a partir del contorno encontrado en el punto anterior. El modelo, será diferente para ambos tipos de grabación, ya que algunas caracterı́sticas de la imagen se ajustan más a un tipo de imagen que a otro..

(25) 14. 3 Detección de poses y análisis del comportamiento de las manos. Las caracterı́sticas que forman el modelo para el contorno de la imagen de profundidad son la inclinación de la mano, el número de dedos estirados, la lateralidad de la mano detectada y, por último, la orientación de la mano. Para calcular la inclinación de la mano, en primer lugar, se necesita el valor del ángulo de inclinación en el cual se encuentra el contorno de la mano detectado en la fase anterior. Con ese dato del ángulo de inclinación, se pasa a su análisis. Tendremos que el ángulo del contorno puede ir de 0 a 180 grados, de forma que consideraremos que la mano esta recta si su inclinación no es mayor de 45 grados, tanto con los dedos hacia arriba como con ellos hacia abajo. De esta forma, consideraremos que la mano no se encuentra inclinada si el valor del ángulo de inclinación está comprendido entre 0 y 45 grados, o entre 135 y 180 grados. De esta forma se podrá cubrir los 360 grados de inclinación. Esta explicación queda ilustrada en la Figura 8.. Fig. 8: Cálculo de la inclinación en el sistema reconocedor de poses con las manos mediante una imagen de profundidad.. El cálculo del número de dedos estirados se realiza hallando los puntos de intersección entre dedos, de forma que, si se encuentra uno de estos puntos de intersección en el contorno de la mano, se puede deducir que hay dos dedos visibles. La explicación visual de cómo calcular el punto de intersección entre dos dedos se puede apreciar en la ilustración de la Figura 9..

(26) 3.2 Elaboración del modelo. 15. Fig. 9: Cálculo del número de dedos en el sistema reconocedor de poses con las manos mediante una imagen de profundidad. Hallando estos puntos de intersección y sumándole 1 al número de puntos encontrados, se puede deducir el número de dedos que aparecen extendidos en la imagen. Siguiendo con la elaboración del modelo, se pasa al cálculo de la lateralidad de la mano detectada, o lo que es lo mismo, si la mano detectada es la derecha o la izquierda. Para este cálculo, se toma el centroide del contorno, el cual marca el centro de la mano. A partir de este centroide, si se encuentra en la parte izquierda de la imagen, se dirá que se corresponde a la mano derecha, y si, por lo contrario, se localiza en la parte derecha de la imagen, se puede afirmar que se corresponde a la mano izquierda. Para la orientación de la mano, se calcula tomando como referencia los puntos hallados a la hora de calcular el número de dedos y el centroide del contorno calculado para conocer la lateralidad de la mano. Se observa que, en particular, el punto de intersección entre el dedo gordo y el dedo ı́ndice siempre es el que se encuentra más cercano al centroide de la mano, por lo que dependiendo de si se trata de la mano izquierda o la derecha, se puede conocer si la mano está enseñando la palma o los nudillos viendo a qué lado del centroide se encuentra dicho punto de intersección. Por tanto, si se trata de la mano derecha y el punto está a la derecha del centroide, se puede afirmar que se encuentra en palma, y si por el contrario se encuentra a la izquierda, se dirá que se muestran los nudillos. En el caso de la mano izquierda, si el punto está a la derecha del centroide, se dirá que se encuentra enseñando los nudillos, y si se encuentra a la izquierda, lo que se mostrará será la palma. Para la elaboración del modelo a partir del contorno de la mano de la imagen de vı́deo convencional, se obtienen una serie de caracterı́sticas que definirán el estado de.

(27) 16. 3 Detección de poses y análisis del comportamiento de las manos. la mano detectada, las cuales serán el área, la inclinación, el centro y los momentos invariantes de Hu [Hu, 1962]. En este caso, todos los datos pueden ser obtenidos directamente a partir de cálculos en función al contorno obtenido.. 3.3.. Clasificación a partir del modelo. Para la realización de un clasificador de diferentes acciones, se toma el modelo obtenido a partir de la imagen de vı́deo convencional, haciéndose uso del clasificador k-NN [Warfield, 1996], el cual es uno de los más conocidos y potentes a la hora de realizar clasificaciones de este tipo. Para la elaboración de la base de datos del clasificador k-NN, se tomarán 12 diferentes pruebas de cada una de las acciones a reconocer, las cuales contendrán caracterı́sticas de hasta 200 frames analizados en cada prueba. Los datos a introducir en el clasificador serán una serie de estadı́sticos de cada una de las pruebas mencionadas anteriormente. Los estadı́sticos elegidos serán la media aritmética correspondiente al área, la mediana de todos los datos de la inclinación y por último, el valor máximo del centro, ya que se ha observado que son los más descriptivos de cada una de las acciones a reconocer.. 3.4.. Representación de etogramas. A partir de este punto, se pasa a hacer un estudio etológico de cada una de las pruebas que se están realizando, con el fin de poder conocer que acciones se están realizando con las manos. Se ha tomado la idea de dicho estudio etológico a partir de trabajos como [Bobick, 1997], [Anderson et al. 2014], [Sheng et al. 2010], [Zhu et al. 2012] o [Ravi et al. 2005], donde se utilizan dichos estudios con diferentes propósitos. Con los valores vistos anteriormente de la media aritmética del área, la mediana de la inclinación y el máximo centro, se obtiene la clasificación correspondiente a la acción con la mano que se está realizando entre las establecidas. A partir de estos valores, se elabora un etograma, el cual contiene los valores vistos anteriormente para pruebas de 200 frames.. 3.5.. Clasificación de acciones realizadas con las manos. Las acciones a clasificar en este trabajo serán la de utilizar el ratón del ordenador, el teclado de un portátil y por último, la utilización del pad táctil del ordenador portátil..

(28) 3.5 Clasificación de acciones realizadas con las manos. 17. Cuando el usuario está realizando una prueba, el sistema extrae a los 200 frames de la misma los estadı́sticos vistos anteriormente, y estos son comparados con la base de datos elaborada previamente, diciendo ası́ que acción se está realizando en dicha prueba..

(29) 18. 3 Detección de poses y análisis del comportamiento de las manos.

(30) 19. 4.. Evaluación de riesgos. A la hora de realizar este proyecto, se han tenido en cuenta una serie de factores que pueden suponer un riesgo para elaborarlo. En este apartado se mostrarán diferentes soluciones pensadas para elaborar dicho proyecto, sus ventajas e inconvenientes, y porqué tomamos como decisión final la mejor de todas las planteadas.. 4.1.. Problemática de entrada de imágenes. El primer conflicto encontrado a la hora de elaborar este proyecto se encuentra en el cómo obtener las imágenes de vı́deo. La idea inicial era obtener dichas imágenes mediante una cámara convencional, como puede ser la propia webcam integrada en un ordenador portátil, o una cámara externa. La principal ventaja a la hora de realizar la grabación con una cámara convencional es que la lectura de sus datos es mucho más simple, ya que no existe la necesidad de instalar diferentes librerı́as. Como principal inconveniente en la toma de imágenes con una cámara convencional, encontramos que su proceso de umbralización es complejo y costoso, ya que se necesita de muchas operaciones para llegar a dicha umbralización. Como alternativa a la idea anterior, surge la grabación mediante una cámara Kinect, la cual además de contar con una cámara convencional para la segmentación por color de piel, posee una cámara de profundidad a partir de la cual el proceso de umbralización es mucho más sencillo y supone un coste menor que la grabación con una cámara simple. El único inconveniente que se encuentra a la hora de utilizar la cámara Kinect en vez de una cámara normal radica en el hecho de tener que utilizar librerı́as para su correcto funcionamiento. Con todas estas ideas, se decide realizar este trabajo con una cámara Kinect, pero en este caso, una de las grabaciones será realizada mediante la cámara de profundidad, mientras que la otra grabación se realizará con la cámara convencional integrada en la Kinect.. 4.2.. Problemática de segmentación de imágenes. El segundo conflicto encontrado en la elaboración de este trabajo se basa en las diferentes formas que existen a la hora de realizar la segmentación de una imagen, con el fin de resaltar únicamente lo que se quiere detectar, que en este caso serán las manos. Dado el uso de imágenes en profundidad, la segmentación se puede llegar a simplificar de forma exponencial para estas imágenes, ya que tan solo bastarı́a con.

(31) 20. 4 Evaluación de riesgos. aplicar una umbralización en función de dichos valores de profundidad. Por el contrario, en el caso de la imagen de vı́deo convencional, la segmentación es una tarea mucho más compleja. Para este caso, se plantean dos tipos de segmentación diferentes, la primera de ellas mediante la técnica de sustracción del fondo, y la segunda mediante la realización de una segmentación por color de piel. Finalmente, se toma como idea mejor la segmentación por color de piel, la cual es mucho más efectiva que la sustracción de fondo, que en una serie de pruebas realizadas no arroja buenos resultados.. 4.3.. Problemática de datos a analizar. La última problemática que se ha encontrado a la hora de elaborar este trabajo ha sido a la hora de determinar qué conjunto de datos son determinantes a la hora de establecer un modelo de caracterı́sticas que aporte los mejores resultados posibles. La información que se podı́a sacar sobre el contorno de la mano podrı́a ser su área, diámetro, el rectángulo exterior que envuelve dicho contorno, el ángulo de giro de la mano, el número de dedos extendidos, el centro de la mano, los momentos de Hu y los puntos de seguimiento del movimiento de la mano. Para esta problemática se ha tomado como referencia el método de segmentación aplicado para cada una de las imágenes de vı́deo propuestas. Cada uno de los descriptores vistos en el párrafo anterior tienen distintas fortalezas y debilidades en función del tipo de imagen a partir de la cual se calculan. De esta forma, algunos descriptores serán tomados en ambos tipos de imagen, como es el caso de la inclinación, mientras que otros se utilizarán para únicamente uno de ellos, como por ejemplo el área para la imagen de vı́deo convencional..

(32) 21. 5.. Resultados. Para valorar el trabajo realizado, se han pasado varias pruebas para diferentes tareas realizadas con las manos en un entorno en el cual se utilice un ordenador, ya sea en una oficina, en una clase, o en el propio domicilio del usuario. Las tareas serán las de la utilización del ratón inalámbrico del ordenador, la utilización del teclado de un ordenador portátil y la utilización del pad del ordenador portátil. Estas tareas se han elegido con el fin de, a posteriori, poder analizar si una persona en su puesto de trabajo utiliza con mayor o menor frecuencia cada uno de los elementos mencionados. Estas pruebas se realizan, como bien se ha mencionado en los requisitos funcionales vistos anteriormente, con la iluminación adecuada y sin ningún tipo de objeto que pueda ser confundido con el color de la piel. Además, para que la grabación de estas acciones sean lo mejor posible, la posición de la cámara Kinect será desde un punto aéreo que grabe tanto el portátil como el ratón desde arriba, a unos 50 o 60 centı́metros de altura en referencia a la mesa donde se encuentra el ordenador portátil. Para cada tarea de las mencionadas, se obtuvieron los valores de área, inclinación y centroide. Estos valores son los que pueden ser vistos en los diferentes etogramas, donde el eje X se corresponde con la lectura del gesto de la mano, y el eje Y con cada uno de los valores de área, inclinación y centroide, generando de esta forma para cada prueba 3 gráficas diferentes.. 5.1.. Utilización del ratón. Para la realización de la prueba de utilización del ratón, se dejó al usuario que navegase por las diferentes opciones que el ordenador proporciona, utilizando única y exclusivamente el ratón inalámbrico. A continuación se pueden ver los diferentes etogramas obtenidos para esta prueba. Para cada una de las caracterı́sticas vistas (área, inclinación y centroide) se han generado 12 pruebas diferentes. Los etogramas y el número de pruebas es igual para las otras tareas. Para los etogramas del área que se muestran en la Figura 10, se puede observar que los valores son bastante estables, dado el poco movimiento de la mano a la hora de utilizar el ratón. Además, también se puede apreciar que los valores son bastante bajos, ya que el área que tiene la mano cuando se utiliza el ratón es mucho más pequeña que cuando se realizan otras acciones..

(33) 22. 5 Resultados. Fig. 10: Datos del área para la acción de utilizar el ratón.. En la Figura 11 se pueden ver los etogramas de la inclinación, en los cuales los valores en la mayorı́a de las pruebas también son bastante estables, dado el poco movimiento rotatorio de la mano cuando se está utilizando el ratón. Se aprecian diferentes saltos de valores de inclinación de 180o a 0o y viceversa, dado que los valores de inclinación tan solo tienen un rango de 180o .. Fig. 11: Datos de la inclinación para la acción de utilizar el ratón.. En los etogramas del centroide de la Figura 12 se puede observar que los valores del centro tienen por lo general un valor muy alto, dado que el ratón se encuentra en el lado derecho del escritorio, lo cual hace que el eje X del centroide tenga un valor mucho mayor que cuando se realizan diferentes pruebas..

(34) 5.2 Utilización del teclado del ordenador portátil. 23. Fig. 12: Datos del centro para la acción de utilizar el ratón.. 5.2.. Utilización del teclado del ordenador portátil. La prueba de utilización del teclado se ha realizado haciendo que el usuario escriba en el teclado de un ordenador portátil durante el tiempo de duración de la prueba, pudiendo, al igual que en el caso del ratón, utilizar solo el teclado durante la prueba. En la Figura 13 se pueden ver los diferentes etogramas del área para esta prueba. En ellos se puede observar que el valor del área es mucho mayor que el visto para el caso de la utilización del ratón. Esto se debe a que cuando se escribe en teclado, las manos se encuentran abiertas, haciendo que el área de su contorno sea mayor.. Fig. 13: Datos del área para la acción de escribir. Los etogramas correspondientes a la inclinación se pueden ver en la Figura 14. Como se puede ver en ellos, los valores de inclinación son bastante estables, dado.

(35) 24. 5 Resultados. que cuando se escribe no hay grandes movimientos de rotación en la mano, pero si se puede ver que los datos son algo diferentes a los vistos para el caso de utilización del ratón.. Fig. 14: Datos de la inclinación para la acción de escribir.. Los etogramas del centroide de la mano se ven en la Figura 15. En estos etogramas se observa que los valores tienen muchas oscilaciones, dado el movimiento de las manos de un lado a otro del teclado a la hora de escribir en él. Además, también se puede ver que todos los valores obtenidos son menores que los obtenidos en el caso de la utilización del ratón, que se encuentra más a la derecha del escenario de pruebas.. Fig. 15: Datos del centro para la acción de escribir..

(36) 5.3 Utilización del pad táctil del ordenador portátil. 5.3.. 25. Utilización del pad táctil del ordenador portátil. La prueba de utilización de pad del ordenador portátil se ha realizado de una forma muy similar a la de la utilización del ratón, ya que la funcionalidad de ambas herramientas es la misma. Se dejará al usuario que navegue por las diferentes opciones del ordenador utilizando únicamente el pad táctil del mismo. La Figura 16 muestra los etogramas correspondientes al área. En ellos se puede ver que de nuevo, por lo general los valores son bastante estables durante la realización de cada una de las pruebas. Lo más determinante es que se puede apreciar que el valor del área es mayor que en el caso de la utilización del ratón, pero menor que en el caso de la utilización del teclado.. Fig. 16: Datos del área para la acción de utilizar el pad.. Los etogramas correspondientes a la inclinación se pueden ver en la Figura 17. Se puede ver que la inclinación es bastante estable también para la utilización del pad, dado que el uso del mismo no supone unos grandes movimientos de rotación. También se puede apreciar que la inclinación tiene un valor diferencial con los vistos en las anteriores pruebas..

(37) 26. 5 Resultados. Fig. 17: Datos de la inclinación para la acción de utilizar el pad. En la Figura 18 se pueden ver los etogramas del centroide para la prueba de utilización del pad. En ellos se puede ver que los valores se mantienen estables, dado el poco movimiento que se realiza con la mano a la hora de utilizar el pad táctil. Además, se puede ver también que los valores son bastante menores que los vistos en los correspondientes a la utilización del ratón.. Fig. 18: Datos del centro para la acción de utilizar el pad.. 5.4.. Clasificación de tareas. Tras ver que los etogramas obtenidos para cada una de las pruebas siguen una serie de patrones que pueden hacer identificar una actividad frente al resto, se generó una base de datos a partir de ciertos estadı́sticos que diferencian cada una de las actividades a reconocer. De esta manera, los estadı́sticos elegidos para la elaboración de la base de datos fueron la media aritmética del área, la mediana de la inclinación.

(38) 5.4 Clasificación de tareas. 27. y el máximo centroide. Para entrenar la base de datos, se optó por la utilización del clasificador k-NN, el cual arrojó los resultados que se pueden ver en la Figura 19 para los diferentes valores de k.. Fig. 19: Resultados del entrenamiento k-NN. A partir de esta base de datos ya entrenada, se puede identificar que acción se está realizando en una nueva prueba. Por tanto, se realizaron seis experimentos diferentes, dos por cada una de las actividades a reconocer, obteniendo para todas ellas los estadı́sticos que se pueden ver en la Figura 20.. Fig. 20: Resultados de los diferentes experimentos realizados. Todos estos experimentos arrojaron buenos resultados, siendo todas las actividades identificadas correctamente..

(39) 28. 5 Resultados.

(40) 29. 6.. Conclusiones Las conclusiones de este trabajo son:. - Con la imagen de profundidad, se ha conseguido segmentar la mano de una forma muy eficiente. Las caracterı́sticas extraı́das a partir de dicha segmentación han resultado de gran utilidad para definir diferentes poses de la mano, pero son algo escasas si lo que se quiere es reconocer una actividad realizada con las manos. Serı́a de gran ayuda la presencia de descriptores más técnicos que nos aportasen información más especı́fica acerca de la pose de la mano que está siendo reconocida. - Otro inconveniente encontrado en la imagen de profundidad se encuentra en la presencia de obstáculos que impiden que el reconocimiento de poses se realice de forma correcta. La presencia de ciertos obstáculos en el mismo rango de profundidad al que se deben encontrar las manos pueden hacer que el sistema confunda dichos obstáculos con una mano, y, por tanto, detectar un falso positivo. - En relación con la conclusión vista anteriormente, se puede deducir que las pruebas para la imagen de profundidad han de realizarse sin ningún tipo de obstáculo alrededor de las manos, lo cual impide el reconocimiento de acciones o comportamientos con las manos, ya que estos implican el uso de cualquier objeto o superficie, como puede ser una mesa. Por tanto, las pruebas deben ser realizadas únicamente con la mano posicionada frente la cámara y sin ningún obstáculo que pueda alterar la imagen que se quiere reconocer a la hora de realizar el reconocimiento. - Con la imagen de vı́deo convencional, también se ha conseguido una buena segmentación de la mano, que en este caso si ha servido para el reconocimiento de ciertas acciones, ya que la propia segmentación descartaba de la imagen obstáculos que la imagen de profundidad no era capaz de suprimir. - Los resultados obtenidos a partir de la imagen de vı́deo convencional han sido buenos, siempre que las condiciones para la realización de dichas pruebas fuesen las ideales. Se considera que las condiciones son ideales si no existe ningún tipo de alteración en la imagen resultante. Se han encontrado muchos problemas a la hora de realizar las pruebas a causa del color de ciertos objetos del fondo de la imagen. Durante el desarrollo de este trabajo se ha explicado que, al trabajarse con el color de la piel, a la hora de realizar la segmentación de la imagen, muchos objetos, sobre todo de madera, pueden entrar en el umbral de color establecido y ser confundidos con el color de la piel. También se han encontrado problemas con la iluminación de la sala donde se realizan las pruebas. La entrada de excesiva iluminación en la zona de grabación puede provocar la aparición de reflejos en la imagen, los cuales pueden derivar en un reconocimiento incorrecto de la figura de la mano, dado su cambio de tonalidad por dicha iluminación..

(41) 30. 6 Conclusiones.

(42) 31. 7.. Lı́neas futuras. En este último apartado se van a mostrar diferentes lı́neas a seguir para mejorar los sistemas elaborados en este trabajo. La primera mejora para la imagen de profundidad guarda relación con el proceso de segmentación de la imagen. Como bien se ha mencionado en las conclusiones, la presencia de obstáculos evita que se pueda realizar un reconocimiento de acciones con la imagen de profundidad, dado que las acciones con las manos suponen la interacción de las mismas con algún tipo de objeto o superficie. La mejora se basarı́a en tratar de implementar una solución capaz de descartar las partes de la imagen que no se corresponden con la mano, a pesar de que esas partes de la imagen se encuentren en el mismo rango de profundidad que la mano. Otra mejora para la imagen de profundidad ya se ha dejado entrever en las conclusiones del trabajo. Consiste en añadir nuevos descriptores que aporten un mayor conocimiento acerca de la mano y, por tanto, ayuden a reconocer una acción de una forma más eficiente. Estos descriptores pueden ser el perı́metro, el diámetro, la excentricidad del contorno, el centroide, la curvatura o el número de Euler del contorno. Para la imagen de vı́deo convencional, el principal problema que encontramos está en la presencia de partes de la imagen en las cuales su color puede ser confundido con el color de la piel establecido, y en la aparición de brillos y reflejos en la imagen a causa de un exceso de iluminación. La mejora consistirı́a en la implementación de una solución capaz de localizar la figura de mano pese a los cambios de tonalidad causados por la iluminación, y que, además, descarte cualquier contorno que no se asemeje al de la mano. La ultima mejora a proponer consistirá en utilizar conjuntamente ambos tipos de imagen grabadas, la imagen de profundidad y la imagen de vı́deo convencional. A partir de ambas, se explotarán las ventajas de cada una de ellas, con el fin de implementar un reconocedor de acciones capaz de segmentar la mano con la calidad de segmentación que aporta la imagen de profundidad, pero sin la presencia de obstáculos en la imagen que descarta la imagen de vı́deo convencional y la segmentación de esta por el color de la piel..

(43) 32. 7 Lı́neas futuras.

(44) Referencias. 33. Referencias [1] Shian-Ru Ke, Hoang Le Uyen Thuc, Yong-Jin Lee, Jenq-Neng Hwang, Jang-Hee Yoo and Kyoung-Ho Choi (2013). A Review on Video-Based Human Activity Recognition. [2] Aaron F. Bobick (1997). Movement, activity and action: the role of knowledge in the perception of motion. MITMedia Laboratory, 20 Ames Street, Cambridge, MA 02139, USA. [3] Ming-Kuei Hu (1962). Visual Pattern Recognition by Moment Invariants. [4] G.F.McLachlan (1999). Mahalanobis Distance. Resonance. [5] Neil Robertson and Ian Reid (2006). A General Method for Human Activity Recognition in Video. University of Oxford, Department of Engineering Science, Oxford, OX2 7DD, UK [6] Boubakeur Boufama, Pejman Habashi and Imran Shafiq Ahmad (2017). Trajectory-Based Human Activity Recognition from Videos. 3rd International Conference on Advanced Technologies for Signal and Image Processing ATSIP’2017 May 22-24, 2017, Fez, Morroco. [7] Rajeshwar Dass, Priyanka and Swapna Devi (2012). Image Segmentation Techniques. International Journal of Electronics and Communication Technology. [8] Hui-Shyong Yeo, Byung-Gook Lee and Hyotaek Lim (2015). Hand tracking and gesture recognition system for human-computer interaction using low-cost hardware. Springer Science+Business Media New York 2013 [9] Neil Pittman, Alessandro Forin, Antonio Criminisi, Jamie Shotton and Atabak Mahram (2013). Image Segmentation Using Hardware Forest Classifiers. [10] Jamie Shotton, Ross Girshick, Andrew Fitzgibbon, Toby Sharp, Mat Cook, Mark Finocchio, Richard Moore, Pushmeet Kohli, Antonio Criminisi, Alex Kipman and Andrew Blake (2012). Efficient Human Pose Estimation from Single Depth Images. [11] Guanglong Du, Ping Zhang, Jianhua Mai and Zeling Li (2012). Markerless Kinect-Based Hand Tracking for Robot Teleoperation. Department of Computer Science, South China University of Technology, P.R. China [12] Jagdish L. Raheja, Ankit Chaudhary and Kunal Singal (2011). Tracking of Fingertips and Centres of Palm using KINECT. [13] Zhou Ren, Junsong Yuan, Jingjing Meng and Zhengyou Zhang (2013). Robust Part-Based Hand Gesture Recognition Using Kinect Sensor..

(45) 34. Referencias. [14] Simon Hummel, Victor Häfner, Polina Häfner, and Jivka Ovtcharova (2014). New Techniques for Hand Pose Estimation Based on Kinect Depth Data. Karlsruhe Institute for Technology, Germany [15] Pasquale Coscia, Francesco A.N. Palmieri, Francesco Castaldo and Alberto Cavallo (2016). 3-D Hand Pose Estimation from Kinect’s Point Cloud Using Appearance Matching. Seconda Universita di Napoli (SUN), Dipartimento di Ingegneria Industriale e dell’Informazione, via Roma 29, 81030 Aversa (CE) Italy [16] Yi Li (2012). Hand Gesture Recognition Using Kinect. Computer Engineering and Computer Science University of Louisville Louisville, KY 40214, USA [17] Salem Saleh Al-amri, N.V. Kalyankar and Khamitkar S.D (2010). Image Segmentation by Using Thershod Techniques. Journal of Computing, Volume 2, Issue 5. [18] Randy Hays Moss, G. A. Hance, Scott E. Umbaugh and William V. Stoecker (1996). Unsupervised Color Image Segmentation: with Application to Skin Tumor Borders. IEEE ENGINEERING IN MEDICINE AND BIOLOGY. [19] Anthony Vernon Walker Smith (2000). Hand Gesture Recognition System and Method. [20] Vladimir Vezhnevets, Vassili Sazonov and Alla Andreeva (2003). A Survey on Pixel-Based Skin Color Detection Techniques. Faculty of Computational Mathematics and Cybernetics, Moscow State University, Moscow, Russia. [21] Amanpreet Kaur and B.V Kranthi (2012). Comparison between YCbCr Color Space and CIELab Color Space for Skin Color Segmentation. International Journal of Applied Information Systems (IJAIS). [22] Kiri Wagstaff, Claire Cardie, Seth Rogers and Stefan Schroedl (2001). Constrained K-means Clustering with Background Knowledge. Proceedings of the Eighteenth International Conference on Machine Learning, 2001. [23] Simon Warfield (1996). Fast k-NN Classification for Multichannel Image Data. Pattern Recognition Letters, Vol. 17, Num. 7 [24] Irenaus Eibl-Eibesfeldt (1989). Human Ethology. Routledge. [25] David J. Anderson and Pietro Perona (2014). Toward a Science of Computational Ethology. California Institute of Technology, Pasadena, CA 91125, USA [26] Sheng Wei-hua and Zhu Chun (2010). A wearable computing approach for hand gesture and daily activity recognition in human-robot interaction. School of Electrical and Computer Engineering, Oklahoma State University, Stillwater, OK, 74078, USA.

(46) Referencias. 35. [27] Chun Zhu and Weihua Sheng (2012). Realtime Recognition of Complex Human Daily Activities Using Human Motion and Location Data. [28] Nishkam Ravi, Nikhil Dandekar, Preetham Mysore and Michael L. Littman (2005). Activity Recognition from Accelerometer Data. American Association for Artificial Intelligence. [29] Adrian Rosebrock (2016). Image Search Engine Resource Guide. [30] Vladimir I. Pavlovic, Rajeev Sharm and Thomas S. Huang (1997). Visual Interpretation of Hand Gestures for Human-Computer Interaction: A Review. [31] M. Dimitrijevic, V. Lepetit and P. Fua (2006). Human body pose detection using Bayesian spatio-temporal templates. Computer Vision Laboratory, EPFL, Switzerland [32] Alessandra Moschetti, Laura Fiorini, Dario Esposito, Paolo Dario and Filippo Cavallo (2016). Recognition of Daily Gestures with Wearable Inertial Rings and Bracelets. The BioRobotics Institute, Scuola Superiore Sant Anna, Viale Rinaldo Piaggio, 34, Pontedera 56025, Italy [33] Ying Wu, Qiong Liu and Thomas S. Huang (2000). An Adaptive Self-Organizing Color Segmentation Algorithm with Application to Robust Real-time Human Hand Localization. In Proc. Asian Conf. on Computer Vision, Taiwan. [34] Alexánder Ceballos, Juan Bernardo Gómez y Flavio Prieto (2009). Seguimiento del contorno externo de la boca en imágenes de vı́deo. Revista Ingenierı́as Universidad de Medellı́n, volumen 8, No. 14. [35] Eunju Kim, Sumi Helal, and Diane Cook (2010). Human Activity Recognition and Pattern Discovery. IEEE Pervasive Comput..

(47)

Referencias

Documento similar

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

Por lo tanto, en base a su perfil de eficacia y seguridad, ofatumumab debe considerarse una alternativa de tratamiento para pacientes con EMRR o EMSP con enfermedad activa

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y