sistema de reconocimiento facial con redes neuronales para la

Resumen: Debido al aumento del número de estudiantes en la universidad y al gran volumen de cursos, especialmente los de la Facultad de Medicina, existe una evidente necesidad de racionalizar el proceso de aceptación de estudiantes y profesores. Este trabajo define los requisitos de un sistema de reconocimiento facial para el seguimiento automatizado de la asistencia a clases basado en redes neuronales.

INTRODUCCIÓN

PLANTEAMIENTO DEL PROBLEMA

Por esta razón, se requiere de una forma (automática) de validar y generar reportes de asistencia precisos, tanto de estudiantes como de docentes, sin que ninguno de los dos intervenga en la ejecución de este proceso. Asimismo, se busca reducir la intervención de los auditores como recolectores de información para los informes y así reducir los informes erróneos que perjudican a los docentes.

PLANTEAMIENTO DE LA SOLUCIÓN

¿Hasta qué punto es necesaria la informática distribuida para que un sistema de reconocimiento facial funcione correctamente? Cuáles son las características que debe tener un sistema de reconocimiento facial para eliminar por completo el seguimiento manual en el aula.

OBJETIVOS

OBJETIVO GENERAL

OBJETIVOS ESPECIFICOS

RESULTADOS ESPERADOS

Objetivo específico 1

Realizar las pruebas pertinentes del sistema en un entorno real (un aula), realizando el entrenamiento y luego detectando a los alumnos y profesores presentes en el aula. El informe de las pruebas realizadas especificando qué dificultades se encontraron en el momento de su ejecución y cómo se resolvieron dichas dificultades.

ESTADO DEL ARTE

En (Balcoh, Yousaf, Ahmad & Baig, 2012), se propone un método llamado "Clasificación de la piel" para resolver el problema de la precisión en la detección de rostros. A continuación se presenta el estándar para construir un sistema de reconocimiento facial y los diferentes métodos que se pueden utilizar para la fase de reconocimiento de personas. El diseño arquitectónico de un SRF tiene un diseño estándar o genérico que se debe seguir para lograr una alta precisión.

Si se utiliza la clase de pelota es para obtener la matriz de pelota en la fase de reconocimiento. Este método consiste en el análisis de vectores (Eigenvectors o autovectores) de una imagen, donde para cada píxel de la matriz de la imagen habrá un autovector. La exposición de una imagen y la posición del rostro tienen menores márgenes de error con Fisherfaces.

MARCO TEORICO

Framework
Red neuronal
CNN
Darknet
Código QR
Zigbee
Minucia
Haar Features
Viola Jones
PCA (Principal Component Analysis)
LDA (Linear Discriminant Analysis)
DCT (Discrete Cosine Transform) por bloques
Raspberry

Es un marco de red neuronal de código abierto escrito en lenguaje de programación C y CUDA que admite computación con CPU y GPU. También llamado “Código de Respuesta Rápida”, es un tipo de código de barras bidimensional que almacena su información en una matriz de puntos y permite almacenar más información alfanumérica que los códigos de barras convencionales. Función de tres rectángulos: Suma entre dos triángulos externos, restada de la suma en un rectángulo central.

Es un algoritmo utilizado para la detección de objetos en tiempo real y es muy utilizado porque realiza el proceso de detección rápidamente. Es un método que convierte un número específico de variables correlacionadas en un pequeño número de variables no correlacionadas llamadas componentes principales; En resumen, estos componentes son una mejor representación de un grupo de imágenes a través de vectores en un sistema o modelo de coordenadas, lo que permite reducir la dimensionalidad y el tiempo de análisis. Es un método que permite reducir el problema de alta dimensión de identificación o ubicación proyectando los datos en un espacio vectorial más pequeño.

METODOLOGÍA

Defina el proceso y la secuencia en la que el hardware de captura de datos interactúa con el software de reconocimiento. Crear un módulo que se encargue de capturar los resultados y recortar las imágenes en las coordenadas correspondientes a los individuos. Incluya lo anterior en un flujo de información, lo que dará como resultado un conjunto de imágenes recortadas.

RESULTADOS OBTENIDOS

Objetivo específico 1

Todos los algoritmos, métodos o técnicas que permitan el desarrollo, implementación y despliegue de un sistema de reconocimiento facial; La principal diferencia entre estos métodos es su capacidad de procesamiento. El mayor problema y desafío; En el contexto de un escenario real donde el sistema de reconocimiento se entrena con todo el campus universitario, esta es la carga de trabajo (Throughput o TrainingTimeRate). Antes de considerar los posibles escenarios y sus modelos, primero debemos abordar el tema del tiempo de entrenamiento y la capacidad de cómputo, en nuestro caso el entrenamiento se realizará con una GPU Nvidia Gtx 960 de 4Gb; Por otro lado, los modelos no se reflejan en un contexto de computación distribuida (lo que llevaría mucho menos tiempo).

El problema natural de entrenar este modelo son las características comunes o biométrica compartida, que a mayor escala requiere muchas evoluciones y tiempo para alcanzar un vector de peso estable o diferenciador de la biometría. La biometría natural y la extracción de características son más rápidas y tardan menos en llegar al modelo con vectores de peso estables. El problema en biometría humana para todos los modelos es cuánto tiempo se tarda en distinguir sus rasgos humanos de los individuales, todos los modelos basados en pesos y/o rasgos tienden a generar clusters debido a sus rasgos similares (Rostro, Forma, Geometría) en el caso de reconocimiento facial.

Objetivo específico 2

Los modelos basados en características son los únicos que tienen formas de abordar este problema de agrupación; Las redes neuronales tienden a salir más rápido de la fase de pesos de los grupos con semillas aleatorias. En el caso de las redes neuronales, la biblioteca Darknet Neural Networks fue examinada específicamente y finalmente elegida para una función específica, que es Model-Kmeans; Este modelo elimina los pesos que los hacen similares (un ejemplo perfecto para distinguir aquellos que los hacen similares y evitar falsos positivos). Una vez subidos los videos a la base de datos, se ejecuta un script perl llamado "organizer.pl" (este script se resume en la Figura 34), cuya función es descargar los videos de la base de datos junto con los ID de las personas a quienes y colóquelos en la misma carpeta donde se encuentra el script y luego ejecuta el comando ffmpeg, que le permite extraer cuadros de videos para convertirlos en imágenes .jpg individuales, nombrándolos según el nombre del video (ID) y el número de cuadro que sigue la estructura “VideoName_FrameNumber.jpg”.

El sistema extrae el número de clases para construir y entrenar el modelo mediante una consulta.

Objetivo específico 3

Luego se debe crear el archivo “train.txt” mediante un script llamado “listado.pl”. El script también crea el archivo obj.names, que contiene los nombres que identifican cada clase en la fase de descubrimiento. El archivo funciona como una matriz, con cada línea igual a (N-1) cuando se hace referencia a la clase (ver Figura 39).

Ejemplo: ID Nombre El profesor pertenece a la clase 9; Por lo tanto, en el archivo se colocará en la línea número 10=(Clase+1). Finalmente, se crea el archivo obj.data (ver Figura 40), que contiene la ubicación o directorio de los archivos necesarios para ciertos parámetros, como el archivo train.txt o el archivo que contiene las distintas clases (obj.names). Los parámetros train y válidos reciben el archivo train.txt que estará ubicado en la carpeta raíz del proyecto, lo mismo aplica para el parámetro nombres con obj.names, y se referencia y crea previamente la carpeta de respaldo.

Objetivo específico 4

Objetivo específico 5

Por otro lado, si tenemos varias fotos de cada resolución podremos identificar a personas que no estaban en la primera o que miraron en un ángulo que la red no es capaz de detectar. Una vez clasificadas las imágenes se calculan las métricas que nos darán la verdadera viabilidad del modelo. La Tabla 5 muestra los valores de las métricas del modelo luego de recibir la información de la figura anterior.

Después de que se evaluó el modelo y se demostró que era viable, las personas fueron identificadas individualmente como se ve en la Figura 48, donde la red identifica al maestro con un 87% de confianza para este descubrimiento en particular. Cabe señalar que no todos fueron detectados en una sola imagen, por lo que se tomaron varias imágenes y también cabe mencionar que la persona ubicada en la parte inferior derecha de las imágenes (la de la camiseta gris) no se encontraba entre las personas que tenían video de lo realizado para el entrenamiento. En caso de aplicación, sería mejor colocar la frambuesa en el frente de la habitación, justo encima del tablero, como se muestra en la figura 51.

Conclusiones

Más que decir hasta qué punto, dice que la computación distribuida es necesaria para el uso real de tales sistemas, ya que podría implementarse en el espacio de la comunidad académica y administrativa para la captura y preparación de datos. y entrenando el modelo, el tiempo es un récord. No solo el sistema, sino también la planificación y logística del personal administrativo o educativo que lideraría el proceso, ya que planificar y llevar un control de horas es crucial para tener el modelo terminado durante las vacaciones y listo para el inicio de clases. Que el sistema está relacionado con cambios en los horarios de los docentes y de las aulas, cuando exista un restablecimiento del tiempo de clases fuera de los horarios y aulas habituales.

Por otro lado, es necesario invertir una infraestructura robusta en la parte de almacenamiento de datos debido al gran aumento en el flujo de información que se produciría con la implementación del sistema. Datos como vídeos, grabaciones de los mismos, resultados de detección e informes de presencia pasarían a formar parte del flujo de información de la universidad. Como conclusión final, la introducción del sistema es posible, pero sería un plan a largo plazo debido a la inversión y cambios que se deben realizar en la infraestructura de la universidad (servidores, bases de datos, personal).

Emerging Trends in Computer Science and Information Technology–2012 (ETCSIT2012) Proceedings gepubliceerd in International Journal of Computer Applications®(IJCA), 12.

Anexos