T E S I S

Utilice el aprendizaje profundo con redes neuronales profundas utilizando solo imágenes para la detección de objetos (clases disponibles en el conjunto de datos). Metodología para comparar la eficiencia de detección de ambos dispositivos (cámaras y LIDAR).

INTRODUCCI ´ ON

Objetivo
Estado del arte
Planteamiento del problema
Metodolog´ıa
Contribuciones
Estructura de la tesis
Introducci´ on a las redes neuronales

Otra parte integral de la visión por computadora es la detección de objetos. En la parte de detección de objetos (clases disponibles en el conjunto de datos) con redes neuronales profundas, se utilizarán imágenes y datos de sensores Lidar.

MARCO TE ´ ORICO

Redes neuronales convolucionales

1.- Superponer el filtro en algún lugar de la parte superior de la imagen. Cuando se ingresan valores de entrada en la primera capa de la red neuronal, no se realiza ninguna operación. El mismo proceso se repite para las siguientes capas y finalmente obtenemos el valor de salida de la última capa.

Propagación hacia atrás, 2.14 Después de la propagación hacia adelante, obtenemos el valor de salida, que es el valor predicho.

M´ etricas de evaluaci´ on

RMSprop: método de optimización de la tasa de aprendizaje adaptativo propuesto por Geoff Hinton. Adam: Estimación del momento adaptativo (Adam) que también utiliza tasas de aprendizaje adaptativo.

Autoencoder

Codificador: la parte de la red que comprime la entrada en un espacio variable latente y puede representarse mediante la función de codificación h = f (x). Decodificador: El componente que intenta reconstruir la entrada en función de la información recopilada previamente. Además, las capas de agrupación máxima provocan pérdida de información, por lo que una capa de agrupación debe intentar recuperar aproximadamente los valores originales.

Esto es similar a los codificadores automáticos estándar donde los pesos de la capa de decodificación WO se pueden aprender desde cero o adaptarse a la transposición de la capa de codificación W0 = WT, esto se conoce como pesos vinculados.

LIDAR

Un escaneo LIDAR en tiempo real es esencialmente una serie de mediciones de alcance desde una única ubicación con un ángulo de visión específico; ver figura 2.21. Podemos organizar aproximadamente los puntos 3D en el LIDAR en tiempo real en una imagen de vista de área 2D. Cada píxel de la imagen del telémetro corresponde a un tronco en el espacio 3D. El valor del píxel es el rango del LIDAR hasta el punto 3D más cercano en el tronco. Específicamente, dividimos el espacio 3D a lo largo del ángulo de azimut α ∈ [0,2π) y el ángulo de elevación θ ∈ (π/2, π/2] con la resolución angular azimutα0 y la resolución del ángulo de elevación θ0.

Segmentaci´ on de nube de puntos 3D

Visi´ on por computadora

La distorsión puede cambiar el tamaño aparente de un objeto en una imagen, puede cambiar la forma aparente de un objeto en una imagen, puede hacer que la apariencia de un objeto cambie dependiendo de dónde se encuentre en el campo de visión. hacer que los objetos parezcan más cercanos o más lejanos de lo que realmente están. Figura 2.24. Esto se llama distorsión radial, Figura 2.25, y es el tipo de distorsión más común (5). El efecto es mayor cuanto más nos alejamos del centro de la imagen; los bordes del tablero de ajedrez están marcados con líneas rojas;

Hay dos coeficientes más que explican la distorsión tangencial: p1 y p2, y esta distorsión se puede corregir utilizando otra fórmula de corrección.

Detecci´ on de caracter´ısticas y coincidencia

Un descriptor de características es un algoritmo que toma una imagen y genera descriptores de características o vectores de características. La coincidencia de características o, más generalmente, la coincidencia de imágenes 2.27, una parte de muchas aplicaciones de visión por computadora, como el registro de imágenes, la calibración de cámaras y el reconocimiento de objetos, es la tarea de establecer la correspondencia entre dos imágenes de la misma escena u objeto. Un enfoque común para la comparación de imágenes es descubrir un conjunto de puntos de interés, cada uno asociado con descriptores de imágenes a partir de los datos de la imagen.

Una vez que se han extraído las características y sus descripciones de dos o más imágenes, el siguiente paso es establecer características preliminares entre estas imágenes.

Arquitectura de Red Neuronal U-Net

En la clasificación de imágenes, asumimos que solo hay un objeto (y no varios) en la imagen 2.29. La detección de objetos extiende la localización al siguiente nivel donde la imagen ahora no se limita a un solo objeto sino que puede contener varios objetos. La segmentación de instancias es un paso adelante de la segmentación semántica en el sentido de que, junto con la clasificación a nivel de píxel, esperamos que la computadora clasifique cada instancia de una clase por separado.

La primera red neuronal convolucional profunda (U-Net) será entrenada con datos de sensores Lidar, a estos datos se podrá acceder en el conjunto de entrenamiento KIT-TI, con los archivos y parámetros necesarios para la calibración y transformación de coordenadas.

Conjunto de Datos KITTI

Para conseguirlo es necesario procesar los datos de los sensores LIDAR y las imágenes de las cámaras. La segunda red neuronal convolucional profunda se entrena con las imágenes de la cámara también disponibles en el conjunto de datos KITTI, los archivos de calibración de la cámara y las etiquetas de las cámaras. A los objetos a detectar se les adjunta su respectivo escaneo puntual de los sensores lidar, con el mismo procedimiento se utiliza el modelo de red neuronal convolucional profunda de U-Net.

DISE ˜ NO DEL EXPERIMENTO

Pre-procesamiento de la nube de puntos sensores LI- DARDAR

Esta eficiencia se logra mediante el uso de una nube de puntos como objeto (nube de puntos) que organiza internamente los datos utilizando una estructura de datos de árbol K-d. La Figura 3.7 muestra la estructura de la nube de puntos del sensor LIDAR, que es típica de los sensores de la marca Velodyne utilizados en el conjunto de datos en el que estamos trabajando (15). El ejemplo muestra el flujo de trabajo para el procesamiento de nubes de puntos y el seguimiento de objetos.

El objetivo de la presentación de este método de segmentación de nubes de puntos es comparar métodos que utilizan algoritmos probabilísticos con métodos sofisticados que utilizan redes neuronales profundas.

Algoritmo Bird eye view sobre la nube de puntos

Los datos necesarios para realizar la transformación de coordenadas se muestran a continuación en la siguiente Figura 3.11. La transformación de coordenadas (7) está limitada por los rangos de la proyección de vóxel, como se describe anteriormente, dentro de estos límites la transformación está limitada a las siguientes coordenadas de vóxel [xminimg, xmaximg, yminimg, ymaximg]. Crear máscaras para cada objeto etiquetado en las proyecciones 2D en las imágenes tipo vóxel y en las vistas de cámara.

La red neuronal profunda U-Net necesita la imagen real con su correspondiente imagen con las máscaras de cada objeto, para su posterior segmentación y predicción de detección.

Modelo de red neuronal profunda en Autos aut´ ono- mosmos

En general, una mayor cantidad de datos de entrenamiento hará que la red neuronal comprenda mejor su distribución de datos. Esta es la parte de los datos que se evaluarán durante el proceso de formación. La limpieza y el etiquetado de datos es un paso muy importante en la recopilación de datos en un vehículo autónomo.

Una presentación simple de una red neuronal profunda de automóvil autónomo 3.23 que toma entradas de la cámara, el sensor de alcance y detección de luz (LIDAR) y el sensor IR (infrarrojos), y genera el ángulo de dirección, la decisión de frenado y la decisión de aceleración.

Entrenamiento de la Redes neuronales U-Net

Las pruebas y los resultados de la red neuronal U-Net toman un subconjunto de los datos de entrenamiento. La arquitectura de red neuronal convolucional profunda de U-Net recibe información de entrada adicional con la ayuda del preprocesamiento y la generación de datos de capacitación y validación. El código correspondiente a la arquitectura de la red neuronal U-Net contiene capas convolucionales, capas de reducción, capas residuales y capas de clasificación.

Lote, tamaño del lote de entrenamiento para actualizar los parámetros internos de la red.

An´ alisis de Resultados

Este capítulo muestra los resultados de los experimentos, los cuales se agruparon en 3 secciones: La primera sección muestra una introducción a los problemas actuales en la detección de objetos en automóviles con hardware instalado para lograr autonomía, destacando cómo el sensor LIDAR puede ayudar a evitarlos. tipo de accidentes? En la segunda parte se presenta una metodología basada en la solución del proyecto propuesto. Esta metodología tiene fases que ya han sido desarrolladas en el capítulo anterior, por lo que solo se presentan las fases que se desarrollarán.

La tercera parte muestra las fases restantes de la metodología, que a modo de resumen presentan los resultados de segmentación y detección de objetos, métricas utilizadas para evaluar los modelos de Machine Learning.

AN ´ ALISIS DE RESULTADOS

Generaci´ on de Bases de datos de entrenamiento y prueba
M´ etricas de evaluaci´ on IoU Segmentaci´ on sem´ antica
Resultados de segmentaci´ on y detecci´ on
Matriz de confusi´ on y M´ etricas de evaluaci´ on

Para resolver el problema de detectar las clases descritas anteriormente en imágenes de cámaras e imágenes de tipo vóxel de sensores LIDAR, se propone la metodología que se muestra en la Figura 4.2. Entrenando la red neuronal U-net con el conjunto de datos KITTI, es un conjunto de datos disponible con datos de sensores LIDAR e imágenes de las cámaras. Tiempos de predicción de la clase de coche de la red U-net con 100 muestras aleatorias con imágenes de las cámaras 4.3.

Tiempos de predicción de clases de automóviles de la red U-net con 100 muestras aleatorias con imágenes voxel de sensores LIDAR 4.4.

CONCLUSIONES

3D lidar-based detection of static and moving obstacles in driving environments: a multi-region voxel and ground plane based approach. Deep multimodal object detection and semantic segmentation for autonomous driving: datasets, methods and challenges. Object classification using cnn-based fusion of vision and lidar in an autonomous vehicle environment.