• No se han encontrado resultados

Capítulo 3. SLAM Visual

3.3. Extracción de características visuales

3.3.1. Detección

Ser capaz de representar una imagen de forma invariante que sea la misma, o muy similar, en otras imágenes de la misma escena es un requerimiento fundamental para resolver el problema indirecto de SLAM visual. Las representaciones de esquina son métodos poderosos para hacer esto. Una esquina es una pequeña porción de una imagen que es rica en información local y, por lo tanto, es probable que se reconozca en otra imagen. A continuación se describen los algoritmos detectores evaluados en esta tesis.

Harris-Shi-Tomasi. Este detector de características fue desarrollado porHarris y Stephens (1988). El algoritmo detecta esquinas como ubicaciones en la imagen donde la señal cambia en dos dimensiones. Esto se logra utilizando la función de autocorrelación dada por

c(, y) = [Δ,Δy]M[Δ,Δy]T, (105) donde Δ y Δy son los desplazamientos de una pequeña ventana centrada en

Es una matriz de 2×2 calculada a partir de las derivadas de la imagen M=   2(,j) ∂2 2(,j) ∂y 2(,j) ∂y 2(,j) ∂y2  , (106)

donde (, j) son los índices de los valores en la ventana W sobre la imagen . La ubicación de un punto se obtiene haciendo la supresión máxima en una región de 3×3 usando la siguiente función

esquinas=det(M)αtraza(M)2. (107)

FAST. El detector de características FAST (Rosten y Drummond, 2006) analiza los valores de intensidad de los píxeles en un círculo de radio r alrededor de un punto candidatop.p es clasificado como esquina si existe un arco contiguo de al menosn píxeles que son más brillantes o más oscuros queppor un umbral t. Los autores usaron r = 3 y n = 9. El algoritmo fue optimizado entrenando un árbol de decisiones para probar la menor cantidad de píxeles posibles para clasificar un píxel candidato como esquina o no esquina. Con este árbol de decisión, solo se prueban 2.26 píxeles para cada candidato en promedio, mientras que con el algoritmo original se prueban 2.8. El algoritmo FAST no proporciona inherente- mente una medida de aptitud para una característica detectada. Para aplicar la supresión no-máxima, se calcula la siguiente función de aptitud para cada punto candidato c(p) =max{ X qS+ |qp| −t, X qS- |qp| −t}, (108)

donde S+ es el subconjunto de los píxeles dentro del círculo que son más brillan- tes que p (port) yS- el subconjunto de píxeles más oscuros quep (por t).

SIFT. Algoritmo desarrollado por Lowe (2004) que ha sido muy popular debido a su repetibilidad e invarianza a escala y rotación. Para detectar puntos, SIFT obtiene máximos locales 3D en el espacio DoG (Diferencia de Gausianas), el cual se puede obtener mediante la resta de escalas sucesivas en la imagen original. Para mejorar el tiempo de ejecución del método se construye una representación piramidal del espacio de escalas. La precisión de subpíxeles se realiza ajustando una función cuadrática en los puntos detectados= (, y, σ). La ubicación de los

subpíxeles se obtiene aplicando la expansión de la serie de Taylor en la imagen alrededor del punto y luego diferenciando e igualando a cero

D(x) =D+ ∂DT x x+ 1 2x T∂ 2D x2x. (109)

Para rechazar los puntos que se encuentran a lo largo de los bordes, la traza y el determinante de la matriz Hesiana se utilizan de tal manera que un punto que es menor a un umbral r es rechazado

Tr(H2) Det(H) < ( r+1)2 r . (110)

El siguiente paso es asignar una orientación a cada característica, calculado los gradientes dentro de una ventana alrededor de ella y construir un histograma de gradientes. El histograma es usado para detectar la orientación más prominente.

SURF. Al algoritmo SURF (Bay et al., 2008) está inspirado en SIFT. La principal motivación para su desarrollo fue superar la debilidad principal de SIFT: su com- plejidad computacional y su baja velocidad de ejecución. Se ha demostrado que SURF es más rápido que SIFT sin comprometer el rendimiento. Está basado en una representación en el espacio de escalas de la matriz Hesiana, la cual es eficiente- mente aproximada usando imágenes integrales. Por lo tanto, las características distintivas de una imagen corresponden a ubicaciones donde el determinante de la matriz Hesiana alcanza un máximo en una vecindad de (3×3×3). Los máxi- mos detectados se interpolan para obtener ubicaciones precisas de subíxeles en el espacio de escalas.

STAR. El detector de características STAR es una derivación del detector CenSurE (Agrawal et al., 2008). El algoritmo usa una aproximación del filtro Laplaciano de Gausianas (LoG). La forma circular de la máscara en el detector CenSurE se remplaza por una aproximación que permite preservar la invarianza rotacional y permite el uso de imágenes integrales para un cálculo eficiente. El espacio de escalas es construido sin interpolación al aplicar máscaras de diferentes tamaños.

ORB. El algoritmo ORB (Rublee et al., 2011) hace una modificación a FAST pa- ra detectar características invariantes a escala por medio de una construcción de una escala piramidal de la imagen. En cada escala características FAST son

detectadas, la medida de esquina de Harris se emplea para clasificarlas y solo retener las n mejores basadas en un umbral. Para obtener invarianza a la rota- ción se utilizan momentos de primer orden para calcular la orientación local a través de la intensidad del centroide, el cual resulta del promedio ponderado de la intensidad de los píxeles en la ventana local.

BRISK. El detector BRISK (Leutenegger et al., 2011) está basado en FAST. En general, el algoritmo consiste de tres partes: un patrón de muestreo, compensa- ción de orientación y pares de muestreo. Tomar un patrón de muestreo alrededor de un punto candidato se refiere a puntos dispersos en un conjunto de círculos concéntricos, que se utilizan para determinar si el punto es una esquina o no. Entonces estos pares se separan en dos subconjuntos: pares de distancia corta y pares de distancia larga. Para lograr invarianza a rotación, la dirección de cada punto se determina tomando la suma del gradiente local calculado entre los pares de distancia larga, los pares de distancia corta se giran según las orientaciones obtenidas.

Documento similar