Estimación monocular de movimiento propio y detección de candidatos a peatón desde una plataforma móvil

Texto completo

(1)PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA. ESTIMACION MONOCULAR DE MOVIMIENTO PROPIO Y DETECCION DE CANDIDATOS A PEATON DESDE UNA PLATAFORMA MOVIL. IGNACIO ZUBIAGUIRRE BERGEN. Tesis presentada a la Dirección de Investigación y Postgrado como parte de los requisitos para optar al grado de Magı́ster en Ciencias de la Ingenierı́a. Profesor Supervisor: MIGUEL TORRES TORRITI. Santiago de Chile, Agosto 2012 c MMXII, I GNACIO Z UBIAGUIRRE B ERGEN.

(2) PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA. ESTIMACION MONOCULAR DE MOVIMIENTO PROPIO Y DETECCION DE CANDIDATOS A PEATON DESDE UNA PLATAFORMA MOVIL. IGNACIO ZUBIAGUIRRE BERGEN. Miembros del Comité: MIGUEL TORRES TORRITI DOMINGO MERY QUIROZ TOMAS ARREDONDO VIDAL JUAN DE DIOS ORTUZAR SALAS Tesis presentada a la Dirección de Investigación y Postgrado como parte de los requisitos para optar al grado de Magı́ster en Ciencias de la Ingenierı́a Santiago de Chile, Agosto 2012 c MMXII, I GNACIO Z UBIAGUIRRE B ERGEN.

(3) Al Pipe.

(4) AGRADECIMIENTOS. Agradezco a Pablo Gutiérrez, Ambrosio Olivos, Jaime Ordenes, Mauricio Palominos, Alan Pino, Felipe Rodillo, Gonzalo Varela y Marcela Zubiaguirre por su ayuda en el etiquetado de imágenes; a Marı́a José Soto-Aguilar, Jaime Ordenes, Juan Quinteros y Felipe Rodillo por su ayuda en la revisión del texto; a Gabriel Villalón por su ayuda en las capturas; a Ignacio Alcaino y Esteban Saavedra por su ayuda en los gráficos y a Sonia Bergen y Esteban Zubiaguirre, los principales patrocinadores de este proyecto.. IV.

(5) INDICE GENERAL. AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. IV. INDICE DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. VII. INDICE DE TABLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. VIII. RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. IX. ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. XI. INTRODUCCION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.1.. Descripción del Problema . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2.. Métodos Existentes para Detectar Peatones Automáticamente . . . . . . .. 2. 1.3.. Método Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.4.. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.5.. Resumen de Contribuciones . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.6.. Organización del Documento . . . . . . . . . . . . . . . . . . . . . . . .. 6. METODO PROPUESTO . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. Estimación de Información 3D . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.1.1.. Flujo Optico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.1.2.. Reconstrucción y Estimación de Avance . . . . . . . . . . . . . . . .. 10. 2.1.3.. Selección de Regiones de Interés . . . . . . . . . . . . . . . . . . . .. 16. 2.1.4.. Información Histórica . . . . . . . . . . . . . . . . . . . . . . . . .. 17. ANALISIS Y SIMULACIONES . . . . . . . . . . . . . . . . . . . . . . . .. 18. Condiciones de Simulación . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 3.1.1.. Entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 3.1.2.. Trayectoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 1.. 2.. 2.1.. 3.. 3.1.. 3.2.. V.

(6) IMPLEMENTACION Y METODOLOGIA . . . . . . . . . . . . . . . . . . .. 22. 4.1.. Ensayos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 4.2.. Indices de Desempeño . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. Selección de Regiones . . . . . . . . . . . . . . . . . . . . . . . . .. 24. RESULTADOS EXPERIMENTALES . . . . . . . . . . . . . . . . . . . . .. 26. 5.1.. Trayectoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. 5.2.. Selección de Regiones de Interés . . . . . . . . . . . . . . . . . . . . . .. 27. 5.2.1.. Información Histórica . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 5.2.2.. Filtro de Regiones por Número de Puntos que las Constituyen . . . . .. 27. 5.2.3.. Tiempo Falla en la Detección . . . . . . . . . . . . . . . . . . . . .. 27. 5.2.4.. Desempeño de las Secuencias Utilizadas . . . . . . . . . . . . . . . .. 28. CONCLUSIONES Y TRABAJO FUTURO . . . . . . . . . . . . . . . . . . .. 30. 6.1.. Revisión de los Resultados y Comentarios Generales . . . . . . . . . . . .. 30. 6.2.. Proyecciones de Investigación Futura . . . . . . . . . . . . . . . . . . . .. 31. BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.. 4.2.1. 5.. 6.. VI.

(7) INDICE DE FIGURAS. 1.1. Distribución de accidentados y fallecidos por tipo de accidente . . . . . . . .. 1. 1.2. Porcentaje de accidentados graves o muertes . . . . . . . . . . . . . . . . .. 2. 2.1. Movimiento de un punto y su vecindad dentro de una imagen . . . . . . . . .. 7. 2.2. Relación entre desplazamiento, gradiente y cambio de intensidad . . . . . . .. 9. 2.3. Sistema de referencia de la cámara . . . . . . . . . . . . . . . . . . . . . . .. 11. 2.4. Sistema de referencia del vehı́culo . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.5. Cambio de coordenadas entre sistemas de cuadros distintos . . . . . . . . . .. 13. 2.6. Regiones de Interés candidatas a peatón . . . . . . . . . . . . . . . . . . . .. 16. 3.1. Trayectoria estimada versus la real usando proyecciones ideales . . . . . . .. 19. 3.2. Trayectoria estimada versus la real usando proyecciones truncadas . . . . . .. 19. 3.3. Trayectoria estimada versus la real usando proyecciones con ruido . . . . . .. 20. 4.1. Principales dificultades presentes en las vı́as . . . . . . . . . . . . . . . . . .. 23. 4.2. Imágenes para calibración . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 4.3. Peatones identificados manualmente . . . . . . . . . . . . . . . . . . . . . .. 24. 4.4. Variaciones de la región que encierra a un peatón . . . . . . . . . . . . . . .. 25. 5.1. Imagen satelital de los trayectos recorridos en las secuencias 1, 4 y 6 junto a lo estimado por el modelo propuesto. . . . . . . . . . . . . . . . . . . . . . . .. 26. 5.2. Rendimiento del sistema de detección utilizando distintas exigencias a la cantidad de puntos que forma una región candidata.. . . . . . . . . . . . . . . . . . .. 28. 5.3. Porcentaje de casos en los que la falla dura menos que una cierta cantidad de cuadros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. VII.

(8) INDICE DE TABLAS. 1.1. Revisión de las técnicas existentes para detección de peatones. . . . . . . . .. 4. 3.1. Resumen del desempeño del sistema ante redondeo y ruido en la entrada. . . .. 21. 4.1. Detalle de las secuencias utilizadas. . . . . . . . . . . . . . . . . . . . . . .. 22. 5.1. Comparación de los resultados de detección con y sin incluir información histórica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 5.2. Desempeño del sistema por secuencia . . . . . . . . . . . . . . . . . . . . .. 29. VIII.

(9) RESUMEN. Los accidentes vehiculares, especialmente los atropellos, cobran muchas vidas todos los años en Chile. Los automóviles ofrecen elementos de protección para sus ocupantes, pero no ası́ para los peatones. Esta investigación busca ofrecer una herramienta para proteger a estos últimos mediante un sistema de alerta de su presencia basado en visión artificial monocular. El método propuesto estima información tridimensional del entorno del vehı́culo, permitiendo identificar objetos por su forma fı́sica en vez de su apariencia en la imagen. Se seleccionan como candidatos a peatones las regiones de la imagen donde se proyectan objetos que tengan ubicación y dimensiones coherentes a las de un peatón. La novedad del método propuesto está en su capacidad de inferir regiones en las cuales pueden encontrarse peatones a partir de la reconstrucción parcial de la escena observada, sin la necesidad de emplear clasificadores de peatones que son computacionalmente costosos. A su vez, la contribución del método es que efectivamente logra entregar áreas de la imagen donde potencialmente existen peatones, reduciendo el espacio de búsqueda para posteriores clasificadores que sean capaces de realizar una etapa de detección refinada. Para evaluar el desempeño del sistema en la práctica, se utilizaron nueve secuencias de imágenes tomadas desde un vehı́culo en movimiento, con un total de 7 minutos y 9 segundos de grabación. Una cámara montada sobre una estructura ubicada en el techo de un automóvil permitió capturar las imagenes correspondientes a una conducción real por calles urbanas, principalmente residenciales. Con el sistema propuesto e implementado en esta investigación, se obtuvo una tasa de detección promedio de peatones de 89 % cuando éstos se encontraban a menos de 20 m de distancia, de 88 % cuando los peatones se ubicaban a menos de 30 m de distancia, y de 81 % cuando los peatones circulaban a una distancia menor a 40 m del vehı́culo.. IX.

(10) Palabras Claves: Detección de Peatones, Vehı́culos Inteligentes, Reconstrucción 3D, Movimiento Propio, Flujo Optico.. X.

(11) ABSTRACT. Vehicular accidents take many lives every year in Chile, especially on run over incidents. Cars offer safety elements for their users, but not so for pedestrians. This investigation aims to offer a tool to avoid run over incidents through a pedestrian presence alert system, based on monocular vision. The method searches for salient points in different frames and finds relations between them through optical flow to estimate their position relative to the vehicle. Obstacles in the way with dimensions similar to those of pedestrians are identified using the position information computed for the salient points. The novelty of the proposed approach is in that it infers regions in which pedestrians may be standing from a non-dense 3D scene reconstruction and the clustering of 3D points. The contribution of the approach is that it effectively returns potencial pedestrian areas in the image, thus reducing the search space on which standard classifiers would carry out a refined detection stage. To evaluate the performance of the system in practice, sequences of images taken from a vehicle in movement were used. With a camera mounted over a structure placed on the roof of a commercial car, actual drive footage was captured from urban streets, mainly residential. An average detection rate of 89 % was obtained on pedestrians at a 20 m range, 88 % for pedestrians at a 30m range and 81 % at a 40 m range.. Keywords: Pedestrian Detection, Inteligent Vehicles, 3-D Scene Reconstruction, Ego-Motion, Optical Flow XI.

(12) 1. INTRODUCCION. 1.1. Descripción del Problema Los accidentes de tránsito son un problema que genera importantes pérdidas tanto humanas como materiales. Según el Instituto Nacional de Estadı́sticas, el año 2010 dejaron 54.559 accidentados en Chile (INE, 2010), los cuales se distribuyen principalmente en cuatro tipos de accidentes: colisión, choques, atropellos y volcaduras. Como se observa en la figura 1.1, a pesar de que el atropello no fue el accidente más recurrente (9.084 accidentados el 2010), es el que tiene mayor tasa de mortalidad (605 de 1.595 el 2010).. F IGURA 1.1. Distribución de accidentados por tipo de accidente (a). Distrubución de fallecidos por tipo de accidente (b).. Por otro lado, como indica la figura 1.2, gran parte de los atropellos tiene consecuencias severas: a diferencia de otros accidentes, involucra personas al margen de la protección que ofrece el vehı́culo a sus pasajeros. Las dificultades prácticas de incluir elementos de seguridad equivalentes en los peatones, hacen que un sistema de detección automática de peatones, que alerte al conductor ante situaciones de peligro, sea una alternativa viable para evitar accidentes graves y fatalidades. En el presente documento se expone la construcción y prueba de un método basado en visión por computador para seleccionar zonas en la vı́a con posibilidad de ser peatones. 1.

(13) F IGURA 1.2. Porcentaje de accidentados graves o muertes.. 1.2. Métodos Existentes para Detectar Peatones Automáticamente El problema de detección automática de peatones utilizando visión artificial es abordado generalmente en dos etapas: (i) búsqueda de regiones de interés (ROI por sus siglas en inglés) dentro de la imagen, éstas son áreas de la imagen con cierta probabilidad de ser una persona, (ii) análisis exhaustivo de cada región verificando si se trata efectivamente de la proyección de un peatón. En general el primer proceso tiene bajo costo computacional, y debe incluir idealmente a todos los peatones presentes. Luego se debe realizar un proceso más complejo para eliminar las áreas que no corresponden a peatones, pero han pasado el primer filtro. Para esta última etapa distintos autores (Dalal y Triggs, 2005; Munder y Gavrila, 2006; Papageorgiou y Poggio, 1999) han probado la efectividad de las caracterı́sticas basadas en wavelets de Haar y los Histogramas de Gradientes Orientados (HoG, por sus siglas en inglés). Como muestran Giosan, Nedevschi, y Bota (2009), obtener las tres coordenadas espaciales de los puntos que se observan en una imagen es útil al escoger las ROI, ya que son propiedades relativamente constante dentro de un objeto determinado y además son independientes de la iluminación presente (a diferencia de la intensidad y color). Esta ventaja permite que los sistemas estéreo (Alonso et al., 2007; Giosan et al., 2009; Kamijo, Fujimura, y Shibayama, 2010; Krotosky y Trivedi, 2007; Munder, Schnorr, y Gavrila, 2008), que 2.

(14) poseen dos cámaras con posiciones relativas conocidas, produzcan generalmente mejores resultados que los sistemas monoculares (de una cámara). Considerando que toda aplicación en el espectro visible baja su rendimiento en condiciones nocturnas, es importante pensar en un sistema práctico que incluya cámaras en el infrarrojo lejano o cámaras capaces de funcionar en un amplio rango de iluminosidad, incluyendo iluminación artificial. Debido a que agregar una cámara estéreo aumenta de forma importante el costo del sistema, parece interesante investigar soluciones con una cámara, que además son más simples de manejar y calibrar (Cao, Deng, y Mulligan, 2008; Dollar, Wojek, Schiele, y Perona, 2012; Enzweiler, Kanter, y Gavrila, 2008; Fardi, Seifert, Wanielik, y Gayko, 2006; Lombardi y Zavidovique, 2004; Xu, Cao, y Qiao, 2006). El método propuesto en este trabajo obtiene información del entorno usando solamente una cámara, obteniendo las ventajas de una cámara estéreo en un sistema monocular. En la tabla 1.1 se resume una revisión de los principales resultados de trabajos realizados para la detección de peatones desde plataformas móviles. La tasa de detección corresponde al porcentaje de peatones que se logra detectar correctamente respecto al total que aparece en la secuencia. La tasa de falsas alarmas corresponde al porcentaje de detecciones incorrectas respecto al total de detecciones. Se indicaron los casos donde la información presentada no se encuentra disponible (N.D.).. 3.

(15) TABLA 1.1. Revisión de las técnicas existentes para detección de peatones. Técnica. Caracterı́sticas. Comentarios. Tasa Detección [ %]. Tasa Falsa Alarma [ %]. N.D.. N.D.. 68.8. N.D.. 86.8. 0.13. 92.7. 8. 86.61. 12.11. 99.6. 0.06. 73.9. N.D.. Monocular (Enzweiler et al., 2008) (Ma, Muller, Park, MullerSchneiders, y Kummert, 2009) (Xu et al., 2006) Multivista (Giosan et al., 2009). ROI basadas en flujo ópti- Secuencias de peatones sin co. Identificación por forma oclusión, elegidos manualy textura. mente. Se mide la velocidad del vehı́culo externamente. Dis- Rango 1: 3-10 m. Rango 2: tintos métodos para peato- 10-50 m. nes cercanos y lejanos. Promedio entre 6 videos de Se utiliza cambio de escala prueba. Funciona en rango para comparar ROIs de dis- 0.3-20 m y a menos de 50 tintos cuadros y estimar dis- Km/h. Se procesan 12 cuatancia. dros por segundo Calce de contornos de cuerpo completo.. Estéreo, hasta 20 m hacia adelante.. En cascada: detección de movimiento, restriccio- Tres cámaras, una apuntan(Kamijo et nes geométricas, bordes do hacia el frente y dos con al., 2010) verticales y horizontales, ángulo hacia cada lado. texturas. Consideran dos detecciones correctas cuando una ROI Comparación entre color e (Krotosky y encierra a dos personas infrarrojo para un sistema Trivedi, 2007) juntas. Mejores resultados estéreo. en color.. (Munder et al., 2008). Detección por forma, textura y profundidad de bordes. Comparación con modelos 2D.. Estéreo. Dos videos de 27 y 24 minutos. Rango de 10-25 m hacia adelante y 4 m hacia cada lado. 2 falsas alarmas cada 1000 cuadros.. (Nedevschi, Bota, y Tomiuc, 2009) Infrarrojo. Detección de objetos 3D, bordes 2D y calce de patrones.. Estéreo. Hasta 20 m. Escenario complejo, 1500 cuadros procesados.. 86. 6.9. Capturas nocturnas. Sistema monocular.. 95.85. 8.65. Capturas nocturnas. Infrarrojo cercano. Rango de 2080 m hacia adelante.. 93. 2.6. (Sun, Wang, y Puntos Clave de intensidad Wang, 2011) para seleccionar candidatos. Clasificación con Haar. Candidatos usando intensi(Ge, Luo, y dad de lı́neas horizontales. Tei, 2009) Clasificación con Haar y HoG.. 4.

(16) 1.3. Método Propuesto La presente tesis propone un procedimiento para tratar la primera etapa de la detección de peatones, esto es, la selección de regiones interés, candidatas a ser efectivamente un peatón. Inicialmente se estima el movimiento que experimenta el vehı́culo entre cada cuadro de la secuencia de video. Al tomar dos cuadros distintos se puede simular dos cámaras en distintas posiciones. Con este sistema simulado de dos vistas, se puede reconstruir parte de la escena observada, es decir, obtener información de posición en el espacio de un subconjunto de los puntos que aparecen en las imagenes. Una vez obtenido un conjunto de puntos del entorno, se filtran aquellos que se encuentran fuera de la zona donde comunmente es esperable encontrar a un peatones, por ejemplo, puntos que se encuentran a más de 2 metros de altura. Se ubican candidatos a ser peatón en las zonas donde se concentre una cantidad importante de los puntos seleccionados anteriormente.. 1.4. Hipótesis Es posible obtener simultáneamente información de distancias a puntos en la escena y deducir el movimiento propio de un vehı́culo, empleando secuencias de video monoculares capturadas desde el vehı́culo durante su desplazamiento, utilizando métodos de flujo óptico. Además, la información de disntancias a puntos en la escena debiera permitir discernir aquellas zonas donde potencialmente se encuentran objetos o personas con los cuales el vehı́culo podrı́a colisionar. Combinando la información de distancias y de desplazamiento propio del vehı́culo deberı́a ser posible mejorar los sistemas actuales de alerta al conductor ante peligros de colisión inminente.. 1.5. Resumen de Contribuciones Las principales contribuciones de este trabajo son: el desarrollo, implementación y prueba de un método de selección de regiones candidatas a ser peatones, utilizando únicamente reconstrucción tridimensional no 5.

(17) densa, es decir, la estimación de la posición espacial de solo algunos puntos del entorno, a partir de un sistema monocular. la implementación y prueba de un método monocular para la estimación del movimiento propio (ego-motion) y la reconstrucción local de las trayectorias recorridas por el vehı́culo. la elaboración de una métrica para evaluar desempeño del sistema de detección de regiones candidatas la cual mide el tiempo de duración de los periodos sin cobertura del 100 %. elaboración de secuencias para evaluar los métodos desarrollados, incluyendo el etiquetado de peatones en capturas de video en ambientes de tráfico urbano reales. 1.6. Organización del Documento Luego de este primer capı́tulo, en el capı́tulo capı́tulo 2 se detalla el desarrollo de la solución propuesta para reconstruir el entorno y seleccionar candidatos. En el capı́tulo capı́tulo 3 se discuten las simulaciones que validan el modelo encontrado. En el capı́tulo 4 se presenta la forma en que se realizaron los experimentos para obtener los datos utilizados en esta tesis. Los resultados obtenidos a partir de estos datos están en el capı́tulo 5. Finalmente en el capı́tulo 6 se presentan las conclusiones y posibles proyecciones para trabajos futuros.. 6.

(18) 2. METODO PROPUESTO. Para estimar el avance del vehı́culo y la ubicación de puntos en el entorno se necesita encontrar puntos de dos cuadros distintos que correspondan al mismo punto 3D. Para buscar estas correspondencias se utiliza el método de flujo óptico (Lucas y Kanade, 1981), explicado a continuación.. 2.1. Estimación de Información 3D 2.1.1. Flujo Optico Sea (x, y) la proyección sobre el cuadro k (instante t) de un punto M en el espacio y (x + u, y + v) la proyección de M sobre el siguiente cuadro k + 1 (instante t + ∆t). Luego, para un cuadro k se define el flujo óptico para el punto (x, y) como d : (x, y) ∈ R2 → (u, v) ∈ R2 . Si se asume que la vecindad del punto solo sufre un desplazamiento. F IGURA 2.1. Del cuadro k al k + 1, el punto se desplaza desde ma = [x, y]T a mb = [x + u, y + v]T .. (no cambia su intensidad de un cuadro a otro), la intensidad de un pı́xel m en un cuadro es igual a la intensidad del pı́xel ubicado en la posición m − d del cuadro anterior: I(x,y,t) = I(x−u,y−v,t−∆t) . 7.

(19) Si se asume que el gradiente de la imagen es constante dentro de la zona de movimiento del punto, se puede calcular la intensidad del pı́xel m a partir de la intensidad del pı́xel m − d: I(x,y,t−∆t) = I(x−u,y−v,t−∆t) + ∇I(x,y,t−∆t) · d donde. .  ∇I(x,y,t) =. ∂I(x,y,t)  ∂x  ∂I(x,y,t) ∂y.   Ix(x,y,t)  :=  Iy (x,y,t). Se define el gradiente de intensidad respecto al tiempo: It(x,y,t) =. ∂I(x,y,t) = I(x,y,t) − I(x,y,t−∆t) ∂t. Lo que permite llegar a la ecuación que relaciona las condiciones locales de intensidad con el flujo óptico:. − It(x,y,t) = ∇I(x,y,t) · d. (2.1). Se puede observar que (2.1) es una ecuación para las dos componentes (u, v) del vector d de flujo óptico. Como se muestra en la figura 2.2, la intensidad de un punto cambia según la magnitud de la componente del desplazamiento en la dirección del gradiente. La componente del flujo perpendicular al gradiente no se ve reflejada en la ecuación (2.1) y por lo tanto no entrega información en esa dirección. Bajo el supuesto de que la variación de d es despreciable entre pı́xeles vecinos, se puede plantear el problema en (2.1) para el vecindario de puntos como: . . . . Ix(m1 ,t) Iy (m1 ,t)    −It(m1 ,t)      Ix(m2 ,t) Iy (m2 ,t)  u −It(m2 ,t)     =   ..  ..  ..    .   .  v .     Ix(mn ,t) Iy (mn ,t) −It(mn ,t). (2.2). 8.

(20) F IGURA 2.2. La intensidad cambia según la magnitud de la componente del desplazamiento en la dirección del gradiente.. Al aumentar el tamaño n de la vecindad aumentan las posibilidades de que el sistema tenga solución, pero disminuye la validez de los supuestos. 2.1.1.1. Puntos Salientes Ya que el modelo de estimación no requiere un flujo denso, en cada imagen se buscan puntos salientes, puntos de un cuadro que destaquen lo suficiente para ser reconocidos en el cuadro siguiente. A diferencia de los puntos ubicados en zonas lisas o bordes, que son fácilmente confundibles con sus vecinos, las intersecciones de dos bordes tienen suficiente información en su vecindad para el seguimiento cuadro a cuadro. Se eligen estos puntos “esquina”, aquellos que tienen un fuerte gradiente en dos direcciones distintas dentro una vecindad pequeña. En la práctica, según (Shi y Tomasi, 1994), esto se produce cuando los dos valores propios de la matriz hessiana en el punto “esquina” superan un umbral (si tiene solo un valor propio alto, es un borde; si los dos son bajos, es una región lisa).  H(x,y) =. ∂ 2 Ix,y 2  ∂x ∂ 2 Ix,y ∂y∂x. . ∂ 2 Ix,y ∂x∂y  ∂ 2 Ix,y ∂y 2. Valores altos en dos de los valores propios de H(x,y) aseguran que el sistema (2.2) tenga pseudoinversa. 9.

(21) 2.1.1.2. Matriz Fundamental A partir de los puntos obtenidos con el flujo óptico se calcula la matriz fundamental F entre las dos vistas usando RANSAC (Fischler y Bolles, 1981). Esta matriz relaciona los puntos correspondientes de dos vistas:   h i mk mk−1 T 1 F   = 0 1. (2.3). La condición (2.3) se cumple solo en puntos cuyo flujo óptico sea coherente con el movimiento de la cámara, lo que permite filtrar los puntos mal relacionados y puntos de objetos en movimiento. Se obtiene entonces un conjunto de puntos correspondientes que son proyección de puntos estáticos o puntos cuyo desplazamiento es muy bajo respecto al del vehı́culo, como es el caso de los peatones.. 2.1.2. Reconstrucción y Estimación de Avance Se utiliza la geometrı́a que relaciona los puntos correspondientes para encontrar los puntos en el espacio y el movimiento del vehı́culo. Los puntos en la escena en coordenadas de la cámara MC ∈ R3 están relacionados a los puntos proyectados en la cámara m ∈ R2 de acuerdo a: λm̂ = PM̂C donde M̂C y m̂ corresponden a MC y m escritos en coordenadas homogéneas, es decir:   C M  M̂C =  1   m m̂ =   1 10.

(22) y donde P es la matriz de proyección estándar para el modelo pinhole, definida según:   fα 0 x0 0  x    P =  0 f αy y0 0 (2.4)   0 0 1 0 En (2.4) f es la distancia focal de la cámara, αx y αy la cantidad de pı́xeles del CCD por unidad de distancia en cada uno de los ejes, y x0 e y0 son las coordenadas del pı́xel correspondiente a la proyección de los puntos ubicados en el eje óptico: MC = [0, 0, Z]T . Estos cinco parámetros se obtienen de la calibración intrı́nseca de la cámara. La figura 2.3 muestra los ejes de referencia de los puntos MC :. F IGURA 2.3. El eje ZC del sistema de coordenadas de la cámara coincide con su eje óptico.. Ya que una cámara puede ser montada en distintas configuraciones, se define un sisteV. ma de referencia solidario al vehı́culo, donde el plano XY corresponde al suelo, el origen es la proyección de la posición de la cámara en este plano, YV apunta en la dirección de avance del veı́culo y ZV es la altura. Este sistema, además de ser independiente del montaje de la cámara, es más intuitivo y de fácil manejo. Para proyectar puntos referidos a sistemas distintos al de la cámara se utiliza una matriz de cambio de coordenadas. Esta matriz tiene la siguiente estructura:   R(θx ,θy ,θz ) T(dx ,dy ,dz )  S= 0 1 11.

(23) donde R es la matriz de rotación y T es el vector de desplazamiento. La definición de esta matriz varı́a dependiendo del orden de rotación y la definición de ángulos y distancias. En este caso se asume una rotación primero en Z, luego en Y, y finalmente en X.. R(θx ,θy ,θz ) = R(θx ,0,0) R(0,θy ,0) R(0,0,θz ). (2.5). de modo que. . c(θy )c(θz ). c(θy )s(θz ). −s(θy ). −dx. .   s(θ )s(θ )c(θ ) − c(θ )s(θ ) s(θ )s(θ )s(θ ) + c(θ )c(θ ) s(θ )c(θ ) −d  y z x z x y z x z x y y  x S=  c(θx )s(θy )c(θz ) + s(θx )s(θz ) c(θx )s(θy )s(θz ) − s(θx )c(θz ) c(θx )c(θy ) −dz    0 0 0 1 con s(θ) := sen(θ) y c(θ) := cos(θ). A partir de la transformación (2.5) se define SV,C como la matriz de cambio de coordenadas desde el sistema del vehı́culo al de la cámara (figura 2.4).. F IGURA 2.4. El sistema de referencia del vehı́culo se encuentra en el suelo, bajo la cámara.. 12.

(24) Dado que la cámara se mueve solidariamente con vehı́culo, la transformación entre estos dos sistemas será constante cuadro a cuadro: V,C SV,C = SV,C k k+1 = S V,C V,C V,C Los parámetros que componen SV,C , [θV,C , dV,C ] = (θX , θYV,C , θZV,C , dV,C X , dY , dZ ) se. obtienen de la calibración extrı́nseca. Se define la matriz A := PSV,C que resume el proceso de cambio de coordenadas y proyección de los puntos referidos al sistema del vehı́culo (MV ):. λm̂ = AM̂V Para establecer una relación entre las proyecciones mk y mk−1 se debe encontrar la matriz de transformación Sk := SVk ,Vk−1 desde el sistema de coordenadas del instante k al de k − 1, como indica la figura 2.5.. F IGURA 2.5. La matriz de transformación Sk permite referir dos cuadros consecutivos a un mismo sistema de coordenadas.. De esta forma se expresan ambas proyecciones respecto a un solo sistema: 13.

(25) λk m̂k = AM̂Vk. (2.6). λk−1 m̂k−1 = AM̂Vk−1 = ASk M̂Vk. (2.7). Se definen dos matrices a partir de la matriz A:. A1−3 := A:,1:3 A4 := A:,4 La matriz A1−3 contiene las tres primeras columnas de A y A4 , la cuarta columna. De esta forma se encuentra una estimación de MVk a partir de (2.6).. λk m̂k = AM̂Vk = A1−3 MVk + A4. M̃Vk = A1−3 −1 (λk m̂k − A4 ). (2.8). Finalmente se reemplaza (2.8) en (2.7). λk−1 m̂k−1.   V M̃k  = ASk  1. (2.9). Con al menos seis puntos correspondientes, se puede construir un sistema de ecuaciones en base a (2.9) para estimar los seis parámetros de Sk y el conjunto de escalares λ que determinan los puntos MV . El sistema se resuelve minimizando la diferencia entre los puntos mk−1 obtenidos con el flujo óptico y los puntos m̃k−1 obtenidos mediante la proeyección de los puntos M̃Vk estimados a partir de respectivos λk y la transformación S̃k dependiente de θk y dk . Para. 14.

(26) esto se fefine el vector auxiliar w: . .   w  1 V M̃k    w = w2  = AS̃k    1 w3 luego m̃k−1.   1 w1  = w3 w2. Finalmente se busca el vector de rotaciones θk , el vector desplazamiento dk y el conjunto de escalares Lk = [λ1k. λ2k . . . λnk ] (con n el número de puntos correspondientes), que. minimicen el error cuadrático total entre los puntos observados mik−1 y estimados m̂ik−1 :. (θk∗ , d∗k , L∗k ) = arg. mı́n (θk ,dk ,Lk ). n X. m̂ik−1 − mik−1. 2. i=1. El conjunto Lk debe ser un parámetro en la minimización ya que no puede ser calculado a partir de los valores tentativos de θk y dk que se generan en los pasos intermedios del proceso. Estos valores, a diferencia de los valores óptimos, generan sistemas de vistas donde mk y mk−1 no son correspondientes al mismo punto en el espacio.. 2.1.2.1. Escala Debido a que las imágenes no entregan referencias de distancias reales, el sistema descrito en la sección anterior posee infinitas soluciones. Si se tiene un desplazamiento, rotación y escalares [θk solución [αθk. dk. dk. Lk ] que son solución del sistema (2.9), habrá también una. αLk ]. Para obtener la posición real de cada elemento en la escena se. restringió la ubicación de los puntos MV a Z ≥ 0. Si la altura de la cámara es fija y el V. suelo coincide con el plano XY , es decir, no presenta curvatura importante, el mayor valor factible de α (el que mantiene todos los puntos dentro de la restricción, esto es, que ningún punto se encuentre bajo el suelo) es el que entrega la posición correcta de los puntos. 15.

(27) 2.1.3. Selección de Regiones de Interés Una vez determinada la información 3D, se toman los puntos dentro del espacio de búsqueda de peatones. Este se ubica frente al vehı́culo hasta 40 m de distancia, desde 0 a 2 m de altura y 7 m a cada lado de la cámara. Para evitar generar distintas ROI a partir de puntos de un mismo peatón, se agrupan V. puntos de acuerdo a su cercanı́a en el plano XY . Las coordenadas X e Y de cada punto del espacio de búsqueda son reemplazadas por el promedio de las coordenadas X e Y de sus puntos vecinos, aquellos que se encuentran a una distancia menor a un umbral determinado. Esto produce un desplazamiento de cada punto en la dirección de mayor cantidad de vecinos, disminuyendo la distancia entre puntos de un mismo objeto. Después de este proceso se agrupan los puntos cuyas posiciones promediadas están a una distancia inferior a 1 m, distancia máxima esperada entre puntos de un peatón. Para cada grupo encontrado V. se agrega un rectángulo en un plano paralelo a XZ , de 1 m de ancho y 2 m de alto, consistente con el criterio de distancia entre puntos de un peatón. Los rectángulos son ubicadas V. con su base a altura 0 m, en la posición XY del centroide del grupo. La proyección en la cámara de cada rectángulo se considerada una región candidata a peatón (figura 2.6).. F IGURA 2.6. Se ubica un rectángulo paralelo al plano XZ en el marco de referencia del vehı́culo.. 16.

(28) 2.1.4. Información Histórica Ya que el espacio de búsqueda de peatones se visualiza en distintos cuadros, al seleccionar regiones candidatas en un instante se puede usar información de instantes anteriores utilizando las transformaciones de coordenadas S para referir puntos encontrados anteriormente al sistema actual. En un cuadro se tienen los puntos MVk k , pero se puede utilizar V. k−1 k y en general cualquier punto estimado p cuadros atrás = Sk −1 Mk−1 además los MVk−1. V. k−p k MVk−p = Sk −1 Sk−1 −1 . . . Sk−p+1 −1 Mk−p que se encuentre dentro de la zona de búsqueda.. Existe un lı́mite práctico ya que a medida que aumenta n se toman puntos cada vez más lejos de la cámara, estimados con menor precisión. El contar con más versiones de los mismos datos tiene dos principales ventajas: (a) se detectan los peatones que no se logran reconocer en un cuadro, pero sı́ en sus cuadros vecinos (ya que la reconstrucción no es densa, pueden haber cuadros donde un peatón no tiene puntos salientes) y (b) se descartan regiones con baja aparición histórica, evitando falsos positivos por ruido.. 17.

(29) 3. ANALISIS Y SIMULACIONES. Para verificar la validez de las ecuaciones encontradas y evaluar la capacidad del modelo de estimación de movimiento y reconstrucción de escena, se construyó un ambiente controlado y simplificado a través de una simulación. Al conocer el resultado al que debe llegar el modelo se puede medir con precisión su desempeño. 3.1. Condiciones de Simulación 3.1.1. Entorno Al considerar que para el modelo una escena es un conjunto de puntos, se diseñó un ambiente a partir de 190 puntos, de los cuales 170 se distribuyen en un rectángulo de altura 0 m y dimensiones 32 m x 37 m, que conforma el suelo del ambiente simulado. Los puntos restantes se dividen en grupos de cinco ubicados dentro de espacios con dimensiones similares a las que ocupa un peatón. 3.1.2. Trayectoria Dentro de la escena se definió una secuencia de movimiento para la cámara de 82 cuadros a 30 fps, compuesto de un desplazamiento y una rotación. La cámara avanza durante todo el recorrido a velocidad constante de 0.5 m/s en el eje Y (hacia donde apunta la cámara) y adicionalmente se gira en el eje Z con perfil trapezoidal entre los cuadros 40 y 69 para obtener un viraje de 90◦ . Esto produce una trayectoria inicialmente en lı́nea recta (primeros 39 cuadros), seguida de una curva hacia la izquierda de 29 cuadros de duración, para terminar con 14 cuadros en lı́nea recta. 3.2. Resultados Al estar definidos los puntos 3D, los parámetros de la cámara y el movimiento, se utiliza la ecuación (2.6) para obtener la proyección de la escena en cada cuadro. En base a estas proyecciones el modelo estima el movimiento de la cámara y la ubicación 3D de los puntos. 18.

(30) Como se observa en la figura 3.1, el sistema converge a la trayectoria real (en rojo). El error promedio en la estimación de la ubicación de cada punto 3D es inferior a los 0.13 m.. F IGURA 3.1. Trayectoria estimada (azul) junto a la real (rojo).. Ya que en imágenes reales no se tienen las proyecciones con absoluta precisión, se analizó la sensibilidad del sistema ante variaciones de entrada en dos casos: (a) redondeo al entero más cercano, imitando la discretización que producen los pı́xeles (figura 3.2) y (b) adición de ruido gaussiano de media 0 y distintos valores de desviación estándar: 1, 2, 4 y 8 pı́xeles (figura 3.3).. F IGURA 3.2. A pesar de la pérdida de precisión en los datos, se logra reproducir correctamente la trayectoria.. Al aproximar al entero más cercano se pierde información y el error promedio en la estimación de los puntos de la escena aumenta a 0.72 m. A pesar de que el error aumenta 19.

(31) aproximadamente seis veces, es bajo para el ambiente de trabajo (distancias de hasta 50 m).. F IGURA 3.3. A la proyección ideal de la escena se le agrega ruido de distribución normal con media 0 y desviación estándar 1 (a), 2 (b), 4 (c) y 8 (d).. Al incorporar ruido se obtienen errores promedio de 2.42, 4.30, 6.44 y 7.66 m para valores de desviación estándar igual a 1, 2, 4 y 8 pı́xeles respectivamente. La magnitud de estos errores, además de sobrepasar varias veces el tamaño de un peatón (error grave de ubicación), produce que puntos de un mismo peatón se distancien lo suficiente como para ser interpretados como dos personas distintas, aumentando la cantidad de falsas detecciones. La tabla 3.1 resume los resultados de la selección de regiones candidatas en cada una de las condiciones abordadas. Se considera una detección correcta cuando el ancho y alto 20.

(32) TABLA 3.1. Resumen del desempeño del sistema ante redondeo y ruido en la entrada. Set de Prueba Proyecciones ideales Redondeo al entero más cercano Ruido gaussiano de media 0 Desviación estándar 1 Desviación estándar 2 Desviación estándar 4 Desviación estándar 8. Tasa Detección [ %] 85.7 84.5. Total Falsas Alarmas 8 13. Error Promedio [m] 0.70 0.93. 63.8 35.6 21.5 14.6. 63 78 63 55. 1.51 1.67 1.76 1.68. de la intersección entre la región peatón y la región candidata superan al 40 % del ancho y alto del candidato y al 70 % del ancho y alto del peatón. Se puede observar que en el caso ideal solo se detecta un 85.7 % de los peatones. Esto se debe a la oclusión que sufren los peatones en el borde de la imagen al “entrar” o “salir” del cuadro. Producto de la disminución del área visible del peatón, no se logra el matching adecuado con los candidatos. Estos casos no fueron considerados en los experimentos reales ya que no son representativos del rendimiento del sistema. Se observa tembién que el truncar los datos no afecta de manera importante la detección, es decir, a la resolución de trabajo la pérdida de información no es significativa. Al aplicar ruido, en cambio, el rendimiento baja considerablemente. Esto se debe a que los puntos dejan de ser correspondientes y por lo tanto las ecuaciones descritas en la sección 2.1 pierden validez. Este problema se reduce en la práctica al realizar un proceso de filtrado con la matriz fundamental.. 21.

(33) 4. IMPLEMENTACION Y METODOLOGIA. 4.1. Ensayos Para evaluar el desmpeño del sistema en casos reales, se utilizaron secuencias de imágenes tomadas desde un vehı́culo en movimiento. Con una cámara montada sobre una estructura ubicada en el techo de un automóvil comercial se logró capturar una conducción real por calles urbanas, principalmente residenciales. Se utilizó una cámara Imaging Source modelo DFK 31BF03. Se realizaron capturas en color a 30 cuadros por segundo y resolución de 720x480 pı́xeles. A pesar que se capturó con color, se transformó la data a blanco y negro al inicio del proceso. Se obtuvieron nueve secuencias de imágenes cuyas caracterı́sticas se detallan en la tabla 4.1. Se define un umbral igual a 1 vehı́culo en movimiento cada 5 segundos como referencia a las condiciones de tráfico: una cantidad inferior de automóviles en movimiento corresponde a tráfico bajo y una cantidad igual o superior, a tráfico alto. Los escenarios registrados abarcan distintos tipos de calles: doble sentido, con bandejón central, con y sin vereda, pasajes; y distintas iluminaciones diurnas (las tomas fueron realizadas en un dı́a soleado entre las 10 de la mañana y las 5 de la tarde). Las secuencias se pueden dividir en dos grupos: controladas y espontáneas. Las primeras fueron realizadas dentro del campus San Joaquı́n de la Pontificia Universidad Católica TABLA 4.1. Detalle de las secuencias utilizadas. Set. 1 2 3 4 5 6 7 8 9. Cuadros. Peatones. Escenas Controladas 1838 1512 1755 2420 Escenas Espontáneas 890 1774 689 809 1192. Cuadros con peatones a menos de 20 m 30 m 40 m. Tráfico. 2 2 2 1. 163 33 20 68. 356 139 43 158. 605 211 147 167. bajo alto bajo bajo. 1 2 2 3 2. 35 50 77 58 175. 90 106 716 118 716. 134 106 716 218 716. bajo bajo bajo alto bajo. 22.

(34) de Chile, con voluntarios actuando de peatones interpretando movimientos tipo: de pie a un lado del camino (simulando que esperan cruzar), cruzando de un lado a otro y avanzando en paralelo al auto por el borde de la calle, tanto en el sentido de avance del vehı́culo como en contra de este. El siguiente grupo corresponde a capturas espontáneas realizadas en calles públicas con peatones anónimos, donde se observan los mismos comportamientos que en las personas del primer grupo. Ambos grupos registran las principales dificultades para la estimación de avance, tales como la presencia de otros vehı́culos moviéndose a velocidades importantes, curvas y resaltos (figura 4.1). Además, contienen los elementos comúnmente presentes en las vı́as de tránsito que comparten el espacio con los peatones y por lo tanto son potenciales falsas detecciones, tales como postes, árboles, autos estacionados, señalética y conos.. F IGURA 4.1. Principales problemas: vehı́culos a gran velocidad, elementos que comparten el espacio de los peatones, resaltos que producen diferencias entre el suelo del plano XY, vehı́culos que cubren gran parte de la imagen.. Después del recorrido, y sin alterar la configuración de la cámara, se realizó una captura con el vehı́culo estacionado y un plano calibrador, como muestra la figura 4.2. De esta forma se pudo estimar los parámetros de la cámara y la ubicación de esta respecto al suelo (matriz A en la ecuación (2.6)). 23.

(35) F IGURA 4.2. Plano calibrador para estimar parámetros intrı́nsecos y marcas en el suelo para estimar los extrı́nsecos.. 4.2. Indices de Desempeño 4.2.1. Selección de Regiones Para evaluar la detección de peatones se identificaron manualmente los peatones presentes, marcando el rectángulo de menor área que contenga totalmente a este (figura 4.3).. F IGURA 4.3. Se marcó manualmente los peatones presentes.. A diferencia de las regiones candidatas, las regiones que contienen a los peatones presentan variadas dimensiones debido a la diversidad de tamaño de las personas y las posturas 24.

(36) que adoptan (figura 4.4). Al evaluar la calidad del matching entre un candidato y un peatón, la región candidata debe cubrir la mayor parte del peatón, pero el tamaño del peatón puede ser menor a esta. Se considera una detección correcta si tanto el ancho como el alto de la intersección entre las dos regiones superan al 40 % del ancho y alto del candidato y al 70 % del ancho y alto del peatón.. F IGURA 4.4. Las dimensiones de la región que contiene a un peatón pueden presentar variaciones mayores al 100 % en pocos cuadros.. 25.

(37) 5. RESULTADOS EXPERIMENTALES. 5.1. Trayectoria Se reconstruyen las trayectorias recorridas por el vehı́culo referenciando el vector origen del sistema de cada instante, 0̂k = [0. 0. 0. 1]T en coordenadas homogéneas, al sis-. tema de referencia inicial del recorrido con origen en 0̂0 . Para cualquier vector homogéneo MVk referido al sistema de coordenadas del instante k, la transformación de dicho vector al sistema de referencia inicial se obtiene mediante la aplicación de las matrices de transformación S según: MVk 0 = S1 S2 . . . Sk−1 Sk MVk k A diferencia de la recontrucción de escena en cada instante, que utiliza solo la información de los últimos cuadros, la estimación de cada punto de la trayectoria acumula los errores producidos en todos los instantes anteriores. Se puede observar el problema en la secuencia 1 de la figura 5.1, que presenta errores significativos dentro de las curvas en “U”. La secuencia 4 y 6 en cambio, sufren solo distorsiones menores, mostrando una correcta estimación en cada cuadro.. F IGURA 5.1. Imagen satelital de los trayectos recorridos en las secuencias 1, 4 y 6 junto a lo estimado por el modelo propuesto.. 26.

(38) TABLA 5.1. Comparación de los resultados de detección con y sin incluir información histórica.. menos de 20 m Información FP Histórica DR [ %] 89.3 12.6 Sı́ No 60.1 2.3. menos de 30 m DR [ %] FP 88.3 25.7 58.3 4.5. menos de 40 m DR [ %] FP 81.1 36.0 50.4 5.7. 5.2. Selección de Regiones de Interés A continuación se presentan resultados obtenidos utilizando el modelo de selección de regiones candidatas sobre las secuencias disponibles (tabla 4.1). 5.2.1. Información Histórica En la tabla 5.1 se presentan dos pruebas realizadas a toda la data (las nueve secuencias). En la primera se seleccionan regiones utilizando solo la información del cuadro respectivo, en la segunda se usa además la información de los 10 cuadros anteriores. Al aumentar la cantidad de puntos aumentan en la misma medida los falsos positivos, pero se produce también un aumento significativo en las detecciones correctas. 5.2.2. Filtro de Regiones por Número de Puntos que las Constituyen Para evitar seleccionar ROI formadas a partir de puntos ruidosos, se descartan las regiones asociadas a un grupo con una cantidad de puntos inferior a un umbral. La figura 5.2 muestra tasas de detección (DR) respecto a falsos positivos (FP) obtenidos al fijar umbrales desde 1 hasta 10 peatones por grupo. Se observa que a mayor distancia de detección, además de bajar el rendimiento, se agrega una mayor cantidad de FP al aumentar la tasa de detección en la misma medida. Se muestra en rojo la evaluación a distancias entre el vehı́culo y el peatón inferiores a 20 m, en verde, a distancias inferiores a 30 m y en azul, inferiores a 40 m. 5.2.3. Tiempo Falla en la Detección Además de la tasa de detección, es importante para evaluar el desempeño del sistema conocer la cantidad de cuadros que dura una falla del sistema, es decir, cuánto tiempo pasa 27.

(39) F IGURA 5.2. Rendimiento del sistema de detección utilizando distintas exigencias a la cantidad de puntos que forma una región candidata.. entre estados de detección 100 %. Esta medida indica qué tan grave es cada no-detección de un peatón. En la figura figura 5.3 se muestra el porcentaje de casos en los en que la falla (periodo sin detección del 100 % de los peatones) dura menos que una cierta cantidad de cuadros. Se espera que todas las fallas duren pocos cuadros, es decir, que la curva alcance rápidamente 100 %. Se muestra en rojo la evaluación de la métrica al buscar peatones a distancias entre el vehı́culo y el peatón inferiores a 20 m, en verde, a distancias inferiores a 30 m y en azul, inferiores a 40 m. Un 88.2 % de casos a 20 m, 73.5 % a 30 m y 58 % a 40 m tienen duración de hasta 15 cuadros, equivalente a 6.9 m recorridos a una velocidad de 50 km/h.. 5.2.4. Desempeño de las Secuencias Utilizadas En la tabla 5.2 se muestran los resultados del proceso de selección para cada secuencia utilizada. Se eliminaron las regiones conformadas por tres o menos puntos. En la búsqueda de peatones a menos de 20 m se logran tasas de detección hasta del 100 % y menos de 5 FP por cuadro. 28.

(40) F IGURA 5.3. Porcentaje de casos en los que la falla dura menos que una cierta cantidad de cuadros. TABLA 5.2. Desempeño del sistema por secuencia.. Set 1 2 3 4 5 6 7 8 9 Promedio para el total de sets. menos de 20 m DR [ %] FP 97.6 9.8 88.8 7.3 75.0 6.2 80.9 5.8 94.3 19.0 86.0 10.8 92.0 10.8 79.3 13.4 59.5 12.8 86.6 10.3. menos de 30 m DR [ %] FP 82.6 17.0 74.8 13.2 86.1 10.8 15.3 74.7 39.6 87.8 94.3 31.5 93.0 23.1 92.4 32.8 29.3 58.0 82.9 20.3. menos de 40 m DR [ %] FP 75.5 21.5 61.6 16.3 83.7 13.5 70.7 18.1 82.1 55.2 97.2 46.7 93.8 33.4 86.7 46.6 37.0 40.2 76.2 30.0. En general se obtuvo resultados más bajos en las secuencias donde aparecen peatones cruzando la calle (secuencias 6 y 9). En estos casos el conductor reduce la velocidad y además la proyección del peatón se mueve más rápido por la imagen (movimiento perpendicular al eje óptico).. 29.

(41) 6. CONCLUSIONES Y TRABAJO FUTURO. 6.1. Revisión de los Resultados y Comentarios Generales Se implementó un modelo de reconstrucción 3D de puntos salientes y estimación de movimiento propio usando visión monocular en movimiento, con el fin de identificar objetos en el camino y seleccionar regiones con posibilidad de ser un peatón. Además de la información de la escena que se obtiene en cada imagen se logró combinar distintas observaciones del mismo espacio, correspondientes a estimaciones de cuadros anteriores. Esto produjo un aumento en la cantidad de datos disponibles de un espacio en un instante determinado, con lo que se consigue mejorar significativamente la detección y además se logra descartar con mayor facilidad puntos que aparecen en cuadros determinados producto del ruido. El sistema obtuvo buenos resultados en conducción real dentro de ambientes urbanos, junto a distintos elementos del tránsito: vehı́culos detenidos y en movimiento, señalética, postes, follaje, resaltos, etc. Se demostró que además de obtener importantes tasas de detección, se logran en general tiempos breves sin 100 % de detección, es decir, no se pierde de vista un peatón por periodos prolongados. Además de lo anterior, la totalidad de los peatones tratados son detectados al menos una vez en el rango de 30 a 40 m. El sistema detecta, junto con los peatones, otros objetos presentes. Estas selecciones se consideran falsos positivos e influyen negativamente en el rendimiento del sistema, pero también corresponden a información de utilidad en sistemas para evitar otro tipo de colisiones. Se obtuvieron también buenos resultados en la estimación de movimiento del vehı́culo, que permiten referir puntos entre cuadros cercanos y reconstruir con precisión trayectorias de cientos de metros de longitud. Esta información también es de utilidad en alertas de posibles desvı́os involuntarios de la ruta.. 30.

(42) 6.2. Proyecciones de Investigación Futura Se puede completar el sistema de detección utilizando un clasificador de personas sobre el resultado del selector de ROI. Esta etapa produce una mejor estimación del peatón que permite realizar un seguimiento cuadro a cuadro y estimar su movimiento. De esta forma se puede identificar de mejor forma qué peatones corresponden a un riesgo para la conducción y cuáles se mantendrı́an fuera del rango de alcance. Para este estudio se consideraron los puntos 3D dentro de una zona especı́fica, escogiendo regiones que tengan puntos coherentes con un peatón. Es interesante también el estudio de los puntos fuera de esta zona y en general de los puntos descartados en el proceso, ya que son un indicador de dónde no debe haber peatones.. 31.

(43) BIBLIOGRAFIA. Alonso, I., Llorca, D., Sotelo, M., Bergasa, L., Toro, P. R. de, Nuevo, J., y cols. (2007, June). Combination of feature extraction methods for svm pedestrian detection. Intelligent Transportation Systems, IEEE Transactions on, 8(2), 292-307. Cao, T. P., Deng, G., y Mulligan, D. (2008, Nov.). Implementation of real-time pedestrian detection on FPGA. En Image and Vision Computing New Zealand, 2008. IVCNZ 2008. 23rd International Conference on (p. 1-6). Dalal, N., y Triggs, B. (2005, June). Histograms of oriented gradients for human detection. En Computer vision and pattern recognition, 2005. cvpr 2005. ieee computer society conference on (Vol. 1, p. 886-893 vol. 1). Dollar, P., Wojek, C., Schiele, B., y Perona, P. (2012, april). Pedestrian detection: An evaluation of the state of the art. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 34(4), 743 -761. Enzweiler, M., Kanter, P., y Gavrila, D. (2008, June). Monocular pedestrian recognition using motion parallax. En Intelligent Vehicles Symposium, 2008 IEEE (p. 792797). Fardi, B., Seifert, I., Wanielik, G., y Gayko, J. (2006, 0-0). Motion-based pedestrian recognition from a moving vehicle. En Intelligent Vehicles Symposium, 2006 IEEE (p. 219-224). Fischler, M., y Bolles, R. (1981). Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6), 381–395.. 32.

(44) Ge, J., Luo, Y., y Tei, G. (2009, june). Real-time pedestrian detection and tracking at nighttime for driver-assistance systems. Intelligent Transportation Systems, IEEE Transactions on, 10(2), 283 -298. Giosan, I., Nedevschi, S., y Bota, S. (2009, aug.). Real time stereo vision based pedestrian detection using full body contours. En Intelligent Computer Communication and Processing, 2009. ICCP 2009. IEEE 5th International Conference (p. 79 -86). INE. (2010, Dec). Anuario de Carabineros 2010. Disponible en http://www .ine.cl/canales/chile estadistico/estadisticas sociales culturales/policiales/carabineros/carabineros.php. (Ins-. tituto Nacional de Estadı́sticas: Subdirección de Operaciones, Subdepartamento Estadı́sticas Registros Administrativos y Sociales) Kamijo, S., Fujimura, K., y Shibayama, Y. (2010, june). Pedestrian detection algorithm for on-board cameras of multi view angles. En Intelligent Vehicles Symposium (IV), 2010 IEEE (p. 973 -980). Krotosky, S., y Trivedi, M. (2007, June). A comparison of color and infrared stereo approaches to pedestrian detection. En Intelligent Vehicles Symposium, 2007 IEEE (p. 81-86). Lombardi, P., y Zavidovique, B. (2004, June). A context-dependent vision system for pedestrian detection. En Intelligent Vehicles Symposium, 2004 IEEE (p. 578583). Lucas, B., y Kanade, T. (1981). An iterative image registration technique with an application to stereo vision. En International joint conference on artificial intelligence (Vol. 3, p. 3). Ma, G., Muller, D., Park, S.-B., Muller-Schneiders, S., y Kummert, A. (2009, march). Pedestrian detection using a singlemonochrome camera. Intelligent Transport Systems, IET, 3(1), 42 -56. 33.

(45) Munder, S., y Gavrila, D. (2006, Nov.). An experimental study on pedestrian classification. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 28(11), 1863-1868. Munder, S., Schnorr, C., y Gavrila, D. (2008, June). Pedestrian detection and tracking using a mixture of view-based shapetexture models. Intelligent Transportation Systems, IEEE Transactions on, 9(2), 333-343. Nedevschi, S., Bota, S., y Tomiuc, C. (2009, sept.). Stereo-based pedestrian detection for collision-avoidance applications. Intelligent Transportation Systems, IEEE Transactions on, 10(3), 380 -391. Papageorgiou, C., y Poggio, T. (1999). Trainable pedestrian detection. En Image processing, 1999. icip 99. proceedings. 1999 international conference on (Vol. 4, p. 35-39 vol.4). Shi, J., y Tomasi, C. (1994, jun). Good features to track. En Computer Vision and Pattern Recognition, 1994. Proceedings CVPR ’94., 1994 IEEE Computer Society Conference on (p. 593 -600). Sun, H., Wang, C., y Wang, B. (2011, jan.). Night vision pedestrian detection using a forward-looking infrared camera. En Multi-Platform/Multi-Sensor Remote Sensing and Mapping (M2RSM), 2011 International Workshop on (p. 1 -4). Xu, Y., Cao, X., y Qiao, H. (2006, 0-0). A low-cost pedestrian detection system with a single optical camera. En Intelligent Control and Automation, 2006. WCICA 2006. The Sixth World Congress on (Vol. 2, p. 8759-8763).. 34.

(46)