• No se han encontrado resultados

Estimación monocular de movimiento propio y detección de candidatos a peatón desde una plataforma móvil

N/A
N/A
Protected

Academic year: 2020

Share "Estimación monocular de movimiento propio y detección de candidatos a peatón desde una plataforma móvil"

Copied!
45
0
0

Texto completo

(1)PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA. ESTIMACION MONOCULAR DE MOVIMIENTO PROPIO Y DETECCION DE CANDIDATOS A PEATON DESDE UNA PLATAFORMA MOVIL. IGNACIO ZUBIAGUIRRE BERGEN. Tesis presentada a la Dirección de Investigación y Postgrado como parte de los requisitos para optar al grado de Magı́ster en Ciencias de la Ingenierı́a. Profesor Supervisor: MIGUEL TORRES TORRITI. Santiago de Chile, Agosto 2012 c MMXII, I GNACIO Z UBIAGUIRRE B ERGEN.

(2) PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA. ESTIMACION MONOCULAR DE MOVIMIENTO PROPIO Y DETECCION DE CANDIDATOS A PEATON DESDE UNA PLATAFORMA MOVIL. IGNACIO ZUBIAGUIRRE BERGEN. Miembros del Comité: MIGUEL TORRES TORRITI DOMINGO MERY QUIROZ TOMAS ARREDONDO VIDAL JUAN DE DIOS ORTUZAR SALAS Tesis presentada a la Dirección de Investigación y Postgrado como parte de los requisitos para optar al grado de Magı́ster en Ciencias de la Ingenierı́a Santiago de Chile, Agosto 2012 c MMXII, I GNACIO Z UBIAGUIRRE B ERGEN.

(3) Al Pipe.

(4) AGRADECIMIENTOS. Agradezco a Pablo Gutiérrez, Ambrosio Olivos, Jaime Ordenes, Mauricio Palominos, Alan Pino, Felipe Rodillo, Gonzalo Varela y Marcela Zubiaguirre por su ayuda en el etiquetado de imágenes; a Marı́a José Soto-Aguilar, Jaime Ordenes, Juan Quinteros y Felipe Rodillo por su ayuda en la revisión del texto; a Gabriel Villalón por su ayuda en las capturas; a Ignacio Alcaino y Esteban Saavedra por su ayuda en los gráficos y a Sonia Bergen y Esteban Zubiaguirre, los principales patrocinadores de este proyecto.. IV.

(5) INDICE GENERAL. AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. IV. INDICE DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. VII. INDICE DE TABLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. VIII. RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. IX. ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. XI. INTRODUCCION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.1.. Descripción del Problema . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2.. Métodos Existentes para Detectar Peatones Automáticamente . . . . . . .. 2. 1.3.. Método Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.4.. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.5.. Resumen de Contribuciones . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.6.. Organización del Documento . . . . . . . . . . . . . . . . . . . . . . . .. 6. METODO PROPUESTO . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. Estimación de Información 3D . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.1.1.. Flujo Optico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.1.2.. Reconstrucción y Estimación de Avance . . . . . . . . . . . . . . . .. 10. 2.1.3.. Selección de Regiones de Interés . . . . . . . . . . . . . . . . . . . .. 16. 2.1.4.. Información Histórica . . . . . . . . . . . . . . . . . . . . . . . . .. 17. ANALISIS Y SIMULACIONES . . . . . . . . . . . . . . . . . . . . . . . .. 18. Condiciones de Simulación . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 3.1.1.. Entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 3.1.2.. Trayectoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 1.. 2.. 2.1.. 3.. 3.1.. 3.2.. V.

(6) IMPLEMENTACION Y METODOLOGIA . . . . . . . . . . . . . . . . . . .. 22. 4.1.. Ensayos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 4.2.. Indices de Desempeño . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. Selección de Regiones . . . . . . . . . . . . . . . . . . . . . . . . .. 24. RESULTADOS EXPERIMENTALES . . . . . . . . . . . . . . . . . . . . .. 26. 5.1.. Trayectoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. 5.2.. Selección de Regiones de Interés . . . . . . . . . . . . . . . . . . . . . .. 27. 5.2.1.. Información Histórica . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 5.2.2.. Filtro de Regiones por Número de Puntos que las Constituyen . . . . .. 27. 5.2.3.. Tiempo Falla en la Detección . . . . . . . . . . . . . . . . . . . . .. 27. 5.2.4.. Desempeño de las Secuencias Utilizadas . . . . . . . . . . . . . . . .. 28. CONCLUSIONES Y TRABAJO FUTURO . . . . . . . . . . . . . . . . . . .. 30. 6.1.. Revisión de los Resultados y Comentarios Generales . . . . . . . . . . . .. 30. 6.2.. Proyecciones de Investigación Futura . . . . . . . . . . . . . . . . . . . .. 31. BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.. 4.2.1. 5.. 6.. VI.

(7) INDICE DE FIGURAS. 1.1. Distribución de accidentados y fallecidos por tipo de accidente . . . . . . . .. 1. 1.2. Porcentaje de accidentados graves o muertes . . . . . . . . . . . . . . . . .. 2. 2.1. Movimiento de un punto y su vecindad dentro de una imagen . . . . . . . . .. 7. 2.2. Relación entre desplazamiento, gradiente y cambio de intensidad . . . . . . .. 9. 2.3. Sistema de referencia de la cámara . . . . . . . . . . . . . . . . . . . . . . .. 11. 2.4. Sistema de referencia del vehı́culo . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.5. Cambio de coordenadas entre sistemas de cuadros distintos . . . . . . . . . .. 13. 2.6. Regiones de Interés candidatas a peatón . . . . . . . . . . . . . . . . . . . .. 16. 3.1. Trayectoria estimada versus la real usando proyecciones ideales . . . . . . .. 19. 3.2. Trayectoria estimada versus la real usando proyecciones truncadas . . . . . .. 19. 3.3. Trayectoria estimada versus la real usando proyecciones con ruido . . . . . .. 20. 4.1. Principales dificultades presentes en las vı́as . . . . . . . . . . . . . . . . . .. 23. 4.2. Imágenes para calibración . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 4.3. Peatones identificados manualmente . . . . . . . . . . . . . . . . . . . . . .. 24. 4.4. Variaciones de la región que encierra a un peatón . . . . . . . . . . . . . . .. 25. 5.1. Imagen satelital de los trayectos recorridos en las secuencias 1, 4 y 6 junto a lo estimado por el modelo propuesto. . . . . . . . . . . . . . . . . . . . . . . .. 26. 5.2. Rendimiento del sistema de detección utilizando distintas exigencias a la cantidad de puntos que forma una región candidata.. . . . . . . . . . . . . . . . . . .. 28. 5.3. Porcentaje de casos en los que la falla dura menos que una cierta cantidad de cuadros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. VII.

(8) INDICE DE TABLAS. 1.1. Revisión de las técnicas existentes para detección de peatones. . . . . . . . .. 4. 3.1. Resumen del desempeño del sistema ante redondeo y ruido en la entrada. . . .. 21. 4.1. Detalle de las secuencias utilizadas. . . . . . . . . . . . . . . . . . . . . . .. 22. 5.1. Comparación de los resultados de detección con y sin incluir información histórica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 5.2. Desempeño del sistema por secuencia . . . . . . . . . . . . . . . . . . . . .. 29. VIII.

(9) RESUMEN. Los accidentes vehiculares, especialmente los atropellos, cobran muchas vidas todos los años en Chile. Los automóviles ofrecen elementos de protección para sus ocupantes, pero no ası́ para los peatones. Esta investigación busca ofrecer una herramienta para proteger a estos últimos mediante un sistema de alerta de su presencia basado en visión artificial monocular. El método propuesto estima información tridimensional del entorno del vehı́culo, permitiendo identificar objetos por su forma fı́sica en vez de su apariencia en la imagen. Se seleccionan como candidatos a peatones las regiones de la imagen donde se proyectan objetos que tengan ubicación y dimensiones coherentes a las de un peatón. La novedad del método propuesto está en su capacidad de inferir regiones en las cuales pueden encontrarse peatones a partir de la reconstrucción parcial de la escena observada, sin la necesidad de emplear clasificadores de peatones que son computacionalmente costosos. A su vez, la contribución del método es que efectivamente logra entregar áreas de la imagen donde potencialmente existen peatones, reduciendo el espacio de búsqueda para posteriores clasificadores que sean capaces de realizar una etapa de detección refinada. Para evaluar el desempeño del sistema en la práctica, se utilizaron nueve secuencias de imágenes tomadas desde un vehı́culo en movimiento, con un total de 7 minutos y 9 segundos de grabación. Una cámara montada sobre una estructura ubicada en el techo de un automóvil permitió capturar las imagenes correspondientes a una conducción real por calles urbanas, principalmente residenciales. Con el sistema propuesto e implementado en esta investigación, se obtuvo una tasa de detección promedio de peatones de 89 % cuando éstos se encontraban a menos de 20 m de distancia, de 88 % cuando los peatones se ubicaban a menos de 30 m de distancia, y de 81 % cuando los peatones circulaban a una distancia menor a 40 m del vehı́culo.. IX.

(10) Palabras Claves: Detección de Peatones, Vehı́culos Inteligentes, Reconstrucción 3D, Movimiento Propio, Flujo Optico.. X.

(11) ABSTRACT. Vehicular accidents take many lives every year in Chile, especially on run over incidents. Cars offer safety elements for their users, but not so for pedestrians. This investigation aims to offer a tool to avoid run over incidents through a pedestrian presence alert system, based on monocular vision. The method searches for salient points in different frames and finds relations between them through optical flow to estimate their position relative to the vehicle. Obstacles in the way with dimensions similar to those of pedestrians are identified using the position information computed for the salient points. The novelty of the proposed approach is in that it infers regions in which pedestrians may be standing from a non-dense 3D scene reconstruction and the clustering of 3D points. The contribution of the approach is that it effectively returns potencial pedestrian areas in the image, thus reducing the search space on which standard classifiers would carry out a refined detection stage. To evaluate the performance of the system in practice, sequences of images taken from a vehicle in movement were used. With a camera mounted over a structure placed on the roof of a commercial car, actual drive footage was captured from urban streets, mainly residential. An average detection rate of 89 % was obtained on pedestrians at a 20 m range, 88 % for pedestrians at a 30m range and 81 % at a 40 m range.. Keywords: Pedestrian Detection, Inteligent Vehicles, 3-D Scene Reconstruction, Ego-Motion, Optical Flow XI.

(12) 1. INTRODUCCION. 1.1. Descripción del Problema Los accidentes de tránsito son un problema que genera importantes pérdidas tanto humanas como materiales. Según el Instituto Nacional de Estadı́sticas, el año 2010 dejaron 54.559 accidentados en Chile (INE, 2010), los cuales se distribuyen principalmente en cuatro tipos de accidentes: colisión, choques, atropellos y volcaduras. Como se observa en la figura 1.1, a pesar de que el atropello no fue el accidente más recurrente (9.084 accidentados el 2010), es el que tiene mayor tasa de mortalidad (605 de 1.595 el 2010).. F IGURA 1.1. Distribución de accidentados por tipo de accidente (a). Distrubución de fallecidos por tipo de accidente (b).. Por otro lado, como indica la figura 1.2, gran parte de los atropellos tiene consecuencias severas: a diferencia de otros accidentes, involucra personas al margen de la protección que ofrece el vehı́culo a sus pasajeros. Las dificultades prácticas de incluir elementos de seguridad equivalentes en los peatones, hacen que un sistema de detección automática de peatones, que alerte al conductor ante situaciones de peligro, sea una alternativa viable para evitar accidentes graves y fatalidades. En el presente documento se expone la construcción y prueba de un método basado en visión por computador para seleccionar zonas en la vı́a con posibilidad de ser peatones. 1.

(13) F IGURA 1.2. Porcentaje de accidentados graves o muertes.. 1.2. Métodos Existentes para Detectar Peatones Automáticamente El problema de detección automática de peatones utilizando visión artificial es abordado generalmente en dos etapas: (i) búsqueda de regiones de interés (ROI por sus siglas en inglés) dentro de la imagen, éstas son áreas de la imagen con cierta probabilidad de ser una persona, (ii) análisis exhaustivo de cada región verificando si se trata efectivamente de la proyección de un peatón. En general el primer proceso tiene bajo costo computacional, y debe incluir idealmente a todos los peatones presentes. Luego se debe realizar un proceso más complejo para eliminar las áreas que no corresponden a peatones, pero han pasado el primer filtro. Para esta última etapa distintos autores (Dalal y Triggs, 2005; Munder y Gavrila, 2006; Papageorgiou y Poggio, 1999) han probado la efectividad de las caracterı́sticas basadas en wavelets de Haar y los Histogramas de Gradientes Orientados (HoG, por sus siglas en inglés). Como muestran Giosan, Nedevschi, y Bota (2009), obtener las tres coordenadas espaciales de los puntos que se observan en una imagen es útil al escoger las ROI, ya que son propiedades relativamente constante dentro de un objeto determinado y además son independientes de la iluminación presente (a diferencia de la intensidad y color). Esta ventaja permite que los sistemas estéreo (Alonso et al., 2007; Giosan et al., 2009; Kamijo, Fujimura, y Shibayama, 2010; Krotosky y Trivedi, 2007; Munder, Schnorr, y Gavrila, 2008), que 2.

(14) poseen dos cámaras con posiciones relativas conocidas, produzcan generalmente mejores resultados que los sistemas monoculares (de una cámara). Considerando que toda aplicación en el espectro visible baja su rendimiento en condiciones nocturnas, es importante pensar en un sistema práctico que incluya cámaras en el infrarrojo lejano o cámaras capaces de funcionar en un amplio rango de iluminosidad, incluyendo iluminación artificial. Debido a que agregar una cámara estéreo aumenta de forma importante el costo del sistema, parece interesante investigar soluciones con una cámara, que además son más simples de manejar y calibrar (Cao, Deng, y Mulligan, 2008; Dollar, Wojek, Schiele, y Perona, 2012; Enzweiler, Kanter, y Gavrila, 2008; Fardi, Seifert, Wanielik, y Gayko, 2006; Lombardi y Zavidovique, 2004; Xu, Cao, y Qiao, 2006). El método propuesto en este trabajo obtiene información del entorno usando solamente una cámara, obteniendo las ventajas de una cámara estéreo en un sistema monocular. En la tabla 1.1 se resume una revisión de los principales resultados de trabajos realizados para la detección de peatones desde plataformas móviles. La tasa de detección corresponde al porcentaje de peatones que se logra detectar correctamente respecto al total que aparece en la secuencia. La tasa de falsas alarmas corresponde al porcentaje de detecciones incorrectas respecto al total de detecciones. Se indicaron los casos donde la información presentada no se encuentra disponible (N.D.).. 3.

(15) TABLA 1.1. Revisión de las técnicas existentes para detección de peatones. Técnica. Caracterı́sticas. Comentarios. Tasa Detección [ %]. Tasa Falsa Alarma [ %]. N.D.. N.D.. 68.8. N.D.. 86.8. 0.13. 92.7. 8. 86.61. 12.11. 99.6. 0.06. 73.9. N.D.. Monocular (Enzweiler et al., 2008) (Ma, Muller, Park, MullerSchneiders, y Kummert, 2009) (Xu et al., 2006) Multivista (Giosan et al., 2009). ROI basadas en flujo ópti- Secuencias de peatones sin co. Identificación por forma oclusión, elegidos manualy textura. mente. Se mide la velocidad del vehı́culo externamente. Dis- Rango 1: 3-10 m. Rango 2: tintos métodos para peato- 10-50 m. nes cercanos y lejanos. Promedio entre 6 videos de Se utiliza cambio de escala prueba. Funciona en rango para comparar ROIs de dis- 0.3-20 m y a menos de 50 tintos cuadros y estimar dis- Km/h. Se procesan 12 cuatancia. dros por segundo Calce de contornos de cuerpo completo.. Estéreo, hasta 20 m hacia adelante.. En cascada: detección de movimiento, restriccio- Tres cámaras, una apuntan(Kamijo et nes geométricas, bordes do hacia el frente y dos con al., 2010) verticales y horizontales, ángulo hacia cada lado. texturas. Consideran dos detecciones correctas cuando una ROI Comparación entre color e (Krotosky y encierra a dos personas infrarrojo para un sistema Trivedi, 2007) juntas. Mejores resultados estéreo. en color.. (Munder et al., 2008). Detección por forma, textura y profundidad de bordes. Comparación con modelos 2D.. Estéreo. Dos videos de 27 y 24 minutos. Rango de 10-25 m hacia adelante y 4 m hacia cada lado. 2 falsas alarmas cada 1000 cuadros.. (Nedevschi, Bota, y Tomiuc, 2009) Infrarrojo. Detección de objetos 3D, bordes 2D y calce de patrones.. Estéreo. Hasta 20 m. Escenario complejo, 1500 cuadros procesados.. 86. 6.9. Capturas nocturnas. Sistema monocular.. 95.85. 8.65. Capturas nocturnas. Infrarrojo cercano. Rango de 2080 m hacia adelante.. 93. 2.6. (Sun, Wang, y Puntos Clave de intensidad Wang, 2011) para seleccionar candidatos. Clasificación con Haar. Candidatos usando intensi(Ge, Luo, y dad de lı́neas horizontales. Tei, 2009) Clasificación con Haar y HoG.. 4.

(16) 1.3. Método Propuesto La presente tesis propone un procedimiento para tratar la primera etapa de la detección de peatones, esto es, la selección de regiones interés, candidatas a ser efectivamente un peatón. Inicialmente se estima el movimiento que experimenta el vehı́culo entre cada cuadro de la secuencia de video. Al tomar dos cuadros distintos se puede simular dos cámaras en distintas posiciones. Con este sistema simulado de dos vistas, se puede reconstruir parte de la escena observada, es decir, obtener información de posición en el espacio de un subconjunto de los puntos que aparecen en las imagenes. Una vez obtenido un conjunto de puntos del entorno, se filtran aquellos que se encuentran fuera de la zona donde comunmente es esperable encontrar a un peatones, por ejemplo, puntos que se encuentran a más de 2 metros de altura. Se ubican candidatos a ser peatón en las zonas donde se concentre una cantidad importante de los puntos seleccionados anteriormente.. 1.4. Hipótesis Es posible obtener simultáneamente información de distancias a puntos en la escena y deducir el movimiento propio de un vehı́culo, empleando secuencias de video monoculares capturadas desde el vehı́culo durante su desplazamiento, utilizando métodos de flujo óptico. Además, la información de disntancias a puntos en la escena debiera permitir discernir aquellas zonas donde potencialmente se encuentran objetos o personas con los cuales el vehı́culo podrı́a colisionar. Combinando la información de distancias y de desplazamiento propio del vehı́culo deberı́a ser posible mejorar los sistemas actuales de alerta al conductor ante peligros de colisión inminente.. 1.5. Resumen de Contribuciones Las principales contribuciones de este trabajo son: el desarrollo, implementación y prueba de un método de selección de regiones candidatas a ser peatones, utilizando únicamente reconstrucción tridimensional no 5.

(17) densa, es decir, la estimación de la posición espacial de solo algunos puntos del entorno, a partir de un sistema monocular. la implementación y prueba de un método monocular para la estimación del movimiento propio (ego-motion) y la reconstrucción local de las trayectorias recorridas por el vehı́culo. la elaboración de una métrica para evaluar desempeño del sistema de detección de regiones candidatas la cual mide el tiempo de duración de los periodos sin cobertura del 100 %. elaboración de secuencias para evaluar los métodos desarrollados, incluyendo el etiquetado de peatones en capturas de video en ambientes de tráfico urbano reales. 1.6. Organización del Documento Luego de este primer capı́tulo, en el capı́tulo capı́tulo 2 se detalla el desarrollo de la solución propuesta para reconstruir el entorno y seleccionar candidatos. En el capı́tulo capı́tulo 3 se discuten las simulaciones que validan el modelo encontrado. En el capı́tulo 4 se presenta la forma en que se realizaron los experimentos para obtener los datos utilizados en esta tesis. Los resultados obtenidos a partir de estos datos están en el capı́tulo 5. Finalmente en el capı́tulo 6 se presentan las conclusiones y posibles proyecciones para trabajos futuros.. 6.

(18) 2. METODO PROPUESTO. Para estimar el avance del vehı́culo y la ubicación de puntos en el entorno se necesita encontrar puntos de dos cuadros distintos que correspondan al mismo punto 3D. Para buscar estas correspondencias se utiliza el método de flujo óptico (Lucas y Kanade, 1981), explicado a continuación.. 2.1. Estimación de Información 3D 2.1.1. Flujo Optico Sea (x, y) la proyección sobre el cuadro k (instante t) de un punto M en el espacio y (x + u, y + v) la proyección de M sobre el siguiente cuadro k + 1 (instante t + ∆t). Luego, para un cuadro k se define el flujo óptico para el punto (x, y) como d : (x, y) ∈ R2 → (u, v) ∈ R2 . Si se asume que la vecindad del punto solo sufre un desplazamiento. F IGURA 2.1. Del cuadro k al k + 1, el punto se desplaza desde ma = [x, y]T a mb = [x + u, y + v]T .. (no cambia su intensidad de un cuadro a otro), la intensidad de un pı́xel m en un cuadro es igual a la intensidad del pı́xel ubicado en la posición m − d del cuadro anterior: I(x,y,t) = I(x−u,y−v,t−∆t) . 7.

(19) Si se asume que el gradiente de la imagen es constante dentro de la zona de movimiento del punto, se puede calcular la intensidad del pı́xel m a partir de la intensidad del pı́xel m − d: I(x,y,t−∆t) = I(x−u,y−v,t−∆t) + ∇I(x,y,t−∆t) · d donde. .  ∇I(x,y,t) =. ∂I(x,y,t)  ∂x  ∂I(x,y,t) ∂y.   Ix(x,y,t)  :=  Iy (x,y,t). Se define el gradiente de intensidad respecto al tiempo: It(x,y,t) =. ∂I(x,y,t) = I(x,y,t) − I(x,y,t−∆t) ∂t. Lo que permite llegar a la ecuación que relaciona las condiciones locales de intensidad con el flujo óptico:. − It(x,y,t) = ∇I(x,y,t) · d. (2.1). Se puede observar que (2.1) es una ecuación para las dos componentes (u, v) del vector d de flujo óptico. Como se muestra en la figura 2.2, la intensidad de un punto cambia según la magnitud de la componente del desplazamiento en la dirección del gradiente. La componente del flujo perpendicular al gradiente no se ve reflejada en la ecuación (2.1) y por lo tanto no entrega información en esa dirección. Bajo el supuesto de que la variación de d es despreciable entre pı́xeles vecinos, se puede plantear el problema en (2.1) para el vecindario de puntos como: . . . . Ix(m1 ,t) Iy (m1 ,t)    −It(m1 ,t)      Ix(m2 ,t) Iy (m2 ,t)  u −It(m2 ,t)     =   ..  ..  ..    .   .  v .     Ix(mn ,t) Iy (mn ,t) −It(mn ,t). (2.2). 8.

(20) F IGURA 2.2. La intensidad cambia según la magnitud de la componente del desplazamiento en la dirección del gradiente.. Al aumentar el tamaño n de la vecindad aumentan las posibilidades de que el sistema tenga solución, pero disminuye la validez de los supuestos. 2.1.1.1. Puntos Salientes Ya que el modelo de estimación no requiere un flujo denso, en cada imagen se buscan puntos salientes, puntos de un cuadro que destaquen lo suficiente para ser reconocidos en el cuadro siguiente. A diferencia de los puntos ubicados en zonas lisas o bordes, que son fácilmente confundibles con sus vecinos, las intersecciones de dos bordes tienen suficiente información en su vecindad para el seguimiento cuadro a cuadro. Se eligen estos puntos “esquina”, aquellos que tienen un fuerte gradiente en dos direcciones distintas dentro una vecindad pequeña. En la práctica, según (Shi y Tomasi, 1994), esto se produce cuando los dos valores propios de la matriz hessiana en el punto “esquina” superan un umbral (si tiene solo un valor propio alto, es un borde; si los dos son bajos, es una región lisa).  H(x,y) =. ∂ 2 Ix,y 2  ∂x ∂ 2 Ix,y ∂y∂x. . ∂ 2 Ix,y ∂x∂y  ∂ 2 Ix,y ∂y 2. Valores altos en dos de los valores propios de H(x,y) aseguran que el sistema (2.2) tenga pseudoinversa. 9.

(21) 2.1.1.2. Matriz Fundamental A partir de los puntos obtenidos con el flujo óptico se calcula la matriz fundamental F entre las dos vistas usando RANSAC (Fischler y Bolles, 1981). Esta matriz relaciona los puntos correspondientes de dos vistas:   h i mk mk−1 T 1 F   = 0 1. (2.3). La condición (2.3) se cumple solo en puntos cuyo flujo óptico sea coherente con el movimiento de la cámara, lo que permite filtrar los puntos mal relacionados y puntos de objetos en movimiento. Se obtiene entonces un conjunto de puntos correspondientes que son proyección de puntos estáticos o puntos cuyo desplazamiento es muy bajo respecto al del vehı́culo, como es el caso de los peatones.. 2.1.2. Reconstrucción y Estimación de Avance Se utiliza la geometrı́a que relaciona los puntos correspondientes para encontrar los puntos en el espacio y el movimiento del vehı́culo. Los puntos en la escena en coordenadas de la cámara MC ∈ R3 están relacionados a los puntos proyectados en la cámara m ∈ R2 de acuerdo a: λm̂ = PM̂C donde M̂C y m̂ corresponden a MC y m escritos en coordenadas homogéneas, es decir:   C M  M̂C =  1   m m̂ =   1 10.

(22) y donde P es la matriz de proyección estándar para el modelo pinhole, definida según:   fα 0 x0 0  x    P =  0 f αy y0 0 (2.4)   0 0 1 0 En (2.4) f es la distancia focal de la cámara, αx y αy la cantidad de pı́xeles del CCD por unidad de distancia en cada uno de los ejes, y x0 e y0 son las coordenadas del pı́xel correspondiente a la proyección de los puntos ubicados en el eje óptico: MC = [0, 0, Z]T . Estos cinco parámetros se obtienen de la calibración intrı́nseca de la cámara. La figura 2.3 muestra los ejes de referencia de los puntos MC :. F IGURA 2.3. El eje ZC del sistema de coordenadas de la cámara coincide con su eje óptico.. Ya que una cámara puede ser montada en distintas configuraciones, se define un sisteV. ma de referencia solidario al vehı́culo, donde el plano XY corresponde al suelo, el origen es la proyección de la posición de la cámara en este plano, YV apunta en la dirección de avance del veı́culo y ZV es la altura. Este sistema, además de ser independiente del montaje de la cámara, es más intuitivo y de fácil manejo. Para proyectar puntos referidos a sistemas distintos al de la cámara se utiliza una matriz de cambio de coordenadas. Esta matriz tiene la siguiente estructura:   R(θx ,θy ,θz ) T(dx ,dy ,dz )  S= 0 1 11.

(23) donde R es la matriz de rotación y T es el vector de desplazamiento. La definición de esta matriz varı́a dependiendo del orden de rotación y la definición de ángulos y distancias. En este caso se asume una rotación primero en Z, luego en Y, y finalmente en X.. R(θx ,θy ,θz ) = R(θx ,0,0) R(0,θy ,0) R(0,0,θz ). (2.5). de modo que. . c(θy )c(θz ). c(θy )s(θz ). −s(θy ). −dx. .   s(θ )s(θ )c(θ ) − c(θ )s(θ ) s(θ )s(θ )s(θ ) + c(θ )c(θ ) s(θ )c(θ ) −d  y z x z x y z x z x y y  x S=  c(θx )s(θy )c(θz ) + s(θx )s(θz ) c(θx )s(θy )s(θz ) − s(θx )c(θz ) c(θx )c(θy ) −dz    0 0 0 1 con s(θ) := sen(θ) y c(θ) := cos(θ). A partir de la transformación (2.5) se define SV,C como la matriz de cambio de coordenadas desde el sistema del vehı́culo al de la cámara (figura 2.4).. F IGURA 2.4. El sistema de referencia del vehı́culo se encuentra en el suelo, bajo la cámara.. 12.

(24) Dado que la cámara se mueve solidariamente con vehı́culo, la transformación entre estos dos sistemas será constante cuadro a cuadro: V,C SV,C = SV,C k k+1 = S V,C V,C V,C Los parámetros que componen SV,C , [θV,C , dV,C ] = (θX , θYV,C , θZV,C , dV,C X , dY , dZ ) se. obtienen de la calibración extrı́nseca. Se define la matriz A := PSV,C que resume el proceso de cambio de coordenadas y proyección de los puntos referidos al sistema del vehı́culo (MV ):. λm̂ = AM̂V Para establecer una relación entre las proyecciones mk y mk−1 se debe encontrar la matriz de transformación Sk := SVk ,Vk−1 desde el sistema de coordenadas del instante k al de k − 1, como indica la figura 2.5.. F IGURA 2.5. La matriz de transformación Sk permite referir dos cuadros consecutivos a un mismo sistema de coordenadas.. De esta forma se expresan ambas proyecciones respecto a un solo sistema: 13.

(25) λk m̂k = AM̂Vk. (2.6). λk−1 m̂k−1 = AM̂Vk−1 = ASk M̂Vk. (2.7). Se definen dos matrices a partir de la matriz A:. A1−3 := A:,1:3 A4 := A:,4 La matriz A1−3 contiene las tres primeras columnas de A y A4 , la cuarta columna. De esta forma se encuentra una estimación de MVk a partir de (2.6).. λk m̂k = AM̂Vk = A1−3 MVk + A4. M̃Vk = A1−3 −1 (λk m̂k − A4 ). (2.8). Finalmente se reemplaza (2.8) en (2.7). λk−1 m̂k−1.   V M̃k  = ASk  1. (2.9). Con al menos seis puntos correspondientes, se puede construir un sistema de ecuaciones en base a (2.9) para estimar los seis parámetros de Sk y el conjunto de escalares λ que determinan los puntos MV . El sistema se resuelve minimizando la diferencia entre los puntos mk−1 obtenidos con el flujo óptico y los puntos m̃k−1 obtenidos mediante la proeyección de los puntos M̃Vk estimados a partir de respectivos λk y la transformación S̃k dependiente de θk y dk . Para. 14.

(26) esto se fefine el vector auxiliar w: . .   w  1 V M̃k    w = w2  = AS̃k    1 w3 luego m̃k−1.   1 w1  = w3 w2. Finalmente se busca el vector de rotaciones θk , el vector desplazamiento dk y el conjunto de escalares Lk = [λ1k. λ2k . . . λnk ] (con n el número de puntos correspondientes), que. minimicen el error cuadrático total entre los puntos observados mik−1 y estimados m̂ik−1 :. (θk∗ , d∗k , L∗k ) = arg. mı́n (θk ,dk ,Lk ). n X. m̂ik−1 − mik−1. 2. i=1. El conjunto Lk debe ser un parámetro en la minimización ya que no puede ser calculado a partir de los valores tentativos de θk y dk que se generan en los pasos intermedios del proceso. Estos valores, a diferencia de los valores óptimos, generan sistemas de vistas donde mk y mk−1 no son correspondientes al mismo punto en el espacio.. 2.1.2.1. Escala Debido a que las imágenes no entregan referencias de distancias reales, el sistema descrito en la sección anterior posee infinitas soluciones. Si se tiene un desplazamiento, rotación y escalares [θk solución [αθk. dk. dk. Lk ] que son solución del sistema (2.9), habrá también una. αLk ]. Para obtener la posición real de cada elemento en la escena se. restringió la ubicación de los puntos MV a Z ≥ 0. Si la altura de la cámara es fija y el V. suelo coincide con el plano XY , es decir, no presenta curvatura importante, el mayor valor factible de α (el que mantiene todos los puntos dentro de la restricción, esto es, que ningún punto se encuentre bajo el suelo) es el que entrega la posición correcta de los puntos. 15.

(27) 2.1.3. Selección de Regiones de Interés Una vez determinada la información 3D, se toman los puntos dentro del espacio de búsqueda de peatones. Este se ubica frente al vehı́culo hasta 40 m de distancia, desde 0 a 2 m de altura y 7 m a cada lado de la cámara. Para evitar generar distintas ROI a partir de puntos de un mismo peatón, se agrupan V. puntos de acuerdo a su cercanı́a en el plano XY . Las coordenadas X e Y de cada punto del espacio de búsqueda son reemplazadas por el promedio de las coordenadas X e Y de sus puntos vecinos, aquellos que se encuentran a una distancia menor a un umbral determinado. Esto produce un desplazamiento de cada punto en la dirección de mayor cantidad de vecinos, disminuyendo la distancia entre puntos de un mismo objeto. Después de este proceso se agrupan los puntos cuyas posiciones promediadas están a una distancia inferior a 1 m, distancia máxima esperada entre puntos de un peatón. Para cada grupo encontrado V. se agrega un rectángulo en un plano paralelo a XZ , de 1 m de ancho y 2 m de alto, consistente con el criterio de distancia entre puntos de un peatón. Los rectángulos son ubicadas V. con su base a altura 0 m, en la posición XY del centroide del grupo. La proyección en la cámara de cada rectángulo se considerada una región candidata a peatón (figura 2.6).. F IGURA 2.6. Se ubica un rectángulo paralelo al plano XZ en el marco de referencia del vehı́culo.. 16.

(28) 2.1.4. Información Histórica Ya que el espacio de búsqueda de peatones se visualiza en distintos cuadros, al seleccionar regiones candidatas en un instante se puede usar información de instantes anteriores utilizando las transformaciones de coordenadas S para referir puntos encontrados anteriormente al sistema actual. En un cuadro se tienen los puntos MVk k , pero se puede utilizar V. k−1 k y en general cualquier punto estimado p cuadros atrás = Sk −1 Mk−1 además los MVk−1. V. k−p k MVk−p = Sk −1 Sk−1 −1 . . . Sk−p+1 −1 Mk−p que se encuentre dentro de la zona de búsqueda.. Existe un lı́mite práctico ya que a medida que aumenta n se toman puntos cada vez más lejos de la cámara, estimados con menor precisión. El contar con más versiones de los mismos datos tiene dos principales ventajas: (a) se detectan los peatones que no se logran reconocer en un cuadro, pero sı́ en sus cuadros vecinos (ya que la reconstrucción no es densa, pueden haber cuadros donde un peatón no tiene puntos salientes) y (b) se descartan regiones con baja aparición histórica, evitando falsos positivos por ruido.. 17.

(29) 3. ANALISIS Y SIMULACIONES. Para verificar la validez de las ecuaciones encontradas y evaluar la capacidad del modelo de estimación de movimiento y reconstrucción de escena, se construyó un ambiente controlado y simplificado a través de una simulación. Al conocer el resultado al que debe llegar el modelo se puede medir con precisión su desempeño. 3.1. Condiciones de Simulación 3.1.1. Entorno Al considerar que para el modelo una escena es un conjunto de puntos, se diseñó un ambiente a partir de 190 puntos, de los cuales 170 se distribuyen en un rectángulo de altura 0 m y dimensiones 32 m x 37 m, que conforma el suelo del ambiente simulado. Los puntos restantes se dividen en grupos de cinco ubicados dentro de espacios con dimensiones similares a las que ocupa un peatón. 3.1.2. Trayectoria Dentro de la escena se definió una secuencia de movimiento para la cámara de 82 cuadros a 30 fps, compuesto de un desplazamiento y una rotación. La cámara avanza durante todo el recorrido a velocidad constante de 0.5 m/s en el eje Y (hacia donde apunta la cámara) y adicionalmente se gira en el eje Z con perfil trapezoidal entre los cuadros 40 y 69 para obtener un viraje de 90◦ . Esto produce una trayectoria inicialmente en lı́nea recta (primeros 39 cuadros), seguida de una curva hacia la izquierda de 29 cuadros de duración, para terminar con 14 cuadros en lı́nea recta. 3.2. Resultados Al estar definidos los puntos 3D, los parámetros de la cámara y el movimiento, se utiliza la ecuación (2.6) para obtener la proyección de la escena en cada cuadro. En base a estas proyecciones el modelo estima el movimiento de la cámara y la ubicación 3D de los puntos. 18.

(30) Como se observa en la figura 3.1, el sistema converge a la trayectoria real (en rojo). El error promedio en la estimación de la ubicación de cada punto 3D es inferior a los 0.13 m.. F IGURA 3.1. Trayectoria estimada (azul) junto a la real (rojo).. Ya que en imágenes reales no se tienen las proyecciones con absoluta precisión, se analizó la sensibilidad del sistema ante variaciones de entrada en dos casos: (a) redondeo al entero más cercano, imitando la discretización que producen los pı́xeles (figura 3.2) y (b) adición de ruido gaussiano de media 0 y distintos valores de desviación estándar: 1, 2, 4 y 8 pı́xeles (figura 3.3).. F IGURA 3.2. A pesar de la pérdida de precisión en los datos, se logra reproducir correctamente la trayectoria.. Al aproximar al entero más cercano se pierde información y el error promedio en la estimación de los puntos de la escena aumenta a 0.72 m. A pesar de que el error aumenta 19.

(31) aproximadamente seis veces, es bajo para el ambiente de trabajo (distancias de hasta 50 m).. F IGURA 3.3. A la proyección ideal de la escena se le agrega ruido de distribución normal con media 0 y desviación estándar 1 (a), 2 (b), 4 (c) y 8 (d).. Al incorporar ruido se obtienen errores promedio de 2.42, 4.30, 6.44 y 7.66 m para valores de desviación estándar igual a 1, 2, 4 y 8 pı́xeles respectivamente. La magnitud de estos errores, además de sobrepasar varias veces el tamaño de un peatón (error grave de ubicación), produce que puntos de un mismo peatón se distancien lo suficiente como para ser interpretados como dos personas distintas, aumentando la cantidad de falsas detecciones. La tabla 3.1 resume los resultados de la selección de regiones candidatas en cada una de las condiciones abordadas. Se considera una detección correcta cuando el ancho y alto 20.

(32) TABLA 3.1. Resumen del desempeño del sistema ante redondeo y ruido en la entrada. Set de Prueba Proyecciones ideales Redondeo al entero más cercano Ruido gaussiano de media 0 Desviación estándar 1 Desviación estándar 2 Desviación estándar 4 Desviación estándar 8. Tasa Detección [ %] 85.7 84.5. Total Falsas Alarmas 8 13. Error Promedio [m] 0.70 0.93. 63.8 35.6 21.5 14.6. 63 78 63 55. 1.51 1.67 1.76 1.68. de la intersección entre la región peatón y la región candidata superan al 40 % del ancho y alto del candidato y al 70 % del ancho y alto del peatón. Se puede observar que en el caso ideal solo se detecta un 85.7 % de los peatones. Esto se debe a la oclusión que sufren los peatones en el borde de la imagen al “entrar” o “salir” del cuadro. Producto de la disminución del área visible del peatón, no se logra el matching adecuado con los candidatos. Estos casos no fueron considerados en los experimentos reales ya que no son representativos del rendimiento del sistema. Se observa tembién que el truncar los datos no afecta de manera importante la detección, es decir, a la resolución de trabajo la pérdida de información no es significativa. Al aplicar ruido, en cambio, el rendimiento baja considerablemente. Esto se debe a que los puntos dejan de ser correspondientes y por lo tanto las ecuaciones descritas en la sección 2.1 pierden validez. Este problema se reduce en la práctica al realizar un proceso de filtrado con la matriz fundamental.. 21.

(33) 4. IMPLEMENTACION Y METODOLOGIA. 4.1. Ensayos Para evaluar el desmpeño del sistema en casos reales, se utilizaron secuencias de imágenes tomadas desde un vehı́culo en movimiento. Con una cámara montada sobre una estructura ubicada en el techo de un automóvil comercial se logró capturar una conducción real por calles urbanas, principalmente residenciales. Se utilizó una cámara Imaging Source modelo DFK 31BF03. Se realizaron capturas en color a 30 cuadros por segundo y resolución de 720x480 pı́xeles. A pesar que se capturó con color, se transformó la data a blanco y negro al inicio del proceso. Se obtuvieron nueve secuencias de imágenes cuyas caracterı́sticas se detallan en la tabla 4.1. Se define un umbral igual a 1 vehı́culo en movimiento cada 5 segundos como referencia a las condiciones de tráfico: una cantidad inferior de automóviles en movimiento corresponde a tráfico bajo y una cantidad igual o superior, a tráfico alto. Los escenarios registrados abarcan distintos tipos de calles: doble sentido, con bandejón central, con y sin vereda, pasajes; y distintas iluminaciones diurnas (las tomas fueron realizadas en un dı́a soleado entre las 10 de la mañana y las 5 de la tarde). Las secuencias se pueden dividir en dos grupos: controladas y espontáneas. Las primeras fueron realizadas dentro del campus San Joaquı́n de la Pontificia Universidad Católica TABLA 4.1. Detalle de las secuencias utilizadas. Set. 1 2 3 4 5 6 7 8 9. Cuadros. Peatones. Escenas Controladas 1838 1512 1755 2420 Escenas Espontáneas 890 1774 689 809 1192. Cuadros con peatones a menos de 20 m 30 m 40 m. Tráfico. 2 2 2 1. 163 33 20 68. 356 139 43 158. 605 211 147 167. bajo alto bajo bajo. 1 2 2 3 2. 35 50 77 58 175. 90 106 716 118 716. 134 106 716 218 716. bajo bajo bajo alto bajo. 22.

(34) de Chile, con voluntarios actuando de peatones interpretando movimientos tipo: de pie a un lado del camino (simulando que esperan cruzar), cruzando de un lado a otro y avanzando en paralelo al auto por el borde de la calle, tanto en el sentido de avance del vehı́culo como en contra de este. El siguiente grupo corresponde a capturas espontáneas realizadas en calles públicas con peatones anónimos, donde se observan los mismos comportamientos que en las personas del primer grupo. Ambos grupos registran las principales dificultades para la estimación de avance, tales como la presencia de otros vehı́culos moviéndose a velocidades importantes, curvas y resaltos (figura 4.1). Además, contienen los elementos comúnmente presentes en las vı́as de tránsito que comparten el espacio con los peatones y por lo tanto son potenciales falsas detecciones, tales como postes, árboles, autos estacionados, señalética y conos.. F IGURA 4.1. Principales problemas: vehı́culos a gran velocidad, elementos que comparten el espacio de los peatones, resaltos que producen diferencias entre el suelo del plano XY, vehı́culos que cubren gran parte de la imagen.. Después del recorrido, y sin alterar la configuración de la cámara, se realizó una captura con el vehı́culo estacionado y un plano calibrador, como muestra la figura 4.2. De esta forma se pudo estimar los parámetros de la cámara y la ubicación de esta respecto al suelo (matriz A en la ecuación (2.6)). 23.

(35) F IGURA 4.2. Plano calibrador para estimar parámetros intrı́nsecos y marcas en el suelo para estimar los extrı́nsecos.. 4.2. Indices de Desempeño 4.2.1. Selección de Regiones Para evaluar la detección de peatones se identificaron manualmente los peatones presentes, marcando el rectángulo de menor área que contenga totalmente a este (figura 4.3).. F IGURA 4.3. Se marcó manualmente los peatones presentes.. A diferencia de las regiones candidatas, las regiones que contienen a los peatones presentan variadas dimensiones debido a la diversidad de tamaño de las personas y las posturas 24.

(36) que adoptan (figura 4.4). Al evaluar la calidad del matching entre un candidato y un peatón, la región candidata debe cubrir la mayor parte del peatón, pero el tamaño del peatón puede ser menor a esta. Se considera una detección correcta si tanto el ancho como el alto de la intersección entre las dos regiones superan al 40 % del ancho y alto del candidato y al 70 % del ancho y alto del peatón.. F IGURA 4.4. Las dimensiones de la región que contiene a un peatón pueden presentar variaciones mayores al 100 % en pocos cuadros.. 25.

(37) 5. RESULTADOS EXPERIMENTALES. 5.1. Trayectoria Se reconstruyen las trayectorias recorridas por el vehı́culo referenciando el vector origen del sistema de cada instante, 0̂k = [0. 0. 0. 1]T en coordenadas homogéneas, al sis-. tema de referencia inicial del recorrido con origen en 0̂0 . Para cualquier vector homogéneo MVk referido al sistema de coordenadas del instante k, la transformación de dicho vector al sistema de referencia inicial se obtiene mediante la aplicación de las matrices de transformación S según: MVk 0 = S1 S2 . . . Sk−1 Sk MVk k A diferencia de la recontrucción de escena en cada instante, que utiliza solo la información de los últimos cuadros, la estimación de cada punto de la trayectoria acumula los errores producidos en todos los instantes anteriores. Se puede observar el problema en la secuencia 1 de la figura 5.1, que presenta errores significativos dentro de las curvas en “U”. La secuencia 4 y 6 en cambio, sufren solo distorsiones menores, mostrando una correcta estimación en cada cuadro.. F IGURA 5.1. Imagen satelital de los trayectos recorridos en las secuencias 1, 4 y 6 junto a lo estimado por el modelo propuesto.. 26.

(38) TABLA 5.1. Comparación de los resultados de detección con y sin incluir información histórica.. menos de 20 m Información FP Histórica DR [ %] 89.3 12.6 Sı́ No 60.1 2.3. menos de 30 m DR [ %] FP 88.3 25.7 58.3 4.5. menos de 40 m DR [ %] FP 81.1 36.0 50.4 5.7. 5.2. Selección de Regiones de Interés A continuación se presentan resultados obtenidos utilizando el modelo de selección de regiones candidatas sobre las secuencias disponibles (tabla 4.1). 5.2.1. Información Histórica En la tabla 5.1 se presentan dos pruebas realizadas a toda la data (las nueve secuencias). En la primera se seleccionan regiones utilizando solo la información del cuadro respectivo, en la segunda se usa además la información de los 10 cuadros anteriores. Al aumentar la cantidad de puntos aumentan en la misma medida los falsos positivos, pero se produce también un aumento significativo en las detecciones correctas. 5.2.2. Filtro de Regiones por Número de Puntos que las Constituyen Para evitar seleccionar ROI formadas a partir de puntos ruidosos, se descartan las regiones asociadas a un grupo con una cantidad de puntos inferior a un umbral. La figura 5.2 muestra tasas de detección (DR) respecto a falsos positivos (FP) obtenidos al fijar umbrales desde 1 hasta 10 peatones por grupo. Se observa que a mayor distancia de detección, además de bajar el rendimiento, se agrega una mayor cantidad de FP al aumentar la tasa de detección en la misma medida. Se muestra en rojo la evaluación a distancias entre el vehı́culo y el peatón inferiores a 20 m, en verde, a distancias inferiores a 30 m y en azul, inferiores a 40 m. 5.2.3. Tiempo Falla en la Detección Además de la tasa de detección, es importante para evaluar el desempeño del sistema conocer la cantidad de cuadros que dura una falla del sistema, es decir, cuánto tiempo pasa 27.

(39) F IGURA 5.2. Rendimiento del sistema de detección utilizando distintas exigencias a la cantidad de puntos que forma una región candidata.. entre estados de detección 100 %. Esta medida indica qué tan grave es cada no-detección de un peatón. En la figura figura 5.3 se muestra el porcentaje de casos en los en que la falla (periodo sin detección del 100 % de los peatones) dura menos que una cierta cantidad de cuadros. Se espera que todas las fallas duren pocos cuadros, es decir, que la curva alcance rápidamente 100 %. Se muestra en rojo la evaluación de la métrica al buscar peatones a distancias entre el vehı́culo y el peatón inferiores a 20 m, en verde, a distancias inferiores a 30 m y en azul, inferiores a 40 m. Un 88.2 % de casos a 20 m, 73.5 % a 30 m y 58 % a 40 m tienen duración de hasta 15 cuadros, equivalente a 6.9 m recorridos a una velocidad de 50 km/h.. 5.2.4. Desempeño de las Secuencias Utilizadas En la tabla 5.2 se muestran los resultados del proceso de selección para cada secuencia utilizada. Se eliminaron las regiones conformadas por tres o menos puntos. En la búsqueda de peatones a menos de 20 m se logran tasas de detección hasta del 100 % y menos de 5 FP por cuadro. 28.

(40) F IGURA 5.3. Porcentaje de casos en los que la falla dura menos que una cierta cantidad de cuadros. TABLA 5.2. Desempeño del sistema por secuencia.. Set 1 2 3 4 5 6 7 8 9 Promedio para el total de sets. menos de 20 m DR [ %] FP 97.6 9.8 88.8 7.3 75.0 6.2 80.9 5.8 94.3 19.0 86.0 10.8 92.0 10.8 79.3 13.4 59.5 12.8 86.6 10.3. menos de 30 m DR [ %] FP 82.6 17.0 74.8 13.2 86.1 10.8 15.3 74.7 39.6 87.8 94.3 31.5 93.0 23.1 92.4 32.8 29.3 58.0 82.9 20.3. menos de 40 m DR [ %] FP 75.5 21.5 61.6 16.3 83.7 13.5 70.7 18.1 82.1 55.2 97.2 46.7 93.8 33.4 86.7 46.6 37.0 40.2 76.2 30.0. En general se obtuvo resultados más bajos en las secuencias donde aparecen peatones cruzando la calle (secuencias 6 y 9). En estos casos el conductor reduce la velocidad y además la proyección del peatón se mueve más rápido por la imagen (movimiento perpendicular al eje óptico).. 29.

(41) 6. CONCLUSIONES Y TRABAJO FUTURO. 6.1. Revisión de los Resultados y Comentarios Generales Se implementó un modelo de reconstrucción 3D de puntos salientes y estimación de movimiento propio usando visión monocular en movimiento, con el fin de identificar objetos en el camino y seleccionar regiones con posibilidad de ser un peatón. Además de la información de la escena que se obtiene en cada imagen se logró combinar distintas observaciones del mismo espacio, correspondientes a estimaciones de cuadros anteriores. Esto produjo un aumento en la cantidad de datos disponibles de un espacio en un instante determinado, con lo que se consigue mejorar significativamente la detección y además se logra descartar con mayor facilidad puntos que aparecen en cuadros determinados producto del ruido. El sistema obtuvo buenos resultados en conducción real dentro de ambientes urbanos, junto a distintos elementos del tránsito: vehı́culos detenidos y en movimiento, señalética, postes, follaje, resaltos, etc. Se demostró que además de obtener importantes tasas de detección, se logran en general tiempos breves sin 100 % de detección, es decir, no se pierde de vista un peatón por periodos prolongados. Además de lo anterior, la totalidad de los peatones tratados son detectados al menos una vez en el rango de 30 a 40 m. El sistema detecta, junto con los peatones, otros objetos presentes. Estas selecciones se consideran falsos positivos e influyen negativamente en el rendimiento del sistema, pero también corresponden a información de utilidad en sistemas para evitar otro tipo de colisiones. Se obtuvieron también buenos resultados en la estimación de movimiento del vehı́culo, que permiten referir puntos entre cuadros cercanos y reconstruir con precisión trayectorias de cientos de metros de longitud. Esta información también es de utilidad en alertas de posibles desvı́os involuntarios de la ruta.. 30.

(42) 6.2. Proyecciones de Investigación Futura Se puede completar el sistema de detección utilizando un clasificador de personas sobre el resultado del selector de ROI. Esta etapa produce una mejor estimación del peatón que permite realizar un seguimiento cuadro a cuadro y estimar su movimiento. De esta forma se puede identificar de mejor forma qué peatones corresponden a un riesgo para la conducción y cuáles se mantendrı́an fuera del rango de alcance. Para este estudio se consideraron los puntos 3D dentro de una zona especı́fica, escogiendo regiones que tengan puntos coherentes con un peatón. Es interesante también el estudio de los puntos fuera de esta zona y en general de los puntos descartados en el proceso, ya que son un indicador de dónde no debe haber peatones.. 31.

(43) BIBLIOGRAFIA. Alonso, I., Llorca, D., Sotelo, M., Bergasa, L., Toro, P. R. de, Nuevo, J., y cols. (2007, June). Combination of feature extraction methods for svm pedestrian detection. Intelligent Transportation Systems, IEEE Transactions on, 8(2), 292-307. Cao, T. P., Deng, G., y Mulligan, D. (2008, Nov.). Implementation of real-time pedestrian detection on FPGA. En Image and Vision Computing New Zealand, 2008. IVCNZ 2008. 23rd International Conference on (p. 1-6). Dalal, N., y Triggs, B. (2005, June). Histograms of oriented gradients for human detection. En Computer vision and pattern recognition, 2005. cvpr 2005. ieee computer society conference on (Vol. 1, p. 886-893 vol. 1). Dollar, P., Wojek, C., Schiele, B., y Perona, P. (2012, april). Pedestrian detection: An evaluation of the state of the art. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 34(4), 743 -761. Enzweiler, M., Kanter, P., y Gavrila, D. (2008, June). Monocular pedestrian recognition using motion parallax. En Intelligent Vehicles Symposium, 2008 IEEE (p. 792797). Fardi, B., Seifert, I., Wanielik, G., y Gayko, J. (2006, 0-0). Motion-based pedestrian recognition from a moving vehicle. En Intelligent Vehicles Symposium, 2006 IEEE (p. 219-224). Fischler, M., y Bolles, R. (1981). Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6), 381–395.. 32.

(44) Ge, J., Luo, Y., y Tei, G. (2009, june). Real-time pedestrian detection and tracking at nighttime for driver-assistance systems. Intelligent Transportation Systems, IEEE Transactions on, 10(2), 283 -298. Giosan, I., Nedevschi, S., y Bota, S. (2009, aug.). Real time stereo vision based pedestrian detection using full body contours. En Intelligent Computer Communication and Processing, 2009. ICCP 2009. IEEE 5th International Conference (p. 79 -86). INE. (2010, Dec). Anuario de Carabineros 2010. Disponible en http://www .ine.cl/canales/chile estadistico/estadisticas sociales culturales/policiales/carabineros/carabineros.php. (Ins-. tituto Nacional de Estadı́sticas: Subdirección de Operaciones, Subdepartamento Estadı́sticas Registros Administrativos y Sociales) Kamijo, S., Fujimura, K., y Shibayama, Y. (2010, june). Pedestrian detection algorithm for on-board cameras of multi view angles. En Intelligent Vehicles Symposium (IV), 2010 IEEE (p. 973 -980). Krotosky, S., y Trivedi, M. (2007, June). A comparison of color and infrared stereo approaches to pedestrian detection. En Intelligent Vehicles Symposium, 2007 IEEE (p. 81-86). Lombardi, P., y Zavidovique, B. (2004, June). A context-dependent vision system for pedestrian detection. En Intelligent Vehicles Symposium, 2004 IEEE (p. 578583). Lucas, B., y Kanade, T. (1981). An iterative image registration technique with an application to stereo vision. En International joint conference on artificial intelligence (Vol. 3, p. 3). Ma, G., Muller, D., Park, S.-B., Muller-Schneiders, S., y Kummert, A. (2009, march). Pedestrian detection using a singlemonochrome camera. Intelligent Transport Systems, IET, 3(1), 42 -56. 33.

(45) Munder, S., y Gavrila, D. (2006, Nov.). An experimental study on pedestrian classification. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 28(11), 1863-1868. Munder, S., Schnorr, C., y Gavrila, D. (2008, June). Pedestrian detection and tracking using a mixture of view-based shapetexture models. Intelligent Transportation Systems, IEEE Transactions on, 9(2), 333-343. Nedevschi, S., Bota, S., y Tomiuc, C. (2009, sept.). Stereo-based pedestrian detection for collision-avoidance applications. Intelligent Transportation Systems, IEEE Transactions on, 10(3), 380 -391. Papageorgiou, C., y Poggio, T. (1999). Trainable pedestrian detection. En Image processing, 1999. icip 99. proceedings. 1999 international conference on (Vol. 4, p. 35-39 vol.4). Shi, J., y Tomasi, C. (1994, jun). Good features to track. En Computer Vision and Pattern Recognition, 1994. Proceedings CVPR ’94., 1994 IEEE Computer Society Conference on (p. 593 -600). Sun, H., Wang, C., y Wang, B. (2011, jan.). Night vision pedestrian detection using a forward-looking infrared camera. En Multi-Platform/Multi-Sensor Remote Sensing and Mapping (M2RSM), 2011 International Workshop on (p. 1 -4). Xu, Y., Cao, X., y Qiao, H. (2006, 0-0). A low-cost pedestrian detection system with a single optical camera. En Intelligent Control and Automation, 2006. WCICA 2006. The Sixth World Congress on (Vol. 2, p. 8759-8763).. 34.

(46)

Referencias

Documento similar

"No porque las dos, que vinieron de Valencia, no merecieran ese favor, pues eran entrambas de tan grande espíritu […] La razón porque no vió Coronas para ellas, sería

Además de aparecer en forma de volumen, las Memorias conocieron una primera difusión, a los tres meses de la muerte del autor, en las páginas de La Presse en forma de folletín,

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

Después de una descripción muy rápida de la optimización así como los problemas en los sistemas de fabricación, se presenta la integración de dos herramientas existentes

por unidad de tiempo (throughput) en estado estacionario de las transiciones.. de una red de Petri

Por lo tanto, en base a su perfil de eficacia y seguridad, ofatumumab debe considerarse una alternativa de tratamiento para pacientes con EMRR o EMSP con enfermedad activa

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de