DETECCIÓN DE PEATONES EN LA NOCHE USANDO FASTER R-CNN E IMÁGENES INFRARROJAS

Galarza Bravo, Michelle; Flores Calero, Marco; Galarza Bravo, Michelle; Flores Calero, Marco

doi:10.17163/ings.n20.2018.05

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Ingenius. Revista de Ciencia y Tecnología

On-line version ISSN 1390-860XPrint version ISSN 1390-650X

Ingenius n.20 Cuenca Jul./Dec. 2018

https://doi.org/10.17163/ings.n20.2018.05

Artículo científico

DETECCIÓN DE PEATONES EN LA NOCHE USANDO FASTER R-CNN E IMÁGENES INFRARROJAS

PEDESTRIAN DETECTION AT NIGHT BY USING FASTER R-CNN Y INFRARED IMAGES

Michelle Galarza Bravo¹magalarza@espe.edu.ec.

Marco Flores Calero²

¹Carrera de Ingeniería en Electrónica, Automatización y Control, Universidad de las Fuerzas Armadas ESPE.

²Departamento de Eléctrica y Electrónica, Universidad de las Fuerzas Armadas ESPE.

Resumen

En este artículo se presenta un sistema de detección de peatones en la noche, para aplicaciones en seguridad vehicular. Para este desarrollo se ha analizado el desempeño del algoritmo Faster R-CNN [1] con imágenes en el infrarrojo lejano. Por lo que se constató que presenta inconvenientes a la hora de detectar peatones a larga distancia. En consecuencia, se presenta una nueva arquitectura Faster R-CNN dedicada a la detección en múltiples escalas, mediante dos generadores de regiones de interés (ROI) dedicados a peatones a corta y larga distancia, denominados RPNCD y RPNLD respectivamente. Esta arquitectura ha sido comparada con los modelos para Faster R-CNN [1] que han presentado los mejores resultados, como son VGG-16 [2] y Resnet 101 [3]. Los resultados experimentales se han desarrollado sobre las bases de datos CVC-09 [4] y LSIFIR [5], los cuales demostraron mejoras, especialmente en la detección de peatones a larga distancia, presentando una tasa de error versus FPPI de 16 % y sobre la curva Precisión vs. Recall un AP de 89,85 % para la clase peatón y un mAP de 90 % sobre el conjunto de pruebas de las bases de datos LSIFIR [5] y CVC-09 [4].

Palabras clave peatón; infrarrojo; Faster R-CNN; RPN; múltiples escalas; noche

Abstract

In this paper we present a system for pedestrian detection at nighttime conditions for vehicular safety applications. For this purpose, we analyze the performance of the algorithm Faster R-CNN [1] for infrared images. So that we note that Faster R-CNN [1] has problems to detect small scale pedestrians. For this reason, we present a new Faster R-CNN architecture focused on multi-scale detection, through two ROI’s generators for large size and small size pedestrians, RPNCD and RPNLD respectively. This architecture has been compared with the best Faster R-CNN [1] baseline models, VGG-16 [2] and Resnet 101 [3], which present the best results. The experimental results have been development on CVC-09 [4] and LSIFIR [5] databases, which show improvements specially when detecting pedestrians that are far away, over the DET curve presents the miss rate versus FPPI of 16% and over the Precision vs Recall the AP of 89.85% for pedestrian class and the mAP of 90% over LSIFIR [5] and CVC-09 [4] test sets.

Keywords pedestrian; infrared; Faster R-CNN; RPN; multi-scale; nighttime

Introducción

Los sistemas de detección de peatones (SDP) son uno de los componentes tecnológicos más importantes que han surgido en los últimos años con el desarrollo de robótica móvil aplicada al sector automotriz y otras tecnologías similares destinadas a la seguridad vehicular ^[6], las cuales necesitan operar con altos estándares de calidad y tener una alta eficacia y precisión, debido a que su objetivo es proteger la vida humana a través de evitar que suceda un atropellamiento ^[7].

Varios informes, a nivel mundial, indican que los accidentes de tránsito generan altos costos materiales y humanos ^[8], donde los peatones tienen un alto porcentaje de accidentabilidad, llegando hasta el 22 % ^[9]. En el caso de Ecuador, los atropellamientos representan más del 10 % de las defunciones por accidentes de tránsito ^[10]. Por lo tanto, la detección de peatones es un tema de investigación activo y desafiante debido a la complejidad de la escena vial, la cual cambia constantemente debido a varios factores, por ejemplo, las condiciones atmosféricas contribuyen a una baja visibilidad y a un cambio permanente de la iluminación, las oclusiones generan información incompleta de la forma humana, la distancia perjudica la calidad de la información visual ^[6], ^[11], ^[12]. En la noche estos percances se magnifican debido a los ambientes de oscuridad ^[6], ^[7], ^[13], ^[14].

Por otra parte, debido al reciente éxito que han presentado las técnicas de aprendizaje profundo (Deep Learning) ^[15], ^[16], el principal objetivo de este trabajo es poner en marcha un método para la detección de peatones en la noche usando información visual en el infrarrojo lejano y las redes neuronales convolucionales, específicamente las arquitecturas del tipo Faster R-CNN ^[1], ^[14], ^[16], ^[17], ^[18], ^[19] para obtener un sistema competitivo que genere resultados de vanguardia comparables a los existentes en los trabajos previos. Por lo tanto, se presenta una nueva arquitectura Faster R-CNN a múltiples escalas, la cual es evaluada bajo los conjuntos de prueba de las bases datos CVC-09 ^[4] y LSIFIR ^[5]. Los resultados evidencian mejoras especialmente al detectar peatones que se encuentran en la lejanía.

El documento está organizado de la siguiente manera. A partir de la segunda sección se presenta los métodos y materiales usados, donde se detallan los trabajos previos realizados en el campo de los SDP en especial técnicas de aprendizaje profundo. Adicionalmente, se describe el diseño propuesto de la nueva arquitectura Faster R-CNN para la generación de regiones de interés, la clasificación y la detección de peatones durante la noche, seguido de la evaluación experimental para distintas configuraciones del modelo propuesto. Posteriormente en la sección de resultados y discusión se exhiben los valores obtenidos respecto a la calidad de detección sobre las bases de datos destinadas al desarrollo de SDP en la noche. Finalmente, la última sección está dedicada a las conclusiones, recomendaciones y los trabajos futuros que se pueden efectuar para mejorar esta propuesta.

Métodos y materiales

Trabajos previos

Actualmente, existen múltiples investigaciones especializadas en la detección de peatones en la noche ^[6], ^[7], ^[12], ^[13], ^[14], ^[19], ^[20], ^[21], ^[22], ^[23], ^[24], ^[26], ^[27],^[29], ^[36], ^[37], ^[38], ^[40], ^[41]. Para llevar a cabo este proceso, generalmente, se divide el trabajo en dos partes, la primera consiste en la generación de ROI; y la segunda en la clasificación de las mismas, en peatones o el fondo, de esta manera, se logra mantener localizada a la persona mientras permanece en la escena.

Generación de ROI sobre imágenes en el infrarrojo lejano

Para la generación de ROI sobre imágenes en el infrarrojo existen varios métodos, los más populares son: ventanas deslizantes (Sliding window) ^[20] que buscan exhaustivamente sobre toda la imagen en varias escalas, lo que hace que el método demande muchos recursos computacionales y no ser efectivo para aplicaciones en tiempo real. Para subsanar estos inconvenientes se han creado nuevas propuestas, por ejemplo, segmentación por movimiento, propuesto por Chen et al.^[21] donde utilizando PCA y técnicas Fuzzy identifican regiones de interés local. Kim y Lee ^[23] han desarrollado un método que combina segmentos de imagen en lugar de umbrales y las bajas frecuencias de las imágenes en el infrarrojo lejano. Ge et al.^[24] han propuesto un método de segmentación adaptativo compuesto de dos umbrales, uno especializado para localizar zonas brillantes y otro para zonas de poco contraste. Chun et al.^[25] aplica detección de bordes para obtener un generador de ROI más rápido.

En la actualidad existen métodos más sofisticados que usan modelos de redes neuronales convolucionales, y sus variantes, para la generación de nuevas propuestas ^[1], ^[6], ^[14], ^[20]. Así, la detección de puntos de calor en resolución multiespectral usando IFCNN (Illumination Fully Connected Neural Network) ha sido propuesta por Guan et al.^[13]. Vijay et al.^[22] añaden una red neuronal convolucional al trabajo de Chen et al.^[21], para la clasificación. Kim et al. ^[26] han usado cámaras en el espectro visible para detectar peatones en la noche usando CNN. Otras alternativas la red de propuestas de región (Region Proposal Network o RPN), inicialmente se central en localizar las ROI mediante una combinación de búsqueda exhaustiva y ventanas deslizantes, en tres orientaciones y tres escalas (9 cajas de referencia) por cada ventana deslizante. Cada propuesta inicial sirve para el entrenamiento de una red completamente convolucional para generar las predicciones del cuadro delimitador y los puntajes de probabilidad^[1].

Clasificación de peatones sobre imágenes en el infrarrojo lejano

Los métodos desarrollados para la clasificación se pueden agrupar en dos categorías: los modelos basados en la generación manual de características ^[27], ^[28],^[29], y los modelos de aprendizaje automático de características usando técnicas de aprendizaje profundo (DL, Deep Learning) ^[13], ^[16], ^[30], ^[31], ^[32], ^[33], ^[34], ^[35].

En el primer caso se usan distintos métodos manuales de generación de características junto con un algoritmo de clasificación, algunos ejemplos son: HOG + SVM ^[36], ^[37], HOG + Adaboost ^[38], HOG + LUV ^[39], Haar + Adaboost ^[40], Haar + HOG y SVM ^[41]. En la segunda categoría están las redes neuronales convolucionales (CNN) ^[7], ^[13], ^[16], ^[31], ^[35], con sus distintas arquitecturas, como son R-CNN ^[42], Fast R-CNN ^[43] y Faster R-CNN ^[1], ^[19].

La arquitectura Fast R-CNN ^[1], ^[19] esencialmente disminuye la carga computacional, respecto a CNN, y por esta razón disminuye el tiempo de detección que presenta la capa R-CNN ^[43]. En consecuencia, Fast R-CNN junto con búsqueda selectiva, presenta una mejor calidad de detección. Sin embargo, ambos métodos necesitan de un generador de ROI externo y tienen problemas al momento de detectar objetos pequeños que, en el contexto de los peatones, implica largas distancias ^[43],^[44].

Para remediar estos inconvenientes se ha llegado a Faster R-CNN ^[1], ^[19] que añade un generador de ROI basado en capas completamente conectadas RPN el cual comparte con Fast R-CNN^[19], los mapas de características generados por la red convolucional. Por ende, se puede implantar redes muy profundas debido a que la imagen total pasa una sola vez por la etapa CNN ^[19].

Por lo tanto, Faster R-CNN está siendo utilizada ampliamente para construir SDP^[6], ^[14], ^[44]. Por ejemplo, en ^[6] se ha empleado Faster R-CNN para detección de peatones en múltiples espectros, inicialmente se ha entrenado Faster R-CNN únicamente con imágenes a color e infrarrojas, Faster RCNN-C y Faster RCNN-T respectivamente, utilizando para el entrenamiento un nuevo modelo de red neuronal. Posteriormente se han combinado características en diferentes etapas creando así los modelos Early Fusion, Halfway Fusion, Late Fusion y Score Fusion. Adicionalmente, Wang et al.^[14], tomando como referencia a Liang et al.^[43], combina RPN + BDT para construir un sistema de detección de peatones en múltiples espectros. Sin embargo, se considera que Faster RCNN no funciona muy bien para la detección de peatones, debido a que los mapas de características no presentan la información suficiente para peatones a larga distancia. Por esta razón, Feris et al.^[45] han propuesto una subred para la generación de ROI en múltiples escalas junto con una subred para la clasificación basada en Fast R-CNN.

Sistema de detección de peatones en la noche

La Figura 1 muestra el esquema propuesto para el desarrollo del SDP en la noche, usando imágenes tomadas con iluminación infrarroja y como arquitectura base Faster R-CNN junto con el modelo VGG16 ^[2] donde se han desarrollado algunos cambios detallados a continuación.

Generación de ROI sobre imágenes en el infrarrojo lejano

Debido a que la arquitectura original de Faster RCNN^[1], ^[19] presenta problemas de detección en el caso de peatones que se encuentran en la lejanía, se considera la arquitectura desarrollada en Feris et al.^[45]. Por lo tanto, se ha decidido colocar dos redes de propuestas de región (RPN) independientes, que presentan diferentes características, las mismas que están detalladas en la Tabla 2. En ambos casos, con un enfoque dirigido a peatones a corta (RPNCD) y larga distancia (RPNLD). Como se muestra en la Figura 2, RPNLD es alimentado por las características que son proporcionadas por la capa conv4_3 de VGG16 ^[2], debido a que las redes de agrupación pueden discriminar peatones que se encuentren en la lejanía, donde los mapas de características más abundantes son beneficiosos para detectar peatones a largas distancias ^[11]. En cuanto a RPNCD al igual que la arquitectura original de Faster R-CNN ^[1] es alimentado por las características entregadas por la capa conv5_3, ya que extrae las características más representativas presentes en la imagen, por esta razón proporciona excelentes resultados para peatones a corta distancia.

Figura 1. Esquema del sistema de detección de peatones en la noche usando Faster R-CNN e imágenes en el infrarrojo lejano.

Figura 2. Arquitectura RPN multiescala basada en la red VGG16 ^[2]. Esta es la subred encargada de la etapa de generación de ROI.

Figura 3. Arquitectura de clasificación MS-CNN ^[41]. Esta subred está destinada para la etapa de clasificación.

Clasificación de ROI sobre imágenes en el infrarrojo lejano

Para la etapa de clasificación se propone la arquitectura que se presenta en la Figura 3. Como en ^[45] se considera aumentar la resolución de los mapas de características aplicando deconvolución, para proveer mejor información a la capa de agrupamiento ROI. Por lo tanto, la parte de Fast R-CNN recibe como entrada directamente las características extraídas por la capa conv4_3 de VGG16 ^[2], su deconvolución y las ROI generadas por RPNCD y RPNLD, en conjunto.

Detalles técnicos de la implementación

El aprendizaje de la arquitectura propuesta se ha desarrollado a partir de las bases de datos CVC-09 ^[4] y LSIFIR ^[5] que se detallan a continuación:

1. La base de datos CVC-09 ^[4]: Es una de las bases más utilizadas para la detección de peatones en la noche. En este caso se la usó para el entrenamiento y prueba de la propuesta, y posteriormente para su validación. En la Tabla 1 se describen los conjuntos de entrenamiento y de prueba. Esta base de datos viene etiquetada con los peatones presentes en la escena B_gt

Tabla 1. Contenido de la base de datos CVC-09 en la noche

Sin embargo, para el caso de largas distancias la base de datos presenta inconsistencias que han sido corregidas. Así, se ha re-etiquetado un conjunto de imágenes para corregir estos inconvenientes y depurar los errores de etiquetado.

2. La base de datos LSI Far Infrared Pedestrian Dataset (LSIFIR) ^[4]: Es otra base de datos importante destinada al desarrollo de algoritmos de detección de peatones en la noche. En la Tabla 2 se describen los conjuntos de entrenamiento y de prueba, con sus respectivos tamaños. En este caso al igual que CVC-09 se la usó para el entrenamiento, validación y prueba de la propuesta.

Tabla 2. Contenido de la base de datos LSIFIR. El valor entre paréntesis representa el número de fotogramas que contienen peatones

Para el aprendizaje de la red, el algoritmo inicialmente re-escala la parte más corta de la imagen de entrada a 600 pixeles. En cuanto al entrenamiento de la red, se lo realiza mediante la metodología de entrenamiento conjunto aproximado planteada por Ren et al.^[1], además, los pesos de cada capa perteneciente a la red son inicializados por medio del modelo pre-entrenado VGG16, para luego ser sintonizado mediante Minibatch Stochastic Gradient Descent ^[46] y el reciente algoritmo de optimización Adam^[47] con hiperparámetros detallados en la Tabla 3.

En cuanto a las RPN, estas trabajan de manera independiente. Por lo tanto, su entrenamiento también lo es. Las propuestas generadas por cada una de ellas son combinadas para luego ser etiquetadas mediante el algoritmo de NMS (Non Maximum Supression), donde si el índice IoU (Intersection over union), dada por Ecuación (1), es mayor que 0,6 es un peatón, si es menor que 0,3 es etiquetado como no peatón, y en caso de no cumplir con ninguna de las dos condiciones, dichas propuestas son excluidas del entrenamiento.

Inmediatamente, en la etapa de clasificación se vuelve a aplicar NMS para reducir redundancias en la detección, aplicando un umbral de 0.6, donde cada detección mayor al umbral se etiqueta como peatón caso contrario no peatón.

(1)

Donde B _gt es la intersección y B _det la unión, entre el cuadro delimitador real anotado en la base de datos CVC-09 ^[4] o LSIFIR^[5] y el resultado del cuadro delimitador predicho por nuestro modelo.

Tabla 3. Parámetros de entrenamiento para el modelo propuesto para la detección de peatones en la noche

Evaluación experimental

Para llegar al modelo propuesto, se han desarrollado múltiples experimentos, como se puede observar en las Tablas 4 y 5. Donde se analiza la subred de generación de ROI y los efectos que provoca la configuración de las distintas escalas y las relaciones de aspecto de RPNCD y RPNLD.

Para los experimentos se ha hecho uso de los conjuntos de entrenamiento de CVC-09 junto con LSIFIR para la etapa de aprendizaje de la red y los conjuntos de prueba para la evaluación.

Adicionalmente, se analizó la subred de clasificación y los efectos que provoca la deconvolución. En la Tabla 5, los resultados demuestran que al aplicar esta estrategia permite aumentar la resolución de los mapas de características, lo cual provoca un incremento del mAP en un 6 % aproximadamente.

Tabla 4. Parámetros de configuración de cajas de referencia RPN para peatones a corta y larga distancia. Resultados de la subred de generación de ROI

Tabla 5. Resultados obtenidos al aplicar deconvolución a la subred de clasificación

Resultados y discusión

En cuanto a la evaluación de la efectividad de la propuesta se utilizaron dos de las bases de datos que representan el punto de referencia, destinadas al desarrollo de sistemas de detección de peatones durante la noche utilizando iluminación infrarroja.

Protocolo de evaluación

Para evaluar el sistema propuesto se propone la métrica precisión media promedio (mAP que es el Mean Average Precision) la cual permite medir la precisión del detector, de manera que se calcula la precisión promedio de cada detección para diferentes valores del índice recall ^[1].

Adicionalmente, se seguirá el protocolo estándar planteado por Dollár et al. [48], es decir, se usarán las curvas que relacionan la tasa de error promedio (miss rate) versus los falsos positivos por imagen (FPPI); en el rango de 10−2 a 100 FPPI, que es un indicador de la exactitud especializado en temas vehiculares para la detección de peatones.

Figura 4. Curva Precisión vs. Recall de los resultados obtenidos con el modelo VGG16 ^[2] junto con Faster R-CNN para la clase peatón, sobre la combinación de los conjuntos de prueba de las bases de datos CVC-09 y LSIFIR.

Figura 5. Curva Precisión vs. Recall de los resultados obtenidos para el modelo Resnet 101 [3] junto con Faster R-CNN para la clase peatón, sobre la combinación de los conjuntos de prueba de las bases de datos CVC-09 y LSIFIR.

Figura 6. Curva Precisión vs. Recall de los resultados obtenidos para el modelo propuesto junto con Faster R-CNN para la clase peatón, sobre la combinación de los conjuntos de prueba de las bases de datos CVC-09 y LSIFIR.

Discusión de los resultados

Los experimentos llevados a cabo sobre los conjuntos de prueba de las bases de datos CVC-09 ^[4] y LSIFIR ^[5] para distintas arquitecturas de red Faster R-CNN se presentan en la Tabla 6. Los resultados han sido obtenidos bajo las mismas condiciones computacionales, donde se puede observar que esta nueva propuesta alcanza un mAP de 94,6 %, en la etapa de validación, lo que demuestra que el aprendizaje es superior a las otras propuestas. Pero tiene el inconveniente de requerir un mayor esfuerzo computacional.

Tabla 6. Resultados de las pruebas y validación de la base de datos CVC-09. Precisión media promedio (mAP) y procesamiento de imágenes por segundo (fps)

Figura 7. Curvas de las tasas de error promedio versus FPPI para las distintas arquitecturas de red Faster R-CNN sobre la combinación de los conjuntos de prueba de las bases de datos CVC-09 y LSIFIR.

Tabla 7. Comparación tasas de error promedio de sistemasde detección de peatones en la noche bajo las bases de datosCVC-09 y LSIFIR

Así se puede observar en la Figura 7 que se ha superado los resultados de los modelos originales de Faster R-CNN y otros modelos presentados por otras investigaciones, como se detalla en la Tabla 7.

Tiempo de procesamiento

Para la evaluación experimental se usó un equipo compuesto por una GPU con el sistema operativo Linux 16.04, una tarjeta Nvidia Geforce GTX 1080 Ti, con 11 GB GDDR5X 352 bit de memoria. El tiempo de entrenamiento fue de 5 horas aproximadamente. El tiempo promedio de detección es de 170 milisegundos, sobre imágenes de 640×480 píxeles; es decir, el sistema procesa 5 imágenes por segundo.

Figura 8. Ejemplos seleccionados con los resultados obtenidos sobre la combinación de los conjuntos de prueba de las bases de datos LSIFIR y CVC-09, durante la noche.

Conclusiones y recomendaciones

Conclusiones

En este trabajo se ha presentado un método de detección de peatones en la noche usando modernas técnicas de inteligencia artificial, donde se realizaron los siguientes aportes:

Desarrollar una nueva arquitectura DL basada en Faster R-CNN junto con el modelo VGG16 para la detección de peatones en la noche usando imágenes en el infrarrojo lejano. La red RPN de múltiples escalas presentó una mejor detección específicamente para peatones a larga distancia. En comparación con la arquitectura original de RPN, la arquitectura de RPNCD y RPNLD produjo mejores resultados, la nueva arquitectura incrementó el mAP del 76,4 al 86 %. Adicionalmente, se presentó un aporte significativo al aplicar la deconvolución a la subred de clasificación donde, el mAP incrementó del 86 al 89,9 %. Sin embargo, la deconvolución añadida en la etapa de clasificación incrementa la carga computacional. En consecuencia, la red reduce el procesamiento de 10 fotogramas a 5 fotogramas por segundo.
Comparar el desempeño de la arquitectura original de Faster R-CNN junto con los modelos VGG16 y Resnet 101, sobre las bases de datos CVC-09 y LSIFIR, obteniéndose resultados superiores en mAP 9,7 % para Resnet 101 y 13,5 % para VGG16. En cuanto a la tasa de error promedio, se obtuvo una diferencia de 29,96 % para Resnet 101 y 36,09 % para VGG16.
Respecto a la detección, el modelo propuesto demuestra un rendimiento superior respecto a los métodos Olmeda et al.^[2] y John et al.^[18], donde la tasa de error promedio es reducida en un 8,88 % respecto a ^[2] y 49,18 % respecto a ^[18].
El tiempo de procesamiento es de 5 fotogramas por segundo, lo que convierte a esta propuesta en un método viable para aplicaciones en tiempo real, destinado a seguridad vehicular.

Recomendaciones y trabajos futuros

Para mejorar el desempeño de este sistema es necesario incluir las siguientes recomendaciones:

Optimizar el algoritmo propuesto para que trabaje en tiempo real, es decir, sea capaz de procesar al menos 25 fotogramas por segundo.
Incluir un conjunto de características basadas en múltiples espectros para un mejor rendimiento durante el día y la noche.

Agradecimientos

Los autores desean expresar sus agradecimientos a los investigadores que han hecho posible las bases de datos de peatones en el infrarrojo, ya que sin esta información habría sido muy difícil desarrollar esta investigación. Además, los autores desean reconocer a los revisores anónimos que contribuyen con su trabajo en la mejora de la redacción de este documento.

Referencias

[1] D. König, M. Adam, C. Jarvers, G. Layher,H. Neumann, and M. Teutsch, “Fully convolutionalregion proposal networks for multispectralperson detection,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), July 2017. doi: https://doi.org/10.1109/CVPRW.2017.36, pp. 243–250. [ Links ]

[2] D. Olmeda, C. Premebida, U. Nunes, J. M. Armingol,and A. de la Escalera, “Pedestrian detectionin far infrared images,” Integrated Computer-Aided Engineering, vol. 20, no. 4, pp. 347–360,2013. [Online]. Available: https://goo.gl/Rss9Qp [ Links ]

[3] WHO. (2004) World report on road traffic injuryprevention. World Health Organization. [Online].Available: https://goo.gl/PBhixd [ Links ]

[4] ANT. (2017) Siniestros octubre 2016. Agencia Nacional de Tránsito. Ecuador. [Online]. Available:https://goo.gl/GoXFX5 [ Links ]

[5] ——. (2016) Siniestros agosto 2017. Agencia Nacional de Tránsito. Ecuador. [Online]. Available:https://goo.gl/GoXFX5 [ Links ]

[6] J. Li, X. Liang, S. Shen, T. Xu, and S. Yan, “Scale-aware fast R-CNN for pedestriandetection,” CoRR, 2015. [Online]. Available:https://goo.gl/27CMsz [ Links ]

[7] J. Yan, X. Zhang, Z. Lei, S. Liao, and S. Z.Li, “Robust multi-resolution pedestrian detectionin traffic scenes,” in IEEE Conference on ComputerVision and Pattern Recognition, June 2013.doi: https://doi.org/10.1109/CVPR.2013.390, pp.3033–3040. [ Links ]

[8] D. Guan, Y. Cao, J. Liang, Y. Cao, and M. Y.Yang, “Fusion of multispectral data throughillumination-aware deep neural networks forpedestrian detection,” CoRR, 2018. [Online].Available: https://goo.gl/AAWJFp [ Links ]

[9] J. Liu, S. Zhang, S. Wang, and D. N. Metaxas,“Multispectral deep neural networks for pedestrian detection,” CoRR, 2016. [Online]. Available:https://goo.gl/Czc6Jg [ Links ]

[10] Y. Guo, Y. Liu, A. Oerlemans, S. Lao, S. Wu, andM. S. Lew, “Deep learning for visual understanding:A review,” Neurocomputing, vol. 187, pp. 27–48, 2016. doi: https://doi.org/10.1016/j.neucom.2015.09.116, recent Developments on Deep BigVision. [ Links ]

[11] L. Deng and D. Yu, “Deep learning: Methods andapplications,” Foundations and Trends in Signal Processing, vol. 7, no. 3–4, pp. 197–387, 2014. doi:http://dx.doi.org/10.1561/2000000039. [Online].Available: http://dx.doi.org/10.1561/2000000039 [ Links ]

[12] S. Ren, K. He, R. Girshick, and J. Sun,“Faster r-cnn: Towards real-time object detectionwith region proposal networks,” in Advancesin Neural Information Processing Systems 28. Curran Associates, Inc., 2015, pp. 91–99. [Online].Available: https://goo.gl/5i64rm [ Links ]

[13] C. Ertler, H. Posseger, M. Optiz, and H. Bischof,“Pedestrian detection in rgb-d images from anelevated viewpoint,” in 22nd Computer Vision Winter Conference, 2017. [Online]. Available:https://goo.gl/L4wB1e [ Links ]

[14] C. C. Pham and J. W. Jeon, “Robust objectproposals re-ranking for object detection in autonomousdriving using convolutional neural networks,” Signal Processing: Image Communication,vol. 53, pp. 110–122, 2017. doi: https://doi.org/10.1016/j.image.2017.02.007. [ Links ]

[15] X. Zhang, G. Chen, K. Saruta, and Y. Terata,“Deep convolutional neural networks for all-daypedestrian detection,” in Information Science and Applications 2017, K. Kim and N. Joukov, Eds.Singapore: Springer Singapore, 2017. doi: https://doi.org/10.1007/978-981-10-4154-9_21, pp. 171–178. [ Links ]

[16] Elektra, CVC-09: FIR Sequence PedestrianDataset, ElektraAutonomous Vehicle developed. 2016. [ Links ]

[17] D. Olmeda, C. Premebida, U. Nunes, J. Armingol, and A. de la Escalera., “ Lsi far infrared pedestrian dataset,” Universidad Carlos III de Madrid. España, 2013. [Online]. Available:https://goo.gl/pJTGvj [ Links ]

[18] D. Heo, E. Lee, and B. Chul Ko, “Pedestrian detection at night using deep neural networks ysaliency maps,” Journal of Imaging Science andTechnology, vol. 61, no. 6, pp. 60 403–1–60 403–9,2017. doi: https://doi.org/10.2352/J.ImagingSci.Technol.2017.61.6.060403. [ Links ]

[19] C. Bingwen, W. Wenwei, and Q. Qianqing, “Robustmulti-stage approach for the detection ofmoving target from infrared imagery,” Optical Engineering, vol. 51, no. 6, 2012. doi: https://doi.org/10.1117/1.OE.51.6.067006. [ Links ]

[20] V. John, S. Mita, Z. Liu, and B. Qi, “Pedestriandetection in thermal images using adaptive fuzzyc-means clustering and convolutional neural networks,”in 2015 14th IAPR International Conference on Machine Vision Applications (MVA), May 2015. doi: https://doi.org/10.1109/MVA.2015.7153177, pp. 246–249. [ Links ]

[21] D. Kim and K. Lee, “Segment-based region ofinterest generation for pedestrian detection infar-infrared images,” Infrared Physics & Technology,vol. 61, pp. 120–128, 2013. doi: https://doi.org/10.1016/j.infrared.2013.08.001. [ Links ]

[22] J. Ge, Y. Luo, and G. Tei, “Real-time pedestriandetection and tracking at nighttime for driverassistancesystems,” IEEE Transactions on Intelligent Transportation Systems, vol. 10, no. 2,pp. 283–298, June 2009. doi: https://doi.org/10.1109/TITS.2009.2018961. [ Links ]

[23] J. H. Kim, H. G. Hong, and K. R. Park, “Convolutional neural network-based human detectionin nighttime images using visible light camerasensors,” Sensors, vol. 17, no. 5, pp. 1–26, 2017.doi: https://doi.org/10.3390/s17051065. [ Links ]

[24] B. Qi, V. John, Z. Liu, and S. Mita, “Pedestrian detection from thermal images with a scattereddifference of directional gradients feature descriptor,” in 17th International IEEE Conference on Intelligent Transportation Systems (ITSC), Oct2014. doi: https://doi.org/10.1109/ITSC.2014.6958024, pp. 2168–2173. [ Links ]

[25] M. R. Jeong, J. Y. Kwak, J. E. Son, B. Ko,and J. Y. Nam, “Fast pedestrian detection usinga night vision system for safety driving,” in 2014 11th International Conference on Computer Graphics, Imaging and Visualization, Aug 2014.doi: https://doi.org/10.1109/CGiV.2014.25, pp.69–72. [ Links ]

[26] J. Kim, J. Baek, and E. Kim, “A novel on-road vehicledetection method using hog,” IEEE Transactions on Intelligent Transportation Systems,vol. 16, no. 6, pp. 3414–3429, Dec 2015. doi:https://doi.org/10.1109/TITS.2015.2465296. [ Links ]

[27] K. Piniarski, P. Pawlowski, and A. D. abrowski,“Pedestrian detection by video processing in automotivenight vision system,” in 2014 Signal Processing: Algorithms, Architectures, Arrangements,and Applications (SPA), Sept 2014, pp. 104–109.[Online]. Available: https://goo.gl/uxnD6X [ Links ]

[28] S. L. Chang, F. T. Yang, W. P. Wu, Y. A. Cho,and S. W. Chen, “Nighttime pedestrian detectionusing thermal imaging based on hog feature,” in Proceedings 2011 International Conference on System Science and Engineering, June 2011. doi: https://doi.org/10.1109/ICSSE.2011.5961992, pp.694–698. [ Links ]

[29] H. Sun, C. Wang, and B. Wang, “Night visionpedestrian detection using a forward-looking infraredcamera,” in 2011 International Conference on Multi-Platform/Multi-Sensor Remote Sensingand Mapping, Jan 2011. doi: https://doi.org/10.1109/M2RSM.2011.5697384, pp. 1–4. [ Links ]

[30] P. Govardhan and U. C. Pati, “Nir image basedpedestrian detection in night vision with cascade classification and validation,” in 2014 IEEE International Conference on Advanced Communications, Control and Computing Technologies, May 2014. doi: https://doi.org/10.1109/ICACCCT.2014.7019339, pp. 1435–1438. [ Links ]

[31] Y. Chun-he and D. Cai-Fang, “Research of themethod of quickly finding the pedestrian area ofinterest,” Journal of Electrical and Electronic Engineering, vol. 5, no. 5, pp. 180–185, 2017. doi:http://doi.org/10.11648/j.jeee.20170505.14. [ Links ]

[32] J. Baek, J. Kim, and E. Kim, “Fast and efficient pedestrian detection via the cascade implementation of an additive kernel support vector machine,” IEEE Transactions on Intelligent Transportation Systems, vol. 18, no. 4, pp. 902–916, April 2017.doi. https://doi.org/10.1109/TITS.2016.2594816. [ Links ]

[33] Y. Guo, Y. Liu, A. Oerlemans, S. Lao, S. Wu,and M. S. Lew, “Deep learning for visual understanding: A review,” Neurocomputing, vol. 187,pp. 27–48, 2016. doi: https://doi.org/10.1016/j.neucom.2015.09.116. [ Links ]

[34] H. A. Perlin and H. S. Lopes, “Extracting human attributes using a convolutional neural network approach,” Pattern Recognition Letters, vol. 68,pp. 250–259, 2015. doi: https://doi.org/10.1016/j.patrec.2015.07.012. [ Links ]

[35] P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. Lecun, “Pedestrian detection with unsupervised multi-stage feature learning,” in 2013 IEEE Conference on Computer Vision and Pattern Recognition, June 2013. doi: https://doi.org/10.1109/CVPR.2013.465, pp. 3626–3633. [ Links ]

[36] D. Ribeiro, J. C. Nascimento, A. Bernardino, andG. Carneiro, “Improving the performance of pedestriandetectors using convolutional learning,” Pattern Recognition, vol. 61, pp. 641–649, 2017. doi: https://doi.org/10.1016/j.patcog.2016.05.027. [ Links ]

[37] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. Lecun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” 12 2013. [Online]. Available:https://goo.gl/zNNUCdf [ Links ]

[38] D. Tomè, F. Monti, L. Baroffio, L. Bondi, M. Tagliasacchi, and S. Tubaro, “Deep convolutional neural networks for pedestrian detection,” Signal Processing: Image Communication, vol. 47, pp. 482–489, 2016. doi: https://doi.org/10.1016/j.image.2016.05.007. [ Links ]

[39] J. Cao, Y. Pang, and X. Li, “Learning multilayer channel features for pedestrian detection,” IEEE Transactions on Image Processing, vol. 26,no. 7, pp. 3210–3220, July 2017. doi: https://doi.org/10.1109/TIP.2017.2694224. [ Links ]

[40] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in 2014 IEEE Conference on Computer Vision and Pattern Recognition, June 2014. doi: https://doi.org/10.1109/CVPR.2014.81, pp. 580–587. [ Links ]

[41] R. Girshick, “Fast r-cnn,” in 2015 IEEE International Conference on Computer Vision (ICCV),Dec 2015. doi: https://doi.org/10.1109/ICCV.2015.169, pp. 1440–1448. [ Links ]

[42] L. Zhang, L. Lin, X. Liang, and K. He, “Is faster rcnndoing well for pedestrian detection?” in Computer Vision – ECCV 2016, B. Leibe, J. Matas,N. Sebe, and M. Welling, Eds. Cham: Springer International Publishing, 2016. doi: https://doi.org/10.1007/978-3-319-46475-6_28, pp. 443–457. [ Links ]

[43] Z. Cai, Q. Fan, R. Feris, and N. Vasconcelos, “A unified multi-scale deep convolutional neural network for fast object detection,” 2016. [Online]. Available: https://goo.gl/Y4XNZv [ Links ]

[44] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations, 2014. [Online]. Available:https://goo.gl/98akRT [ Links ]

[45] J. Konecný, J. Liu, P. Richtárik, and M. Takác, “Mini-batch semi-stochastic gradient descent inthe proximal setting,” IEEE Journal of Selected Topics in Signal Processing, vol. 10, no. 2, pp. 242–255, March 2016. doi: https://doi.org/10.1109/JSTSP.2015.2505682. [ Links ]

[46] D. P. Kingma and J. Ba, “Adam: a method for stochastic optimization,” in ICLR 2015, 2015. [Online]. Available: https://goo.gl/so1Da8 [ Links ]

[47] P. Dollar, C. Wojek, B. Schiele, and P. Perona,“Pedestrian detection: An evaluation of the state ofthe art,” IEEE Transactions on Pattern Analysisand Machine Intelligence, vol. 34, no. 4, pp. 743–761, April 2012. doi: https://doi.org/10.1109/TPAMI.2011.155. [ Links ]

Recibido: 02 de Mayo de 2018; Aprobado: 18 de Junio de 2018

2018. Universidad Politécnica Salesiana

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.