ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

2
Publication date:
16 June 2024

A system for automatic traffic signs mapping

The article was published in issue no. № 3, 2013 [ pp. 288-291 ]
Abstract:The article describes a system for the large-scale automatic traffic signs recognition and mapping. To apply au-tomatic methods successfully we need the cumulative time ofautomatic algorithm and time for error correction to be less than the time for manual data labeling by the human operator. Our system consists of four modules: detection, recognition, linking and localization. Detection and recognition mean that traffic sign position is determined on each frame separately and class label is assigned for each detected sign. On the linkage step the same physical signs from different frames arelinked in-to the sequence that allows refining detection and recognition results. Coordinates of the linked sequence aredetermined on the localization step by triangulation. We experimentally justifyed design choices made for different components of the sys-tem. The system works with more than 140 different classes of traffic signs and does not require labor-intensive labeling of large amount of training data due to the training on synthetically generated images. We evaluated our system on the large da-taset of Russian traffic signs and made this dataset publicly available to encourage future comparison.
Аннотация:Рассмотрена задача автоматического нанесения дорожных знаков на карту. Для успешного применения автоматических методов на практике необходимо, чтобы суммарное время работы автоматического алгоритма и время исправления его ошибок были в разы меньше времени разметки оператором. Описывается система автоматического нанесения знаков на карту, состоящая из модулей обнаружения, распознавания, связывания и локализации. На этапах обнаружения и распознавания положение знака определяется независимо на каждом кадре и каждому обнаруженному знаку присваивается метка класса. На этапе связывания одни и те же физические знаки с соседних кадров объединяются в последовательности, что позволяет уточнить результаты этапа обнаружения и распознавания. На этапе локализации определяются координаты связанной последовательности знаков за счет применения метода триангуляции. Проведены эксперименты, подтверждающие эффективность различных компонентов предложенной системы. Система работает более чем со 140 классами знаков дорожного движения и не требует ручной разметки большого количества тренировочных изображений за счет обучения на синтетически полученных данных. Создана большая коллекция знаков дорожного движения Российской Федерации. Проведено тестирование системы на предложенной коллекции. Коллекция находится в открытом доступе, чтобы способствовать сравнению с другими методами.
Authors: (aachigorin@graphics.cs.msu.ru) - , Russia, Konushin A.S. (ktosh@graphics.cs.msu.ru) - (Lomonosov Moscow State University, Moscow, Russia, Ph.D
Keywords: synthetic data, traffic signs, pattern recognition, traffic signs mapping
Page views: 17462
Print version
Full issue in PDF (13.63Mb)
Download the cover in PDF (1.39Мб)

Font size:       Font:

Лучшие методы распознавания знаков дорожного движения основаны на машинном обучении [1] и требуют сбора большой обучающей коллекции изображений. Чтобы получить подобную коллекцию, оператору необходимо просмотреть сотни километров проезда, особенно в случае редко встречающихся классов знаков. Обойти описанную проблему можно, используя для обучения предлагаемую синтетическую коллекцию изображений.

Суть метода состоит в том, что на вход системе подается набор геопривязанных изображений, чтобы получить на выходе карту с нанесенными на нее знаками.

Обзор литературы

Подпись:  
а)								б)
Рис. 1. а) примеры типов знаков, обрабатываемых предлагаемой системой; 
б) примеры создаваемых синтетических данных
Авторам известны несколько опубликованных работ, описывающих системы распознавания знаков, выполняющие полный цикл – от обнаружения до распознавания и сопровождения. Все эти системы отличаются от предлагаемой либо точ- ностью работы, либо требованиями, накладываемыми на оборудование снимающей машины. В работе [2] описана система, созданная на основе каскада классификаторов и обученная на разобщенных диполях (dissociated dipoles [3]). Она способна распознавать четыре типа знаков. Была достигнута полнота в 50–60 % для монокулярного видео с одним ложноположительным срабатыванием на каждые 13–52 кадра. Другая многокамерная система описана в [4]. Она способна обнаруживать и распознавать 62 класса знаков. В работе [5] аппаратно-ориентированная реализация дескриптора HOG [6] позволила получить полноту в 99 % при одном ложноположительном срабатывании на 1010 окон детектора.

Преимущества предлагаемой системы: она лучше и по полноте, и по точности, чем система из [2]; при использовании только одной камеры достигнута полнота в 96,8 % при двух ложноположительных срабатываниях на кадр по сравнению c [3]; система работает со 140 классами знаков (в отличие от трех в [5]).

Коллекция знаков дорожного движения Российской Федерации

Авторы собрали и вручную разметили большую коллекцию знаков дорожного движения Российской Федерации [7], содержащую 9 508 изображений со знаками и 71 050 фоновых изображений. Она состоит из 14 360 отмеченных прямоугольников со знаками, 6 387 из которых имеют метку физического знака. Всего отмечено 863 физических знака. Таким образом, каждый физический знак заснят в среднем 7,3 раза. Коллекция разделена на обучающую и тестовую выборки. Обучающая выборка состоит из 4 754 изображений со знаками и 44 817 фоновых изображений. Остальные изображения содержатся в тестовой части.

Описание системы

Данные на вход поступают от системы мобильного картографирования, оснащенной одной камерой и GPS-модулем. Камера способна выдавать 0,9 MPix изображения пять раз в секунду. В данной работе описываются результаты для четырех типов дорожных знаков РФ, объединенных визуальной похожестью (рис. 1а).

Система состоит из четырех модулей:

–      обнаружения, осуществляет поиск знаков на каждом входном кадре;

–      распознавания, присваивает метку класса каждому обнаруженному знаку;

–      сопоставления, связывает одни и те же физические знаки на соседних кадрах;

–      локализации, вычисляет положение знака в мировых координатах.

Создание синтетических данных

Знак дорожного движения – это твердый планарный объект. Данный факт делает создание синтетических изображений знака достаточно простой задачей. Авторы применили серию трансформаций к пиктограммам знаков из википедии, чтобы получить синтетические изображения, визуально похожие на реальные.

Представим трансформации, применяемые к каждой пиктограмме:

–      изменение яркости и насыщенности;

–      поворот, масштабирование и смещение знака в трехмерном пространстве;

–      добавление гауссового шума, шума «соль и перец», эффектов пикселизации и размытия;

–      добавление фона из реальных изображений со смешиванием по краям.

Пример получаемых синтетических данных приведен на рисунке 1б. Каждая трансформация задана вероятностью появления, а в случае появления – распределением вероятности на параметры трансформации (подробнее об алгоритме создания синтетической выборки см. в [8]).

Обнаружение дорожных знаков

В данной работе, как и в [2, 4, 5], используется каскад классификаторов, на первых этапах которого применяются классификаторы AdaBoost, обученные на разобщенных диполях [3]. Изображение предобрабатывается с помощью фильтров, извлекающих основные цвета знаков из изображения [9]. На каждом этапе каскада для обучения используются 10 000 синтетических и 16 000 фоновых примеров, полученных из реальных изображений с помощью бутстрэппинга. Тринадцать этапов каскада обучаются, пока доля ложноположительных срабатываний не достигнет 10-7.

Подпись:  
				а)								б)
Рис. 2. Сравнение различных признаков 
и классификаторов, использованных на последних этапах каскада: a) для типа «синие квадраты», 
б) для типа «красные треугольники»
После этого происходит обучение глубокой сверточной нейронной сети на значительно большем объеме синтетических данных, состоящем из 200 000 примеров. Предлагаемая сеть состоит из пяти слоев с обучаемыми весами и двух слоев подвыборки. Она принимает на вход изображения размером 30´30 пикселей, нормализованные с помощью выравнивания гистограмм. Подробнее о параметрах сети см. в [10] (использованы параметры для базы CIFAR-10). Этапы бутстрэппинга повторяются, пока доля ложноположительных срабатываний не достигнет 10-9. Таким образом, обучаются четыре детектора для каждого типа знаков.

Для проверки того, что использование нейронной сети на последнем этапе каскада улучшает точность обнаружения, проведен ряд экспериментов, в которых сравнивались точность работы детектора, обученного только на диполях, и детектора с нейронной сетью на последнем этапе. Оба детектора были обучены до одного и того же процента ложноположительных срабатываний. Рисунок 2 показывает, что использование нейронной сети позволяет улучшить полноту в среднем на 7 %. Итоговая точность работы детектора для четырех типов знаков приведена в таблице 1.

Таблица 1

Точность работы детектора для четырех типов знаков

Тип знака

Доля ложноположительных срабатываний

Полнота по физическим знакам, %

Синие квадраты

2×10-10

92,18

Красные треугольники

7×10-10

82,35

Синие круги

6×10-10

83

Красные круги

2×10-9

84,7

Распознавание дорожных знаков

Модуль распознавания также основан на глубоких сверточных нейронных сетях, которые показали, что являются лучшим классификатором для данной задачи [1]. Она состоит из двух сверточных слоев, за каждым из которых следует слой подвыборки. За вторым слоем подвыборки следуют два полносвязных слоя и softmax-слой, возвращающий распределение на метки классов. Сеть обучалась на синтетических данных для каждого типа знаков. Результаты работы четырех классификаторов показаны в таблице 2.

Таблица 2

Результаты распознавания для четырех типов знаков

Тип знака

Количество классов

Количество обучающих примеров

Распознанные физические знаки, %

Синие квадраты

31

279 000

96,6

Красные треугольники

46

414 000

92,8

Синие круги

16

144 000

100

Красные круги

47

423 000

93,8

Сопоставление и локализация знаков

Для связи одних и тех же физических знаков между кадрами использовался простой алгоритм, работающий в пространстве пикселей изображения. Он предсказывает позицию знака на следующем кадре с помощью уравнения линейного равноускоренного движения: r=r0+v0t+(at2)/2, где r0 – начальная позиция знака на изображении; v0 – скорость; a – ускорение знака; r – позиция знака по прошествии интервала времени.

Чтобы использовать это уравнение, необходимо знать v0 и a. Данные величины легко вычисляются с помощью метода конечных разностей, если известна позиция знака на последних двух или трех кадрах соответственно. Если нет достаточного количества кадров, принимаем v0 и a равными нулю. После сопоставления знаков на соседних кадрах в один физический знак можно получить его положение в мировых координатах с помощью триангуляции. Можно также уточнить метку класса, используя результаты распознавания на разных кадрах.

В заключение отметим, что авторы представили оригинальную систему автоматического нанесения знаков на карту. Для тестирования создана большая база знаков Российской Федерации, которая выложена в открытый доступ. Проведено тестирование предложенной системы более чем на 140 классах знаков Российской Федерации. Предложенная система обучается на синтетически созданных данных и не требует трудозатратной разметки обучающих данных. Использование глубокой сверточной нейронной сети на последнем этапе каскада модуля обнаружения позволяет повысить точность обнаружения в среднем на 7 %. При обучении модуля распознавания на синтетически сгенерированных данных получаются результаты, сравнимые с получаемыми при обучении на реальных данных.

Литература

1.   Stallkamp J., Schlipsing M., Salmen J., Igel C., Man vs. Computer: Benchmarking Machine Learning Algorithms for Traffic Sign Recognition, Neural Networks, 2012, Vol. 32, pp. 323–332.

2.   Baro X., Escalera S., Vitria J., Pujol O., Radeva P., Traffic sign recognition using evolutionary Adaboost detection and Forest-ECOC classification, IEEE Transactions on Intelligent Transportation Systems, 2009, Vol. 10, no. 1, pp. 113–126.

3.   Balas B.J. and Sinha P., STICKS: Image-representation via non-local comparisons, J. Vis., 2003, Oct., Vol. 3, no. 9, p. 12.

4.   Timofte R., Zimmermann K. and Gool L.V., Multi-view traffic sign detection, recognition, and 3D localization, Workshop on Applications of Computer Vision, 2009, pp. 1–8.

5.   Overett G.M., Tychsen-Smith L., Petersson L., Andersson L., Pettersson N., Creating Robust High-Throughput Traffic Sign Detectors Using Centre-Surround HOG Statistics, Machine Vision and Applications, 2011, Dec., pp. 1–14.

6.   Dalal N., Triggs W., Histogram of oriented gradients for human detection, Proc. IEEE Conf. Comput. Vis. and Pattern Recog., 2005, pp. 886–893.

7.   Russian Traffic Signs Dataset. URL: ftp://anonymous@ki­viuq.graphicon.ru/AnonymousFTP/RTSD/ (дата обращения: 12.06.2013).

8.   Моисеев Б., Чигорин А. Классификация автодорожных знаков на основе сверточной нейросети, обученной на синтетических данных // ГрафиКон¢2012: сб. тр. 22-й Междунар. конф. по компьют. графике и машин. зрению. М.: МГУ, 2012. С. 284–287.

9.   Ruta A., Porikli F., Watanabe S., Li Y., In-vehicle camera traffic sign detection and recognition, Mach. Vis. Appl., 2011, Vol. 22, no. 2, pp. 359–375.

10. Cuda-convnet library. URL: https://code.google.com/p/cu­da-convnet/ (дата обращения: 12.06.2013).

References

1.     Stallkamp J., Schlipsing M., Salmen J., Igel C., Neural Networks, 2012, Vol. 32, pp. 323–332.

2.   Baro X., Escalera S., Vitria J., Pujol O., Radeva P., IEEE Transactions on Intelligent Transportation Systems, 2009, Vol. 10, no. 1, pp. 113–126.

3.   Balas B.J., Sinha P., Journ. of Vision, 2003, Vol. 3, no. 9, p. 12.

4.   Timofte R., Zimmermann K., Gool L.V., Workshop on Applications of Computer Vision, 2009, pp. 1–8.

5.   Overett G.M., Tychsen-Smith L., Petersson L., Andersson L., Pettersson N., Machine Vision and Applications, 2011, pp. 1–14.

6.   Dalal N., Triggs W., Proc. IEEE Conf. Comput. Vis. and Pattern Recog., 2005, pp. 886–893.

7.   Russian Traffic Signs Dataset, available at: ftp://anony­mous@kiviuq.graphicon.ru/AnonymousFTP/RTSD/ (accessed 12 June 2013).

8.   Moiseev B., Chigorin A., GrafiKon’2012: sb. tr. 22 Mezh­dunar. konf. po kompyut. grafike i mashinnomu zreniyu [Graphi­Kon’2012: proc. of 22th int. conf. on computer graphics and mashine vision], 2012, pp. 284–287.

9.   Ruta A., Porikli F., Watanabe S., Li Y., Mach. Vis. Appl., 2011, Vol. 22, no. 2, pp. 359–375.

10. Cuda-convnet library, available at: https://code.google. com/p/cuda-convnet/ (accessed 12 June 2013).


Permanent link:
http://swsys.ru/index.php?page=article&id=3605&lang=en
Print version
Full issue in PDF (13.63Mb)
Download the cover in PDF (1.39Мб)
The article was published in issue no. № 3, 2013 [ pp. 288-291 ]

Perhaps, you might be interested in the following articles of similar topics: