Существует множество разных подходов к распознаванию объектов по изображению [1]. Самый простой метод выбора узнаваемых признаков — тот, который возлагается на оператора. Оператор анализирует изображение с камеры и выбирает характеристики из предварительно сформированной таблицы. Программная часть сравнивает выбранные характеристики с базой данных и выбирает модель беспилотного летательного аппарата (БПЛА), наиболее близкую к описанию. Этот метод чрезвычайно прост в реализации, и основная трудность заключается в создании обширной базы данных. Однако непосредственное участие оператора в процессе обработки изображения является существенным недостатком. Для решения задачи распознавания объектов широко используются методы, основанные на выделении контуров. Для извлечения и сравнения контуров объектов используются следующие методы: скрытые марковские модели, дескриптор Фурье и другие [2]. У них есть некоторые преимущества и недостатки, связанные с вычислительной сложностью, достижимой точностью, проблемами реализации, надежностью и масштабируемостью. Сверточные нейронные сети — новое перспективное направление в области распознавания объектов по изображениям.
Сверточная нейронная сеть (CNN) — это архитектура нейронных сетей [3], предназначенная для эффективного распознавания образов [4]. Идея сверточных нейронных сетей заключается в чередовании сверточных и полносвязных слоев. Сверточный слой позволяет комбинировать значения соседних пикселей и выделять более общие особенности изображения. Сетевая структура является однонаправленной (без обратной связи) и по сути многослойной. CNN могут использоваться для классификации, семантической сегментации, распознавания объектов и сегментации экземпляров.
Рассматриваемая в данной работе проблема распознавания БПЛА по видеокадрам с использованием нейросетей соответствует задаче обнаружения подвижных объектов оптическими методами. Поэтому далее при обработке и анализе видеокадров будем использовать термин «распознавание образов» для решения задачи обнаружения подвижных объектов методами оптической локации.
Для решения задачи оптического обнаружению БПЛА в городских условиях важна скорость обработки кадра с камеры. Поэтому в данной работе использованы модификации нейронной сети YOLO (You Only Look Once), такие как YOLO v.3 [5], YOLO v.4 [6] и YOLO v.3-SPP.
Для выбора нейронной сети, решающей задачу, обнаружения БПЛА методами оптической локации проведены тестовые эксперименты с тремя разными нейронными сетями YOLO v.3, YOLO v.3 — SPP, YOLO v.4. Сеть YOLO использует архитектуру Darknet-53. Именно эти нейросети были выбраны, как наиболее быстродействующие. Сначала каждая из нейронных сетей была обучена на 3500 изображениях с размером кадра 416×416 и 608×608. Процесс обучения проводился на видеокарте NVIDIA TESLA P100 с 16 ГБ видеопамяти. Тренировочный набор состоял из разных типов дронов [7]. На обучающих видеокадрах также присутствовали дроны на разном удалении от камеры. Основной интерес вызывало решение задачи распознавание БПЛА на значительном удалении от камеры. Поэтому для тестирования использовалось видео с БПЛА на большом расстоянии. Тестовая выборка состояла из 544 изображений. Тестирование проводилось на видеокарте NVIDIA GTX 1650 с 896 ядрами CUDA на архитектуре Turing.
После обучения нейросетей проведено тестирование на тестовой выборке. Результаты представлены в таблице. После уменьшения тестового изображения до размера 416×416 пикселей, минимальный размер обнаруженного БПЛА составил 6×8 пикселей, а до размера 608×608 пикселей — 9×12 пикселей. Скорость распознавания на размере кадра 608×608 пикселей составила 10–12 кадров в секунду, а на размере кадра 416×416 пикселей — 20–22 кадра в секунду. Порог отсечки (величина вероятности распознавания, ниже которой объект не классифицируется как БПЛА) равен 0,5. Расчет точности и чувствительности проведен по следующим формулам:
где Precision — точность; Recall — чувствительность; TP — истинно-положительные результаты; FP — ложно-положительные результаты; FN — ложно-отрицательные результаты.
Результаты тестирования на 544 тестовых изображениях
Наименование сети | 416×416 | 608×608 | ||
Точность | Чувствительность | Точность | Чувствительность | |
YOLO v.3 | 0,83 | 0,95 | 0,88 | 0,90 |
YOLO v.3-SPP | 0,98 | 0,66 | 0,94 | 0,88 |
YOLO v.4 | 0,96 | 0,89 | 0,95 | 0,90 |
В серии полевых экспериментов проведена проверка эффективности обнаружение БПЛА марки DJI Phantom 2 с характерными размерами 300×300×140 мм и массой 1 кг для трассы протяженностью 700 м с фокальным расстоянием объектива матричного фотоприемника камеры DFK 39GX265-Z20 114,5 мм и для трассы 500 м с фокальным расстоянием 25 и 114,5 мм.
Результат автоматизированной обработки видеокадров размером 608×608 пикселей в дневное время представлены на рис. 1, где приведен пример успешного распознавания БПЛА нейросетью в условиях визуально похожих мешающих объектов (птица на таком расстоянии не была распознана вообще). Путем оптимизации порога отсечки показано, что использование одного максимального фокального расстояния объектива 114.5 мм камеры DFK 39GX265-Z20 позволяет достичь наилучшего распознавания БПЛА для всех длин трасс (от 100 до 700 м).
Результат автоматизированного распознавания БПЛА на фоне деревьев по видеокадрам камеры DFK 39GX265-Z20 размером 608×608 пикселей в ночное время на расстоянии 500 м с подсветкой непрерывным ИК лазером PHOTONTECM808, длиной волны 808 нм и максимальной мощностью 30 Вт представлены на рис. 2.
В рамках данной работы была проведена проверка возможности распознавания БПЛА по УФ-изображениям, полученным с помощью УФ-камеры Dhyana 400DBI V2 и подсветки объекта импульсным УФ-лазером НТЕВ.433712.016 на длине волны 266 нм с энергией излучения 10 мДж. Эксперименты проводился следующим образом: БПЛА находился на расстоянии 5 м от УФ-камеры и подсвечивался УФ-лазером. Подсветка импульсная, поэтому УФ-изображения получены в тот момент, когда отраженное УФ-излучение попадало в УФ-камеру. Результаты распознавания приведены на рис. 3.
Представлены результаты количественной оценки эффективности применения нейронных сетей реального времени для распознавания БПЛА в разных спектральных диапазонах (видимый, ИК, УФ-диапазоны). В рамках численного эксперимента опробованы несколько нейронных сетей, в результате чего выбрана нейронная сеть YOLO v4, как наиболее подходящая для обнаружения БПЛА в реальном масштабе времени.
Для надежного обнаружения БПЛА в различных условиях его применения необходимо использовать не только в видимый, но и ИК-диапазон спектра, особенно в ночное время суток. Для повышения надежности и точности распознавания БПЛА в ночное время обязательно надо использовать ИК-лазерную подсветку объекта.