Методы глубокого обучения активно проникают в самые разные области человеческой деятельности для решения широкого спектра задач. Исследование физических процессов не остается в стороне. Необратимыми процессами являются те, для которых возврат в исходное состояние системы требует совершения компенсирующего процесса с затратой работы или энергии [1]. Глубокое обучение применяется, например, для исследования дорожного покрытия, разрушение которого происходит вследствие как нагрузок от автомобилей, так и природных факторов. На основе изображений или видео с помощью глубоких нейронных сетей могут решаться задачи классификации и семантической сегментации дорог по их качеству [2–4].
Процессы, происходящие в организме человека, также исследуются с использованием методов глубокого обучения. На основе снимков рентгенологических и ультразвуковых исследований (УЗИ), магнитно-резонансной томографии (МРТ) и др. решаются задачи классификации и сегментации медицинских изображений, локализация новых образований [5–7]. Так, снимки УЗИ щитовидной железы позволяют локализовать узлы, образовавшиеся в организме человека, и определить класс заболевания по одной из шкал классификации, например, EU-TIRADS [8], т.е. дать количественную оценку новообразования. Для этого на вход моделям подается исходное изображение или кинопетля (последовательность изображений) продольного или поперечного медицинского исследования, а на выходе получается класс заболевания, а также сегментированное или локализованное изображение узла [9, 10].
С целью успешного построения хорошо обобщающих глубоких нейросетевых моделей для решения указанных задач необходимо большое количество достоверных данных, чтобы избежать переобучения и «запоминания» обучающих наборов [11, 12]. Подготовка таких данных еще более усложняется значительными затратами времени на разметку обучающего набора. Кроме того, наборы изображений зачастую являются несбалансированными по классам.
Одним из способов решения описанной проблемы является применение методов дополнения (аугментации) реального обучающего набора данных новыми синтезированными изображениями. В настоящей работе как раз и исследуется эффективность таких методов. Исследование проводилось на основе медицинских снимков узлов щитовидной железы, так как задачи, связанные со здоровьем людей, являются очень важными, а узлы щитовидной железы — одними из наиболее часто диагностируемых узловых образований, достигающий в отдельных популяциях 50 % [13].
Формально задача аугментации набора изображений выглядит так. Имеется исходный размеченный набор из N медицинских изображений X = {x1, x2, …, xN} с масками Y = {y1, y2, …, yN}. Этот набор делится на обучающую и тестовую выборки, например, в соотношении 80 и 20 % соответственно.
Рассматривается обучение некоторой нейросетевой модели M, используемой для решения задачи семантической сегментации изображений [14], с параметрами обучения P в течение Ne эпох на наборе из изображений X с масками Y. Качество сегментации обученной модели оценивается некоторой метрикой качества Mt на тестовой выборке изображений Xtest с масками Ytest. Обозначим наилучшее качество сегментации модели на тесте для обученной сети как
где Mti — значение метрики качества сегментации модели на тесте на i-й эпохе (i — натуральное число).
Необходимо задать такое множество методов аугментации F, чтобы
т. е. необходимо сформировать такое множество методов аугментации наборов медицинских изображений, которое улучшило бы значение выбранной метрики качества решения задачи семантической сегментации моделью.
Методы аугментации изображений можно классифицировать по нескольким признакам. Исходя из анализа [11, 12, 15], по типу вносимых изменений в наборы данных выделяют методы геометрических (среди которых часто упоминаются аффинные) преобразований, методы преобразований на уровне пикселей, методы создания искусственных данных с помощью генеративно-состязательных нейросетей.
Множество преобразований, применяемых к обучающей и тестовой выборкам, зачастую различаются. Для обобщения прогнозов к тестовым данным применяют также преобразования test-time augmentation (TTA), суть которых в выполнении нескольких различных модификаций для каждого изображения [12, 16, 17].
По частоте использования преобразования можно разделить на постоянные, т.е такие, которые применяются ко всем изображениям заданного набора, и непостоянные — которые применяются с некоторой вероятностью или случайно из заданного множества преобразований [18].
Геометрические преобразования являются наиболее часто используемыми подходами к аугментации наборов данных. Среди них выделяется аффинные преобразования, к которым относятся поворот, зеркальное отражение, перенос, сдвиг и масштабирование. Есть еще и другие не аффинные преобразования, так или иначе связанные с геометрическими изменениями в изображениях [19].
Примеры геометрических методов аугментации изображений представлены на рис. 1.
Особенностью методов преобразований на уровне пикселей является то, что такие методы не совершают геометрических преобразований над изображениями, а влияют на значения пикселей либо локально в определенных областях, либо по всему изображению. Здесь выделяют упругие преобразования (elastic transformations), зашумление изображений, изменение яркости, насыщенности, контрастности, применение фильтров.
Примеры методов аугментации изображений посредством преобразований на уровне пикселей представлены на рис. 2.
Создание искусственных (синтезированных) данных происходит на основе использования методов и алгоритмов глубокого обучения. Наиболее часто упоминаемыми являются генеративно-состязательные нейросети (GAN), с помощью которых синтезируются искусственные данные, подобные исходным [20, 21]. В таком подходе одна сеть генерирует правдоподобные изображения, а другая старается отличить сгенерированные изображения от реальных. Описанным образом может быть синтезировано большое количество новых данных, однако стоит учитывать, что генерация изображений сама по себе является сложной вычислительной задачей.
Для решения задачи семантической сегментации изображений использовались две сети с одной и той же структурой энкодер-декодер, подробное описание подхода последовательного применения которых представлен в [10]. Обе сети имеют архитектуру DeeplabV3+ [22] с энкодером EfficientNetB6 [23].
На вход сетям подавались изображения в оттенках серого. Первая сеть сегментации обеспечивала «грубую» локализацию узловых образований щитовидной железы на изображениях размером 256х256 пикселей. На вход второй сети сегментации поступала только та область, в которой был «грубо» локализован узел, увеличенная до размеров 512x512 пикселей (region of interest, ROI). Назначением второй сети являлась точная локализация узла.
Исходный набор данных состоял из снимков УЗИ щитовидной железы 80 пациентов в продольном (long) и поперечном (cross) срезах и размеченных масок. Снимки УЗИ и маски были представлены файлами в формате tif. Подбор пациентов и снимков узловых образований проводились в рамках реализации проекта № 22-15-00135 гранта Российского научного фонда.
Предобработка исходных данных включала:
При преобразованиях из tif в PNG составляющие tif изображения брались с шагом 5 ввиду высокой схожести соседних изображений.
Итоговый набор данных — изображения в формате PNG: 730 изображений и масок продольного среза щитовидной железы, 894 изображения и маски поперечного среза щитовидной железы.
Проводилось обучение описанных ранее сетей: отдельно сети 1 и сети 2, на продольных, поперечных и всех снимках одновременно, без аугментации, с простой аугментацией и со сложной аугментацией. Общее количество обученных моделей — 18.
Простая аугментация наборов изображений включала в себя основные методы геометрических преобразований: поворот, зеркальное отражение по горизонтальной и/или вертикальной оси, перенос, сдвиг, масштабирование, обрезка.
Сложная аугментация наборов изображений предусматривала преобразования не только обучающего набора, но и тестового. Аугментация обучающего набора включала в себя геометрические преобразования всего изображения (поворот, зеркальное отражение по горизонтальной и/или вертикальной оси, перенос, сдвиг, масштабирование, обрезка), локальное аффинное преобразование (масштабирование), преобразования на уровне пикселей (упругие преобразования, Гауссовский шум, линейный контраст, изменение резкости, размытие по Гауссу, среднее размытие, медианный фильтр, обнуление пикселей). Описанные преобразования применялись не все одновременно, а использовались с заданной вероятностью, в случайном порядке, на выбор по одному или нескольким методам для однотипных. Аугментация тестового набора изображений представляла собой TTA, включающую поворот, зеркальные отражения по горизонтальной и вертикальной осям.
Для оценки качества сегментации использовались метрики IoU (Intersection over Union) и коэффициент Дайса (Dice coefficient, DC), формулы вычисления которых для предсказанного изображения представлены ниже:
где A — множество пикселей узла на маске; B — множество предсказанных пикселей узла.
Для нескольких изображений рассчитывались средние значения соответствующих метрик.
В работе анализировалась эффективность применения методов аугментации к наборам медицинских изображений при их недостаточности в обучающей выборке нейронных сетей для решения задач семантической сегментации. Для это были классифицированы существующие подходы к расширению наборов данных и приведено их краткое описание.
Проведен эксперимент по обучению сети семантической сегментации DeeplabV3+ с применением разных методов аугментации, на нескольких наборах медицинских изображений УЗИ в областях с узлами. Общее количество обученных и исследованных нейросетевых моделей составило 18 единиц.
Из анализа полученных результатов можно сделать вывод, что сформированный набор методов аугментации внес разнообразие в исходные данные, улучшив показатели метрик качества сегментации и повысив обобщающие способности моделей, на вход которым поступали снимки УЗИ целиком. Однако усложнение аугментации наборов изображений, содержащих увеличенные области с узлами, сказывается негативно на показателях качества сегментации моделей, обучающихся на таких данных.