Дополненная реальность при анализе ультразвуковых изображений редких явлений с помощью нейронных сетей

Язык труда и переводы:
УДК:
004.8
Дата публикации:
03 декабря 2022, 20:07
Категория:
Математическое моделирование физических процессов и технических систем
Авторы
Ложкин Илья Александрович
Национальный исследовательский ядерный университет «МИФИ»
Дунаев Максим Евгеньевич
Национальный исследовательский ядерный университет «МИФИ»
Зайцев Константин Сергеевич
Национальный исследовательский ядерный университет «МИФИ»
Аннотация:
Цель настоящей работы — исследование эффективности методов аугментации (дополнения) наборов изображений при их недостаточности в обучающей выборке нейронных сетей для решения задач, связанных с анализом ультразвуковых изображений редких явлений. Для этого были рассмотрены основные группы методов аугментации и исследована их эффективность при построении моделей семантической сегментации изображений. Для обучения, тестирования и валидации использовались две глубокие архитектуры DeeplabV3+ с энкодером EfficientNetB6. Целевыми метриками, по которым проводились сравнения качества семантической сегментации, были выбраны Intersection over Union и коэффициент Дайса, что позволило определить модели с наилучшими показателями предсказания. Полученные результаты подтвердили эффективность предложенного набора методов аугментации. Итогом работы стало создание эффективного подхода к дополнению реальности при анализе ультразвуковых изображений редких явлений.
Ключевые слова:
глубокое обучение, нейронные сети, аугментация, семантическая сегментация
Основной текст труда

Методы глубокого обучения активно проникают в самые разные области человеческой деятельности для решения широкого спектра задач. Исследование физических процессов не остается в стороне. Необратимыми процессами являются те, для которых возврат в исходное состояние системы требует совершения компенсирующего процесса с затратой работы или энергии [1]. Глубокое обучение применяется, например, для исследования дорожного покрытия, разрушение которого происходит вследствие как нагрузок от автомобилей, так и природных факторов. На основе изображений или видео с помощью глубоких нейронных сетей могут решаться задачи классификации и семантической сегментации дорог по их качеству [2–4].

Процессы, происходящие в организме человека, также исследуются с использованием методов глубокого обучения. На основе снимков рентгенологических и ультразвуковых исследований (УЗИ), магнитно-резонансной томографии (МРТ) и др. решаются задачи классификации и сегментации медицинских изображений, локализация новых образований [5–7]. Так, снимки УЗИ щитовидной железы позволяют локализовать узлы, образовавшиеся в организме человека, и определить класс заболевания по одной из шкал классификации, например, EU-TIRADS [8], т.е. дать количественную оценку новообразования. Для этого на вход моделям подается исходное изображение или кинопетля (последовательность изображений) продольного или поперечного медицинского исследования, а на выходе получается класс заболевания, а также сегментированное или локализованное изображение узла [9, 10].

С целью успешного построения хорошо обобщающих глубоких нейросетевых моделей для решения указанных задач необходимо большое количество достоверных данных, чтобы избежать переобучения и «запоминания» обучающих наборов [11, 12]. Подготовка таких данных еще более усложняется значительными затратами времени на разметку обучающего набора. Кроме того, наборы изображений зачастую являются несбалансированными по классам.

Одним из способов решения описанной проблемы является применение методов дополнения (аугментации) реального обучающего набора данных новыми синтезированными изображениями. В настоящей работе как раз и исследуется эффективность таких методов. Исследование проводилось на основе медицинских снимков узлов щитовидной железы, так как задачи, связанные со здоровьем людей, являются очень важными, а узлы щитовидной железы — одними из наиболее часто диагностируемых узловых образований, достигающий в отдельных популяциях 50 % [13].

Постановка задачи

Формально задача аугментации набора изображений выглядит так. Имеется исходный размеченный набор из N медицинских изображений X = {x1, x2, …, xN} с масками Y = {y1, y2, …, yN}. Этот набор делится на обучающую и тестовую выборки, например, в соотношении 80 и 20 % соответственно.

Рассматривается обучение некоторой нейросетевой модели M, используемой для решения задачи семантической сегментации изображений [14], с параметрами обучения P в течение Ne эпох на наборе из изображений X с масками Y. Качество сегментации обученной модели оценивается некоторой метрикой качества Mt на тестовой выборке изображений Xtest с масками Ytest. Обозначим наилучшее качество сегментации модели на тесте для обученной сети как

Q(M(P,N_{e}),X,Y)=min(Mt_{i})

где Mti — значение метрики качества сегментации модели на тесте на i-й эпохе (i — натуральное число).

Необходимо задать такое множество методов аугментации F, чтобы

Q(M(P,N_{e}),F[X],Y)>Q(M(P,N_{e}),X,Y),

т. е. необходимо сформировать такое множество методов аугментации наборов медицинских изображений, которое улучшило бы значение выбранной метрики качества решения задачи семантической сегментации моделью.

Анализ подходов к аугментации изображений

Методы аугментации изображений можно классифицировать по нескольким признакам. Исходя из анализа [11, 12, 15], по типу вносимых изменений в наборы данных выделяют методы геометрических (среди которых часто упоминаются аффинные) преобразований, методы преобразований на уровне пикселей, методы создания искусственных данных с помощью генеративно-состязательных нейросетей.

Множество преобразований, применяемых к обучающей и тестовой выборкам, зачастую различаются. Для обобщения прогнозов к тестовым данным применяют также преобразования test-time augmentation (TTA), суть которых в выполнении нескольких различных модификаций для каждого изображения [12, 16, 17].

По частоте использования преобразования можно разделить на постоянные, т.е такие, которые применяются ко всем изображениям заданного набора, и непостоянные — которые применяются с некоторой вероятностью или случайно из заданного множества преобразований [18].

Методы геометрических преобразований

Геометрические преобразования являются наиболее часто используемыми подходами к аугментации наборов данных. Среди них выделяется аффинные преобразования, к которым относятся поворот, зеркальное отражение, перенос, сдвиг и масштабирование. Есть еще и другие не аффинные преобразования, так или иначе связанные с геометрическими изменениями в изображениях [19].

Примеры геометрических методов аугментации изображений представлены на рис. 1.

Рис. 1. Геометрические методы аугментации изображений. Слева направо построчно: исходное изображение, поворот, зеркальное отражение вдоль вертикальной оси, зеркальное отражение вдоль горизонтальной оси, перенос, сдвиг, масштабирование, обрезка

Методы преобразований на уровне пикселей

Особенностью методов преобразований на уровне пикселей является то, что такие методы не совершают геометрических преобразований над изображениями, а влияют на значения пикселей либо локально в определенных областях, либо по всему изображению. Здесь выделяют упругие преобразования (elastic transformations), зашумление изображений, изменение яркости, насыщенности, контрастности, применение фильтров.

Примеры методов аугментации изображений посредством преобразований на уровне пикселей представлены на рис. 2.

Рис. 2. Методы аугментации изображений посредством преобразований на уровне пикселей. Слева направо построчно: исходное изображение, упругое преобразование, гауссовский шум, шум salt-and-pepper, линейный контраст, медианный фильтр, фильтр sharpen, преобразование dropout

Методы создания искусственных данных

Создание искусственных (синтезированных) данных происходит на основе использования методов и алгоритмов глубокого обучения. Наиболее часто упоминаемыми являются генеративно-состязательные нейросети (GAN), с помощью которых синтезируются искусственные данные, подобные исходным [20, 21]. В таком подходе одна сеть генерирует правдоподобные изображения, а другая старается отличить сгенерированные изображения от реальных. Описанным образом может быть синтезировано большое количество новых данных, однако стоит учитывать, что генерация изображений сама по себе является сложной вычислительной задачей.

Отбор методов аугментации

Описание подхода

Для решения задачи семантической сегментации изображений использовались две сети с одной и той же структурой энкодер-декодер, подробное описание подхода последовательного применения которых представлен в [10]. Обе сети имеют архитектуру DeeplabV3+ [22] с энкодером EfficientNetB6 [23].

На вход сетям подавались изображения в оттенках серого. Первая сеть сегментации обеспечивала «грубую» локализацию узловых образований щитовидной железы на изображениях размером 256х256 пикселей. На вход второй сети сегментации поступала только та область, в которой был «грубо» локализован узел, увеличенная до размеров 512x512 пикселей (region of interest, ROI). Назначением второй сети являлась точная локализация узла.

Набор данных и его предобработка

Исходный набор данных состоял из снимков УЗИ щитовидной железы 80 пациентов в продольном (long) и поперечном (cross) срезах и размеченных масок. Снимки УЗИ и маски были представлены файлами в формате tif. Подбор пациентов и снимков узловых образований проводились в рамках реализации проекта № 22-15-00135 гранта Российского научного фонда.

Предобработка исходных данных включала:

  • преобразование файлов УЗИ щитовидной железы и масок из формата tif в изображения формата PNG;
  • удаление текстовой информации;
  • удаление черных нерелевантных областей;
  • нормализация изображений;
  • приведение изображений к оттенкам серого;
  • изменение размера изображений и масок до 256x256 пикселей для подачи на вход первой сети сегментации;
  • создание изображений и масок размером 512х512 пикселей, содержащих увеличенные области с узловыми образованиями щитовидной железы (ROI) для подачи на вход второй сети сегментации.

При преобразованиях из tif в PNG составляющие tif изображения брались с шагом 5 ввиду высокой схожести соседних изображений.

Итоговый набор данных — изображения в формате PNG: 730 изображений и масок продольного среза щитовидной железы, 894 изображения и маски поперечного среза щитовидной железы.

Описание эксперимента

Проводилось обучение описанных ранее сетей: отдельно сети 1 и сети 2, на продольных, поперечных и всех снимках одновременно, без аугментации, с простой аугментацией и со сложной аугментацией. Общее количество обученных моделей — 18.

Простая аугментация наборов изображений включала в себя основные методы геометрических преобразований: поворот, зеркальное отражение по горизонтальной и/или вертикальной оси, перенос, сдвиг, масштабирование, обрезка.

Сложная аугментация наборов изображений предусматривала преобразования не только обучающего набора, но и тестового. Аугментация обучающего набора включала в себя геометрические преобразования всего изображения (поворот, зеркальное отражение по горизонтальной и/или вертикальной оси, перенос, сдвиг, масштабирование, обрезка), локальное аффинное преобразование (масштабирование), преобразования на уровне пикселей (упругие преобразования, Гауссовский шум, линейный контраст, изменение резкости, размытие по Гауссу, среднее размытие, медианный фильтр, обнуление пикселей). Описанные преобразования применялись не все одновременно, а использовались с заданной вероятностью, в случайном порядке, на выбор по одному или нескольким методам для однотипных. Аугментация тестового набора изображений представляла собой TTA, включающую поворот, зеркальные отражения по горизонтальной и вертикальной осям.

Метрики качества

Для оценки качества сегментации использовались метрики IoU (Intersection over Union) и коэффициент Дайса (Dice coefficient, DC), формулы вычисления которых для предсказанного изображения представлены ниже:

IoU={\frac {|A\cap B|}{|A\cup B|}};

DC={\frac {2|A\cap B|}{|A|+|B|}}.

где A — множество пикселей узла на маске; B — множество предсказанных пикселей узла.

Для нескольких изображений рассчитывались средние значения соответствующих метрик.

Заключение

В работе анализировалась эффективность применения методов аугментации к наборам медицинских изображений при их недостаточности в обучающей выборке нейронных сетей для решения задач семантической сегментации. Для это были классифицированы существующие подходы к расширению наборов данных и приведено их краткое описание.

Проведен эксперимент по обучению сети семантической сегментации DeeplabV3+ с применением разных методов аугментации, на нескольких наборах медицинских изображений УЗИ в областях с узлами. Общее количество обученных и исследованных нейросетевых моделей составило 18 единиц.

Из анализа полученных результатов можно сделать вывод, что сформированный набор методов аугментации внес разнообразие в исходные данные, улучшив показатели метрик качества сегментации и повысив обобщающие способности моделей, на вход которым поступали снимки УЗИ целиком. Однако усложнение аугментации наборов изображений, содержащих увеличенные области с узлами, сказывается негативно на показателях качества сегментации моделей, обучающихся на таких данных.

Литература
  1. Кириллин В.А., Сычев В.В., Шейндлин А.Е. Техническая термодинамика. Москва, Изд-во МЭИ, 2008, 416 с.
  2. Rateke T., Wangenheim A.V. Road surface detection and differentiation considering surface damages. Autonomous Robots, 2021, pp. 299–312.
  3. Rateke T., Justen K.A., Wangenheim A.V. Road surface classification with images captured from low-cost camera — road traversing knowledge (RTK) dataset. Revista de Informatica Teorica e Aplicada — RITA, 2019, no. 3, pp. 50–64. DOI: https://doi.org/10.22456/2175-2745.91522
  4. Seeger C. et al. Towards road type classification with occupancy grids. 2016 IEEE Intelligent Vehicles Symposium. Workshop: DeepDriving — Learning Representations for Intelligent Vehicles, 2016, pp. 1–4.
  5. Deo R.C. Machine Learning in Medicine. Circulation, 2015, vol. 132 (20), pp. 1920–1930. DOI: https://doi.org/10.1161/CIRCULATIONAHA.115.001593
  6. Acs B., Rantalainen M., Hartman J. Artificial intelligence as the next step towards precision pathology. Journal of Internal Medicine, 2020, vol. 288, pp. 62–81. DOI: https://doi.org/10.1111/joim.13030
  7. Lipkova J., Chen R.J., Chen B., Lu M.Y., Barbieri M., Shao D., Vaidya A.J., Chen C., Zhuang L., Williamson D.F.K., Shaban M., Chen T.Y., Mahmood F. Artificial intelligence for multimodal data integration in oncology, 2022, vol. 40, pp. 1095–1110. DOI: https://doi.org/10.1016/j.ccell.2022.09.012
  8. Botz B. European Thyroid Association TIRADS. 2021. Available at: https://radiopaedia.org/articles/european-thyroid-association-tirads (accessed November 15, 2022).
  9. Kang Q., Lao Q., Li Y., Jiang Z., Qiu Y., Zhang S., Li K. Thyroid nodule segmentation and classification in ultrasound images through intra- and inter-task consistent learning. Medical Image Analysis, 2022, vol. 79. DOI: https://doi.orh/10.1016/j.media.2022.102443
  10. Wang M., Yuan C., Wu D., Zeng Y., Zhong S., Qiu W.. Automatic Segmentation and Classification of Thyroid Nodules in Ultrasound Images with Convolutional Neural Networks. MICCAI 2020: Segmentation, Classification, and Registration of Multi-modality Medical Imaging Data, 2020, pp. 109–115. DOI: https://doi.org/10.1007/978-3-030-71827-5_14
  11. Maharana K., Mondal S., Nemade B. A review: Data pre-processing and data augmentation techniques. Global Transitions Proceedings, 2022, vol. 3, pp. 91–99. DOI: https://doi/org/10.1016/j.gltp.2022.04.020
  12. Nalepa J., Marcinkiewicz M., Kawulok M. Data augmentation for brain-tumor segmentation: A review. Frontiers in Computational Neuroscience, 2019, vol. 13. DOI: https://doi.org/10.3389/fncom.2019.00083
  13. Ванушко В.Э. Узлы щитовидной железы — не всегда патология. ИнфоМедФарм Диалог, 2022. URL: https://imfd.ru/2022/03/15/yzlishitzelez/ (дата обращения 15.11.2022).
  14. Zhou S., Nie D., Adeli E., Wei Q., Ren X., Liu X., Zhu E., Yin J., Wang Q., Shen D. Medical image segmentation using deep semantic-based methods: A review of techniques, applications and emerging trends. Medical Image Analysis, 2022, vol. 82. DOI: https://doi.org/10.24963/ijcai.2021/112
  15. Chlap P., Min H., Vandenberg N., Dowling J., Holloway L., Haworth A. A review of medical image data augmentation techniques for deep learning applications. Journal of Medical Imaging and Radiation Oncology, 2021, vol. 65, iss. 5, pp. 545–563. DOI: https://doi/org/10.1111/1754-9485.13261
  16. Hoar D., Lee P.Q., Guida A., Patterson S., Bowen C.V., Merrimen J., Wang C., Rendon R., Beyea S.D., Clarke S.E. Combined Transfer Learning and Test-Time Augmentation Improves Convolutional Neural Network-Based Semantic Segmentation of Prostate Cancer from Multi-Parametric MR Images, 2021, vol. 210. DOI: https://doi.org/10.1016/j.cmpb.2021.106375
  17. Image Test Time Augmentation with PyTorch. TTAch. Availale at: https://github.com/qubvel/ttach (accessed November 15, 2022).
  18. Документация библиотеки imgaug для аугментации изображений. URL: https://imgaug.readthedocs.io/en/latest/ (дата обращения 15.11.2022).
  19. Hussain Z., Gimenez F., Yi D., Rubin D. Differential Data Augmentation Techniques for Medical Imaging Classification Tasks. AMIA Symposium, 2017, pp. 979–984.
  20. Chen Y., Yang X. H., Wei Z., Heidari A. A., Zheng N., Li Z., Chen H., Hu H., Zhou Q., Guan Q. Generative Adversarial Networks in Medical Image augmentation: A review. Computers in Biology and Medicine, 2022, vol. 144. DOI: https://doi.org/10.1016/j.compbiomed.2022.105382
  21. Shi G., Wang J., Qiang Y., Yang X., Zhao J., Hao R., Yang W., Du Q., Kazihise N. G. Knowledge-guided synthetic medical image adversarial augmentation for ultrasonography thyroid nodule classification. Computer Methods and Programs in Biomedicine, 2020, vol. 196. DOI: https://doi.org/10.1016/j.cmpb.2020.105611
  22. Chen L., Zhu Y., Papandreou G., Schroff F., Adam H. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018. Computer Science, Computer Vision and Pattern Recognition, 2018. DOI: https://doi.org/10.48550/arXiv.1802.02611
  23. Tan M., Le Q. V. EfficientNet: Rethinking model scaling for convolutional neural networks. ICML 2019. Machine Learning, Computer Vision and Pattern Recognition, 2019.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.