В два раза быстрее аналогов: ученые НИТУ «МИСИС» и НИУ ВШЭ представили новую нейросеть LAPUSKA

Такое милое название нейронной сети расшифровывается как LaPlacian UpScale Knowledge Alignment. По словам создателей, она способна значительно улучшить разрешение изображений и сделать это вдвое быстрее других популярных моделей.

Практическое применение ИИ для улучшения качества снимков

Такие нейросети полезны не только для фотографов, которым необходимо любым способом спасти неудачные кадры, снятые при плохом освещении. Технология получения изображений со сверхвысоким разрешением может быть применена и в других сферах: к примеру, в области безопасности — с ее помощью можно увеличить разрешение кадров с камер видеонаблюдения для распознавания лиц или номеров автомобилей, а также в области цифровой обработки изображений — она помогает восстановить старые или поврежденные фотографии.

Анализ и обработка статичных изображений или видео с использованием компьютерного зрения уже применяется в медицине, сельском хозяйстве, транспорте, индустрии развлечений и многих других областях. Сейчас машинное зрение развивается еще в одном направлении — суперразрешение фотографий, которое не просто увеличивает их размер, но еще и улучшает качество, что позволяет разглядеть больше деталей, которые в исходном материале были недоступны для человеческого зрения.

Достойная замена

Исследователи из российских вузов НИТУ «МИСИС» и НИУ ВШЭ изучили существующие нейронные модели для получения изображений со сверхвысоким разрешением и обнаружили в них некоторые недостатки. Так, например, SRGAN и LapSRN требуют больших вычислительных затрат и значительного объема компьютерной памяти. Это влияет на доступность их использования и на время, необходимое для получения результата. Кроме того, LapSRN делает снимки более сглаженными, что приводит к потере некоторых мелких (иногда очень важных) деталей, а на изображениях, обработанных SRGAN, наоборот, остается много цифрового шума.

На основе полученных сведений ученые создали собственную нейросеть LAPUSKA, которая, по их словам, сочетает лучшие свойства аналогов и исключает их недостатки.

«Архитектура предлагаемой нами нейронной сети состоит из нескольких сверточных слоев с разной структурой. В основе структуры сети лежит структура SRGAN — она показала наилучшие результаты во время обучения. Важным моментом в процессе обучения реализованных моделей являются обучающие данные. В этой работе было решено использовать датасет DIV2K, поскольку он содержит 800 обучающих цветных изображений RGB HR с соответствующими уменьшенными изображениями LR с различными коэффициентами», — прокомментировал директор центра искусственного интеллекта НИТУ «МИСИС» Илья Макаров.

Илья Макаров

Исследование проводилось в рамках стратегического проекта Университета «МИСИС» «Цифровой бизнес» по программе Минобрнауки России «Приоритет-2030». Авторы утверждают, что в будущем их нейросеть поможет распознавать на обработанных изображениях лица и еще больше увеличивать разрешение снимков.