Ученые из Саудовской Аравии разработали гибридную модель глубокого обучения для обнаружения ботнет-атак в сетях интернета вещей. Алгоритм показал точность 99,77% при распознавании вредоносного трафика.
Проблема безопасности Интернета
По словам авторов исследования, количество подключенных к сети устройств растет с каждым днем. Умные колонки, камеры видеонаблюдения, датчики, холодильники и медицинские приборы создают огромную поверхность для атак. Хакеры используют эти устройства для создания ботнетов. Это сеть зараженных машин, которые атакуют серверы, крадут данные и нарушают работу критической инфраструктуры. Традиционные методы защиты часто не справляются из-за ограниченных ресурсов самих устройств и огромных объемов трафика.

Специалисты взяли публичный набор данных BoT-IoT, который содержит миллионы записей реального сетевого трафика с различными типами атак. Большая часть записей в этом наборе составили вредоносные (99,5%), а нормальный трафик составляет меньше 0,5%, сообщает Scientific Reports.
Как работает новая модель
Исследователи применили двухэтапную обработку данных. Сначала они отобрали восемь наиболее информативных характеристик сетевых пакетов из 29 исходных. Такое решение позволило снизить шум и уменьшить вероятность переобучения модели. Затем использовали метод SMOTE, который искусственно создает примеры нормального трафика, чтобы сбалансировать классы. Без этого алгоритм мог бы научиться просто помечать весь трафик как вредоносный и показывать ложную точность 99%.
Сама модель представляет собой гибрид из двух типов нейросетей. Сверточная нейронная сеть (CNN) выделяет пространственные закономерности в данных. Сеть долговременной кратковременной памяти (LSTM) характеристики трафика меняются со временем. Такое сочетание позволяет улавливать даже сложные, распределенные во времени атаки, которые другие алгоритмы пропускают.
Результаты и сравнение
Модель обучали на двух наборах данных: несбалансированном (D1) и сбалансированном с помощью SMOTE (D2). На сбалансированном наборе точность достигла 99,77%, а полнота и точность — 100%. Алгоритм одинаково хорошо распознает оба класса трафика.

Для сравнения исследователи применили CNN, LSTM, случайный лес, метод опорных векторов и искусственную нейронную сеть. Гибрид CNN-LSTM показал лучшие результаты на несбалансированных данных и сохранил стабильность после балансировки. Случайный лес дал точность 99,98%, но не учитывает временные зависимости, что важно для реальных атак.
Среднее время обработки одного пакета на обычном процессоре составило 15 миллисекунд. Этого достаточно для работы в реальном времени на большинстве сетевых устройств.


