Content area

Abstract

Ботнети представљају скуп уређаја заражених малициозним софтвером, којима управља злонамерни администратор (ботмастер), чији је циљ извођење различитих напада на рачунарску инфраструктуру попут крађe података или дистрибуираних напада ускраћивања сервиса (енг. Distributed Denial of Service, скр. DDoS). У последње време, ботнети представљају све већу опасност, нарочито од тренутка када су мета постали уређаји типа интернет ствари (енг. Internet of Things, скр. IoT) чији је број значајно порастао, а који се често скромно одржавају. Већина досадашњих приступа у детекцији напада ботнета се фокусира на детекцију самих напада (најчешће DDoS), након што се напади десе. С обзиром на разорну моћ новијих ботнета, али и чињеницу да уређаји могу да буду део ботнета данима и месецима пре него што се употребе за напад, од великог је значаја да се ботнет открије што пре, како би се напад спречио, а ботнет неутралисао. Овај рад нуди алтернативни приступ детекцији ботнета у односу на досадашње приступе: рану детекцију заражених уређаја посматрањем мрежних токова командне и контролне комуникације ботнета као временске серије и екстракцијом унутартоковских (енг. intraflow) статистичких одлика из њих. Циљ овог метода екстракције одлика јесте уштеда рачунарских ресурса потребних за детекцију, уз очувану високу прецизност детекције. Екстракција ових одлика и примена техника машинског учења су остварили циљ детекције ботнет комуникације пре него што се напад догоди. Као први корак, динамичком анализом понашања и статичком анализом кода малвера, истражене су карактеристике мрежног понашања примерака IoT ботнета који су прикупљани током четири године (2019-2023). Анализом прикупљених примерака, осмишљен је механизам за екстракцију карактеристичних временских низова и одлика из њих заснован на концепту софтверски дефинисаних мрежа. Испитивани су различити модели машинског учења, тестирани на једном јавном скупу података Чешког техничког универзитета (енг. Czech Technical University, скр. CTU), као и на прикупљеним ботнет примерцима. Остварени резултати детекције су били једнаки као у другим научним радовима из области, који су детекцију вршили из снимака комплетног саобраћаја на линку, уз режијске трошкове (потребну процесорску снагу, простор на дисковима итд.) мање до два реда величине. У каснијој фази истраживања, прикупљени су додатни примерци ботнет апликација и проширен је скуп екстрахованих одлика. Потом је тестиран систем машинског учења базиран на екстремном градијентном ојачавању (енг. Extreme Gradient Boosting). Испитиване су различите технике одабира одлика из временских низова, оптимизације хиперпараметара, модела, као и техника генерисања вештачких узорака. На крају, за радне процесе са најбољим резултатима, различитим груписањем скупа обучавања и тестног скупа, испитивана је могућност детекције узорака новијег датума старијим узорцима и дата је анализа резултата. Ова анализа је дала далеко боље резултате у детекцији ботнета уз вредност F1 мере од 0.9041 у случају радних процеса који не користе корак вештачког генерисања узорака, и вредност F1 мере од 0.9984 у случају радних процеса који користе корак вештачког генерисања узорака, чиме је значајно премашила прецизност детекције других радова и методологија у области чиме су потврђене полазне хипотезе овог рада да је коришћењем унутартоковских одлика могуће реализовати овакав систем детекције.

Alternate abstract:

Botnets represent a collection of devices infected with malicious software, controlled by a malicious administrator (botmaster), aiming to execute various attacks on computer infrastructure, such as data theft or DDoS (Distributed Denial of Service) attacks. Recently, botnets have become an increasing threat, especially since Internet of Things (IoT) devices, often lacking security measures of their own, and whose numbers have significantly grown in recent years, have become targets. Most existing approaches to botnet attack detection focus on identifying attacks (usually DDoS) post factum, i.e. after they occur. Given the destructive power of newer botnets and that devices can be part of a botnet for days or months before being used in an attack, it is crucial to detect the botnet as early as possible to prevent the attack and neutralize the botnet. This thesis offers an alternative approach to botnet detection in comparison to previous methods: early detection of infected devices by observing botnet command and control network flows as time series and extracting intra-flow statistical features from them. The goal of this feature extraction method is to save computational resources required for detection, while at the same time maintaining high detection accuracy. The extraction of these features and the application of machine learning techniques achieved the goal of detecting botnet communication before an attack occurs. As a first step, dynamic behavior analysis and static malware code analysis were conducted to investigate the network behavior characteristics of IoT botnet samples collected over four years (2019-2023). Based on the analysis of the collected samples, a mechanism was devised to extract characteristic time series and features from them based on the concept of software-defined networking. Various machine-learning models were tested on a public dataset from the Czech Technical University (CTU), and on collected botnet samples. The detection results were comparable to other relevant scientific works in the field that performed detection from complete traffic snapshots on the link, with overhead costs (required processing power, disk space, etc.) reduced by up to two orders of magnitude. In the later stages of the research, additional botnet application samples were collected, and the set of extracted features was expanded. The machine learning system based on Extreme Gradient Boosting was then tested. Various techniques for feature selection from time series, hyper-parameter optimization, model selection, and artificial sample generation were examined. Finally, for pipelines with the best results, the possibility of detecting newer samples with older ones was investigated by grouping the training and test sets differently, and the results were analyzed. This analysis yielded far better botnet detection results, with an F1 score of 0.9041 for pipelines that did not use artificial sample generation and an F1 score of 0.9984 for pipelines that did use artificial sample generation, significantly surpassing the detection accuracy of other studies and methodologies in the field. This confirmed the initial hypothesis of this paper that using intra-flow features can enable the realization of such a detection system.

Details

1010268
Business indexing term
Classification
Title
Рано откривање уређаја заражених ботнет малвером коришћењем метода детекције аномалија мрежних токова
Alternate title
Early discovery of the devices infected with botnet malware using network flow anomaly detection
Number of pages
143
Publication year
2025
Degree date
2025
School code
2099
Source
DAI-B 87/2(E), Dissertation Abstracts International
ISBN
9798291506721
Committee member
Stanisavljević, Žarko; Kvaščev, Goran; Davidović, Tatjana; Drašković, Dražen
University/institution
University of Belgrade (Serbia)
University location
Serbia
Degree
Ph.D.
Source type
Dissertation or Thesis
Language
Serbian
Document type
Dissertation/Thesis
Dissertation/thesis number
32212336
ProQuest document ID
3260802220
Document URL
https://www.proquest.com/dissertations-theses/рано-откривање-уређаја-заражених-ботнет-малвером/docview/3260802220/se-2?accountid=208611
Copyright
Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.
Database
2 databases
  • ProQuest One Academic
  • ProQuest One Academic