Jiang và cộng sự [19] đã áp dụng thuật toán phân tách biểu đồ dựa trên các truy vấn DNS không thành công và hệ số ma trận ba giá trị không âm để trích xuất các cụm đồng nhất đại diện cho nhiều hoạt động bất thường, bao gồm trojan và bot. Hệ thống Pleiades, được đề xuất bởi Antonakakis và cộng sự [4], là một hệ thống phát hiện Botnet DGA mới thông qua việc sử dụng NXDOMAIN. Pleiades bao gồm hai mô-đun: Mô-đun phát hiện DGA và Mô-đun phân loại DGA và phát hiện C&C. Mô-đun phát hiện DGA tập trung vào phân cụm các truy vấn Botnet dựa trên NXDOMAIN và tạo mô hình để xác định truy vấn DNS có nguồn gốc từ DGA hay không. Mô-đun thứ hai sử dụng cây quyết định và mô hình Markov ẩn để phân loại và phát hiện các NXDOMAIN thuộc DGA và các truy vấn giao tiếp với máy chủ C&C. Pleiades đã được thử nghiệm tại ISP của Bắc Mỹ trong hai năm và đã phát hiện ra sáu loại DGA mới, đạt tỷ lệ phát hiện cao và tỷ lệ cảnh báo giả thấp. Tuy nhiên, hệ thống không hoạt động tốt với Botnet Boonna do cách tạo tên miền khác biệt.
Sharifnya và Abadi đã phát triển DFBotKiller, một giải pháp cho việc phát hiện Botnet dựa vào phân tích hoạt động lịch sử và các truy vấn DNS không thành công [21]. Phương pháp này dùng một hệ thống đánh giá điểm cho từng máy chủ dựa trên dữ liệu lưu lượng DNS, với những điểm số này là nền tảng để định rõ liệu máy chủ có bị nhiễm mã độc hay không. Kết quả từ các thử nghiệm ban đầu cho thấy DFBotKiller cung cấp một sự cân đối đáng kể giữa tỷ lệ nhận diện chính xác và tỷ lệ báo động giả. Trong khi đó, DBod, phát triển bởi Wang và cộng sự [20], sử dụng phân bổ số lượng truy vấn và thời gian truy vấn để phát hiện các bot dựa trên DGA mà không cần biết trước về các hành vi của Botnet.
134 trang |
Chia sẻ: Tuệ An 21 | Ngày: 08/11/2024 | Lượt xem: 143 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Mạng máy tính và truyền thông dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
MẠC ĐÌNH HIẾU
PHÁT HIỆN VÀ PHÒNG CHỐNG TẤN CÔNG DGA BOTNET
SỬ DỤNG KỸ THUẬT HỌC SÂU
LUẬN ÁN TIẾN SĨ
MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU
Hà Nội - 2024
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
MẠC ĐÌNH HIẾU
PHÁT HIỆN VÀ PHÒNG CHỐNG TẤN CÔNG DGA BOTNET
SỬ DỤNG KỸ THUẬT HỌC SÂU
Ngành: Mạng máy tính và truyền thông dữ liệu
Mã số: 9480102
LUẬN ÁN TIẾN SĨ
MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. Nguyễn Linh Giang
TS. Trần Hải Anh
Hà Nội - 2024
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của tập thể hướng dẫn. Các số liệu, kết quả trong luận án là trung thực và chưa từng được tác giả khác công bố trong bất kỳ công trình nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo quy định.
Hà Nội, ngày tháng năm 2024
Tập thể hướng dẫn
Nghiên cứu sinh
PGS.TS Nguyễn Linh Giang Mạc Đình Hiếu
TS. Trần Hải Anh
LỜI CẢM ƠN
Trước hết, tôi xin trân trọng cảm ơn Đại học Bách khoa Hà Nội, Trường Công nghệ thông tin và Truyền thông, Ban Đào tạo, các thầy cô cùng các bạn học viên, sinh viên của Trung tâm An toàn an ninh thông tin đã tạo điều kiện thuận lợi và đóng góp nhiều ý kiến quý báu giúp tôi hoàn thành bản luận án này.
Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc đến Thầy hướng dẫn khoa học PGS. TS. Nguyễn Linh Giang, TS. Trần Hải Anh đã nhiệt tình hướng dẫn, giúp đỡ và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện Luận án. Đặc biệt, tôi xin gửi lời cảm ơn đến PGS. TS Trần Quang Đức, một người thầy, người anh lớn đã dẫn dắt, chỉ bảo và giúp tôi đặt các nền móng vững chắc trên con đường nghiên cứu khoa học của mình.
Đối với cá nhân tôi, quá trình làm nghiên cứu sinh là một chặng đường dài với rất nhiều khó khăn và thử thách. Tôi sẽ không thể hoàn thành nếu thiếu sự ủng hộ vô điều kiện của bố mẹ, vợ và các con của tôi cũng như những người thân trong gia đình đã luôn đứng phía sau tạo hậu phương vững chắc và động viên tôi trong những thời điểm khó khăn nhất. Từ tận đáy lòng tôi xin gửi lời cảm ơn đến gia đình thân yêu của mình.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày tháng năm 2024
Nghiên cứu sinh
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT
Chữ viết tắt
Tiếng Anh
Tiếng Việt
1
AGD
Algorithmically Generated Domain
Tên miền sinh bởi thuật toán
2
APT
Advanced Persistent Threat
Tấn công có chủ đích
3
C&C
Command and Control server
Máy chủ điều khiển
4
CNN
Convolutional Neural Network
Mạng nơ-ron tích chập
5
DDoS
Distributed Denial-of-Service Attack
Tấn công từ chối dịch vụ phân tán
6
DGA
Domain Generation Algorithm
Thuật toán sinh tên miền tự động
7
DNS
Domain Name System
Hệ thống phân giải tên miền
8
FP
False Positive
Dương tính giả
9
FN
False Negative
Âm tính giả
10
HMM
Hidden Markov Model
Mô hình Markov ẩn
11
IDS
Intrusion Detection System
Hệ thống phát hiện xâm nhập
12
IoT
Internet of Thing
Internet vạn vật
13
IPS
Intrusion Prevention System
Hệ thống ngăn chặn xâm nhập
14
LSTM
Long Short-Term Memory
Bộ nhớ ngắn-dài hạn
15
NXDOMAIN
Non-Existing Domain
Tên miền không tồn tại
16
PRNG
Pseudorandom Number Generator
Bộ sinh số giả ngẫu nhiên
17
P2P
Peer-to-Peer
Mạng ngang hàng
18
RNN
Recurrent Neural Network
Mạng nơ-ron hồi quy
19
SDN
Software-Defined Networking
Mạng khả trình
20
SVM
Support Vector Machine
Máy vectơ hỗ trợ
21
SLD
Second Lelve Domain
Tên miền cấp hai
22
TCD
Time to Correct Detection
Thời gian phát hiện chính xác
23
TLD
Top Level Domain
Tên miền cấp một
24
TN
True Negative
Âm tính thật
25
TP
True Positive
Dương tính thật
26
TPR
True Positive Rate
Tỷ lệ phát hiện chính xác
DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1. Thống kê trung bình số NXDOMAIN /giờ của các mã độc DGA. 19
Bảng 2.1. Số lượng mẫu của các lớp trong bộ dữ liệu, bao gồm tên miền từ 37 loại DGA Botnet cùng với tên miền thông thường từ tập tên miền được truy cập nhiều nhất theo thống kê của Alexa. Cột "Ý Nghĩa" chỉ ra liệu mã độc có sử dụng bộ từ điển trong quá trình tạo tên miền hay không, với "ü" đại diện cho "có" và "û" đại diện cho "không". 38
Bảng 2.2. Precision, Recall và F1-score của LSTM so với các phương pháp học máy khác như HMM, C5.0, ELM và SVM 46
Bảng 2.3. Precision, Recall và F1-score của các phương pháp dựa trên các biến thể của mạng LSTM. 48
Bảng 2.4. Precision, Recall, F1-score và số loại DGA không nhận biết được của 2 trường hợp: (1) dữ liệu đầu vào chỉ gồm tên miền mức hai (SLD) và (2) dữ liệu đầu vào bao gồm cả tên miền mức cao nhất và mức hai (TLD+SLD) 51
Bảng 3.1. So sánh hiệu năng của các phương pháp học nhạy chi phí khác nhau trong phân loại hai lớp. 67
Bảng 3.2. So sánh hiệu năng của các phương pháp nhạy chi phí khác nhau trong trường hợp đa lớp 68
Bảng 3.3. Hiệu năng của các phương pháp CS-NN, CS-SVM, CS-4.5 và WELM 71
Bảng 3.4. Hiệu năng của các phương pháp HMM, C5.0, LSTM và LSTM.MI 73
Bảng 3.5. Hạng các phương pháp bằng kiểm định Wilcoxon 74
Bảng 3.6. Tóm tắt các kết quả của Wilcoxon test. Ký hiệu l thể hiện các phương pháp ở hàng sẽ tốt hơn phương pháp ở cột với mức ý nghĩa của kiểm định a=0.95, trong khi ¡ thể hiện các phương pháp ở cột sẽ tốt hơn ở hàng với mức ý nghĩa của kiểm định a=0.9 75
Bảng 3.7.Thời gian xử lý một tên miền của các phương pháp 76
Bảng 3.8. Thống kê số lượng truy vấn DNS của từng bộ dữ liệu 77
Bảng 4.1. Tổng quan bộ dữ liệu MalDGA 87
Bảng 4.2. Tóm tắt của bộ dữ liệu dựa trên Adversarial DGA bao gồm các mẫu của Necurs, Suppobox, Qadars. Đối với mỗi mẫu, các domain được truy vấn được thay thế bằng những domain được tạo ra bởi CharBot, DeepDGA và MaskDGA. 89
Bảng 4.3. TP, FP, TN, FN, Precision, Recall và F1-score của BotFighter và các phương pháp phát hiện khác 92
Bảng 4.4. TPR (True Positive Rate) và TCD (Time to Correct Detection) của BotFighter và các phương pháp phát hiện khác đối với các họ mã độc khác nhau. 97
Bảng 4.5. Thời gian xử lý một truy vấn DNS của BotFighter và các phương pháp phát hiện khác. 100
Bảng 4.6. So sánh hiệu năng của DeepDAD và BotFighter. 101
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Kịch bản tấn công đặc trưng của DGA Botnet 9
Hình 1.2. Quy trình sinh tên miền bằng thuật toán DGA dựa trên giá trị nguồn là ngày hiện tại 11
Hình 1.3. Sự sai khác giữa tên miền bình thường và tên miền DGA theo các đặc trưng (a) độ dài, (b) entropy và (c) mức độ ý nghĩa. 15
Hình 1.4. Đặc trưng ngữ nghĩa/thống kê trích rút từ tên miền: (a) độ dài, (b) Entropy, (c) Mức độ ý nghĩa, (d) 2-gram, (e) 3,4,5-gram 17
Hình 1.5. Ví dụ về hành vi truy vấn NXDOMAIN được tạo bởi (a) máy tính nhiễm mã độc DGA và (b) thiết bị bình thường 19
Hình 1.6. Mô hình phát hiện DGA sử dụng các phương pháp phân loại đa lớp với đầu vào là các đặc trưng ngữ nghĩa và thống kê. 24
Hình 2.1. Kiến trúc mạng LSTM và mô hình ứng dụng LSTM trong việc phân loại tên miền [27] 32
Hình 2.2. Sơ đồ phương pháp phát hiện phân loại tên miền sử dụng mạng LSTM truyền thống kết hợp với các đặc trưng thống kê (LSTM + Auxiliary input) 34
Hình 2.3. Mô hình phát hiện DGA sử dụng mạng CNN kết hợp mạng Bidirectional LSTM (CNN + Bidirectional LSTM) 36
Hình 2.4. So sánh hiệu năng của phương pháp LSTM + Auxiliary input với LSTM truyền thống và các phương pháp học máy khác trong phân loại 2 lớp. 40
Hình 2.5. So sánh hiệu năng của phương pháp LSTM + Auxiliary input với LSTM truyền thống và các phương pháp học máy khác trong phân loại đa lớp. 42
Hình 2.6. Ma trận confusion matrix của phương pháp LSTM + Auxiliary input 43
Hình 2.7. So sánh hiệu năng của phương pháp LSTM + Auxiliary input và CNN + Bidirectional LSTM do nghiên cứu sinh đề xuất với việc sử dụng các biến thể khác của mạng LSTM trong phân loại đa lớp. 45
Hình 2.8. Kết quả thử nghiệm ảnh hưởng của số lượng dữ liệu lên độ chính xác của phương pháp. (a) Precision, Recall và F1-score trong trường hợp Micro-averaging. (b) Precision, Recall và F1-score trong trường hợp Macro- averaging. (c) Số lượng loại DGA không nhận biết được. 53
Hình 3.1. Minh họa quá trình ngược của thuật toán Cost-Sensitive LSTM 60
Hình 3.2. Kiến trúc phương pháp LSTM.MI 62
Hình 3.3. Hiệu năng của Cost-Sensitive LSTM trong trường hợp phân loại hai lớp. (a) Macro-averaging Precision, Recall và F1-socre với tham số gÎ[0,1], và (b) Đồ thị Learning curves của LSTM và Cost-Sensitive LSTM (g=0.3) 64
Hình 3.4. Hiệu năng của Cost-Sensitive LSTM trong trường phân loại đa lớp. (a) Macro-averaging Precision, Recall và F1-score, (b) Micro-averaging Precision, Recall và F1-score, (c) Số lượng họ DGA không nhận biết được theo giá trị g= [0,1], (d) Đồ thị Learning curve trong trường hợp LSTM truyền thống và Cost-Sensitive LSTM (g=0.3) 65
Hình 3.5. Minh họa đường biên của (a) phương pháp LSTM truyền thống; Phương pháp Cost-Sensitive LSTM với các giá trị (b) γ=0.3 và (c) γ=1; (d) Phương pháp LSTM.MI (γ=0.3) 67
Hình 3.6. Confusion matrix của các loại DGA mà phương pháp LSTM.MI không phát hiện được. Các giá trị được chuẩn hóa về dạng [0,1]. 1 được hiển thị bằng màu đen và 0 được hiển thị bởi màu trắng 76
Hình 3.7 Recall của phương pháp LSTM.MI với bộ dữ liệu thu thập trong thực tế 77
Hình 4.1. Áp dụng mô hình Markov ẩn (HMM) để mô hình hoá sự biến đổi trạng thái của thiết bị 81
Hình 4.2. Kiến trúc hệ thống BotFighter 85
Hình 4.3. Precision, Recall và F1-score của BotFighter với các giá trị λ khác nhau trong khoảng từ 1 đên 10 91
Hình 4.4. Xác suất Pst=SafeDt của một thiết bị an toàn trong khoảng thời gian 3,500 phút. 94
Hình 4.5. Xác suất Pst=SafeDt của một thiết bị bị nhiễm mã độc Mydoom trong khoảng thời gian 80 phút. 95
Hình 4.6. Tỷ lệ TPR (%) của BotFighter và các bộ phát hiện khác trên bộ dữ liệu Adversarial DGA 99
MỞ ĐẦU
Tính cấp thiết của đề tài
Trong những năm gần đây, Botnet đã trở thành một trong những mối đe dọa nghiêm trọng nhất đối với Internet. Botnet là một mạng lưới các máy tính bị nhiễm mã độc (malware), những máy tính này còn được gọi là bot, bị kiểm soát và điều khiển từ xa bởi tin tặc (botmaster) thông qua máy chủ điều khiển (Command and Control server - C&C server). Với sự bùng nổ của máy tính, thiết bị di động, đặc biệt là thiết bị Internet of Thing (IoT), quy mô Botnet có thể lên tới hàng trăm nghìn thậm chí hàng triệu bot. Theo các tổ chức quốc tế, Việt Nam thường xuyên nằm trong nhóm các nước có mức độ lây nhiễm mã độc cao nhất thế giới. Theo số liệu của Trung tâm giám sát an toàn không gian mạng quốc gia (NCSC) năm 2023 vẫn còn 456.699 địa chỉ IP của Việt Nam nằm trong các mạng Botnet [1]. Điều đáng lo ngại là các cơ quan, tổ chức sở hữu những địa chỉ IP này không hề hay biết về sự tồn tại của mã độc trong hệ thống mạng của mình.
Ngày nay, đi theo xu thế của các loại hình tấn công có chủ đích (APT - Advanced Persistent Threat), Botnet trở thành nền tảng, công cụ để triển khai các đợt tấn công từ chối dịch vụ phân tán (Distributed Denial of Service - DDoS) có chủ đích trên quy mô lớn. Các máy tính ma nhận lệnh đồng thời từ tin tặc thông qua máy chủ điều khiển để gửi các yêu cầu đến máy nạn nhân như truy vấn của một người dùng bình thường, nhưng do mạng Botnet có quy mô rất lớn, có thể phát sinh ra hàng chục triệu kết nối đồng thời từ lớp 3 đến lớp 7, hệ thống máy chủ ứng dụng cần trả về hàng trăm Gbps đến hàng Tbps dữ liệu. Việc này hoàn toàn bất thường so với dung lượng thiết kế và khả năng chịu đựng của hầu hết các hệ thống trung tâm dữ liệu, từ đó gây nghẽn hạ tầng mạng, hạ tầng ứng dụng, làm gián đoạn dịch vụ, thậm chí có thể đánh sập hạ tầng công nghệ thông tin của bất kỳ cơ quan tổ chức thậm chí ở mức quốc gia.
Với đặc điểm của các đợt tấn công quy mô cực lớn như vậy trong khi các truy vấn tấn công hoàn toàn tương đồng với các truy vấn dịch vụ thông thường đã khiến cho các phương pháp phát hiện và ngăn chặn DDoS truyền thống không còn hiệu quả. Phần lớn các nghiên cứu và phương pháp truyền thống tìm cách phân ly các lưu luồng dữ liệu DDoS tấn công ra khỏi các luồng dữ liệu truy vấn thông thường dựa trên sự sai khác về hành vi và các dấu hiệu của các dạng tấn công đã biết. Tuy nhiên với các cuộc tấn công triển khai dựa trên mạng Botnet các truy vấn tấn công ngày càng giống các truy vấn thông thường, đặc biệt nếu chỉ dựa trên quan sát từ phía máy chủ nạn nhân. Mặt khác khi quy mô tấn công có dung lượng quá lớn thì ngay cả khi hệ thống phát hiện cũng không thể có các biện pháp ngăn chặn kịp thời và phòng chống được các đợt tấn công về sau. Việc nghiên cứu và ứng dụng các kỹ thuật mới để phát hiện sớm và loại bỏ tận gốc các đối tượng thực hiện tấn công DDoS, cụ thể là các mạng Botnet, trở thành nhu cầu cấp thiết và hướng nghiên cứu được quan tâm bởi nhiều nhóm nghiên cứu về an ninh mạng trong nước và trên thế giới trong những năm gần đây.
Gần đây, các dạng Botnet mới với cơ chế xác định máy chủ C&C thông qua thuật toán sinh tên miền tự động (DGA - Domain Generation Algorithm), được gọi là DGA Botnet, đã được phát hiện. Loại Botnet này kết hợp sự đơn giản của cấu trúc điều khiển tập trung với tính linh hoạt của mạng dựa trên peer-to-peer (P2P). Mỗi bot định kỳ khởi tạo danh sách tên miền ngẫu nhiên dựa trên tham số như thời gian hiện tại thông qua thuật toán đã được mã độc tích hợp. Sau đó, bot gửi các truy vấn đến hệ thống phân giải tên miền (DNS) để tìm địa chỉ IP của máy chủ C&C. Khi một tên miền được phân giải thành công, bot sẽ kết nối và nhận lệnh từ tin tặc. Nếu một tên miền hoặc IP máy chủ C&C bị chặn, bot sẽ tiếp tục tìm kiếm máy chủ mới trong chu kỳ truy vấn tiếp theo. Sự nguy hiểm của DGA Botnet nằm ở khả năng né tránh phát hiện, khi các bot liên tục sinh ra hàng loạt tên miền, làm cho việc chặn đứng máy chủ C&C trở nên khó khăn. Ngoài ra, tính phân tán và khả dụng cao cho phép Botnet hoạt động liên tục ngay cả khi bị gián đoạn. Thuật toán DGA thường xuyên thay đổi theo thời gian và tham số ngẫu nhiên, làm cho việc dự đoán và chặn các tên miền sử dụng trở nên phức tạp, khiến các biện pháp an ninh truyền thống dựa trên danh sách đen kém hiệu quả. Botnet này thường được sử dụng trong các cuộc tấn công quy mô lớn như DDoS, phát tán ransomware hoặc lừa đảo, đe dọa nghiêm trọng đến an ninh mạng toàn cầu. Với khả năng tự điều chỉnh và thích nghi linh hoạt, DGA Botnet có thể gây ảnh hưởng trên phạm vi rộng, lôi kéo hàng triệu thiết bị tham gia vào mạng lưới tấn công, gây thiệt hại kinh tế lớn và làm gián đoạn các dịch vụ quan trọng.
Với đề tài “Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu”, nghiên cứu sinh tập trung vào giải quyết vấn đề phát hiện, truy vết nguồn gốc tấn công, tìm và loại bỏ các bot của mạng DGA Botnet, tác nhân chính trong việc thực hiện tấn công DDoS. Từ đó làm giảm số lượng nguồn tấn công có thể giải quyết tận gốc và triệt để các cuộc tấn công DDoS.
Đối tượng nghiên cứu và phương pháp nghiên cứu
Việc ứng dụng các giải thuật trong học sâu (Deep learning) để giải quyết các vấn đề trong lĩnh vực an toàn thông tin là một hướng nghiên cứu đang phát triển mạnh trong những năm gần đây thu hút rất nhiều các công trình nghiên cứu khác nhau của các nhà nghiên cứu trong và ngoài nước. Không nằm ngoài xu thế chung của cộng đồng nghiên cứu, đối tượng nghiên cứu của luận án là các phương pháp phát hiện DGA Botnet dựa trên các giải thuật học sâu. Phát hiện DGA Botnet có thể chia làm ba loại chính (1) phát hiện bot, (2) phát hiện máy chủ điều khiển - C&C, (3) phát hiện Botmaster (tin tặc). Trong luận án này nghiên cứu sinh tập trung vào việc phát hiện các bot dựa trên việc mô hình hóa các đặc trưng của một máy tinh bị nhiễm mã độc DGA bằng các phương pháp học máy và học sâu.
Từ những đối tượng nghiên cứu cụ thể và để đạt được mục tiêu đã đề ra, phương pháp nghiên cứu được sử dụng trong luận án là kết hợp phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu thực tiễn. Để mô hình hóa hành vi của mã độc DGA, luận án áp dụng phương pháp chuyên gia trong nghiên cứu thực tiễn, tức là tận dụng kết quả phân tích hành vi của các mẫu mã độc DGA đã được các chuyên gia bảo mật phân tích bằng kỹ thuật dịch ngược (reverse engineering). Thông qua quá trình này, dữ liệu được tổng hợp và phân loại nhằm xác định những hành vi đặc trưng trong các truy vấn DNS của mã độc DGA, từ đó so sánh với các truy vấn DNS thông thường trên hệ thống để phát hiện điểm khác biệt và xây dựng mô hình nhận diện. Các phương pháp phát hiện DGA Botnet đã được công bố của các nhà nghiên cứu khác được luận án tổng hợp, xem xét và hệ thống hóa để phân tích kỹ các ưu nhược điểm cũng như các hạn chế và thách thức mà các phương pháp này phải đối mặt giải quyết. Từ đó có thể xác định xu hướng nghiên cứu hiện nay, cũng như xác định được hướng tiếp cận và nghiên cứu chuyên sâu, cụ thể ở đây là sử dụng giải thuật học sâu cho bài toán phát hiện DGA Botnet. Các phương pháp do luận án đề xuất được kiểm chứng và chứng minh hiệu quả so với các phương pháp liên quan dựa trên việc đánh giá bằng các thực nghiệm khoa học trên một bộ dữ liệu thử nghiệm với các tiêu chí đánh giá đồng nhất. Dựa trên phân tích đánh giá các kết quả thử nghiệm, luận án có thể xác định được các vấn đề hạn chế còn tồn tại cần phải giải quyết cũng như tìm ra được hướng tiếp cận phù hợp nhất.
Nội dung nghiên cứu
Kế thừa các kết quả nghiên cứu đã có, luận án phân tích các đặc trưng của mã độc DGA dựa trên việc tổng hợp lại các dữ liệu truy vấn DNS do các mã độc sinh ra được thu bắt được trong thực tế hoặc sử dụng kỹ thuật dịch ngược để tìm ra được các thuật toán sinh tên miền và triển khai lại các thuật toán này bằng ngôn ngữ lập trình. Các đặc trưng cơ bản của mã độc DGA là cơ sở để xác định ba nội dung nghiên cứu chính của luận án.
Thứ nhất, nghiên cứu các cách tiếp cận phổ biến hiện nay trong việc phát hiện DGA Botnet thông qua mô hình hóa các đặc trưng về hành vi của DGA Botnet, từ đó lựa chọn hướng tiếp cận là chuyển bài toán phát hiện bot về bài toán xây dựng các bộ phân loại tên miền dựa trên các giải thuật học sâu. Trong đó luận án tập trung nghiên cứu việc ứng dụng giải thuật Long Short-Term Memory (LSTM) cũng như đề xuất các phương pháp cải tiến theo các hướng tiếp cận khác nhau.
Thứ hai, từ các kết quả thử nghiệm và đánh giá, luận án tìm ra những vấn đề còn tồn tại của các phương pháp đề xuất như vấn đề mất cân bằng dữ liệu trong quá trình huấn luyện giữa các họ mã độc DGA. Để giải quyết vấn đề này, tác giả tiếp tục nghiên cứu các kỹ thuật xử lý vấn đề không đồng đều dữ liệu trong quá trình huấn luyện mạng LSTM.
Thứ ba, mặc dù các phương pháp phân loại tên miền có thể cho độ chính xác rất cao, tuy nhiên một model có thể phân loại chính xác tên miền sinh bởi mã độc DGA với độ chính xác đạt 100% là không khả thi trong thực tế do độ chính xác sẽ phụ thuộc vào bộ dữ liệu huấn luyện. Việc kết luận một máy tính là nhiễm mã độc DGA nếu chỉ dựa trên việc phân loại tên miền sẽ có tỷ lệ cảnh báo giả rất lớn. Vì vậy luận án tiếp tục nghiên cứu phương pháp phát hiện thiết bị bị nhiễm mã độc DGA dựa trên việc tích hợp các mô hình phân loại tên miền đã đề xuất với các đặc trưng khác liên quan đến truy vấn DNS của mã độc DGA. Mục tiêu là xây dựng phương pháp phát hiện DGA Botnet có khả năng phát hiện chính xác thiết bị bị nhiễm mã độc với độ chính xác cao, đáp ứng yêu cầu xử lý theo thời gian thực và có tính ứng dụng thực tế.
Ý nghĩa khoa học và ý nghĩa thực tiễn của luận án
Các nghiên cứu của luận án đã đạt được một số kết quả nhất định, có đóng góp về mặt khoa học và thực tiễn như sau:
Về ý nghĩa khoa học:
Luận án đã đưa ra những đề xuất mới trong việc áp dụng các kỹ thuật học sâu để giải quyết các bài toán trong lĩnh vực an toàn thông tin. Nghiên cứu sinh phát triển các phương pháp mới dựa trên mạng LSTM để xây dựng các bộ phân loại tên miền bình thường và tên miền do DGA Botnet sinh ra với độ chính xác cao. Phương pháp Cost-Sensitive LSTM và LSTM.MI được đề xuất bởi nghiên cứu sinh là cách tiếp cận hiệu quả trong việc xử lý vấn đề không đồng đều của dữ liệu trong quá trình huấn luyện mạng LSTM trong bài toán phân loại đ