Tin nhắn rác qua SMS thường mang tính chất quảng cáo và tiếp thị. Người nhận có thể nhận được thông điệp không mong muốn từ các công ty, tổ chức hoặc cá nhân quảng cáo sản phẩm, dịch vụ hoặc chương trình khuyến mãi. Nghiêm trọng hơn, một số tin nhắn rác SMS có thể có tính chất lừa đảo, nhằm lừa đảo người nhận để tiết lộ thông tin cá nhân, số tài khoản ngân hàng hoặc tiền bạc. Các tin nhắn này thường giả mạo là từ các tổ chức tài chính, nhà mạng hoặc các dịch vụ khác nhau để gây thiệt hại cho người dùng.
Mỗi quốc gia, tổ chức lại có những định nghĩa khác nhau về tin nhắn rác. Về cơ bản, tin nhắn rác được định nghĩa là các tin nhắn không mong muốn được gửi hàng loạt mà không có sự đồng ý hoặc cho phép của người nhận. Tin nhắn rác phổ biến và xuất hiện trong nhiều hình thức, bao gồm email, bình luận blog, diễn đàn và thậm chí cả kết quả tìm kiếm bị nhiễm độc. Tại Việt Nam, tin nhắn rác tại Nghị định số 90/2008/NĐ-CP được định nghĩa là “tin nhắn được gửi đến người nhận mà người nhận đó không mong muốn hoặc không có trách nhiệm phải tiếp nhận theo quy định của pháp luật”. Nghị định số 91/2020/NĐ-CP đã làm rõ cách hiểu về “tin nhắn rác” như sau: “Tin nhắn quảng cáo mà không được sự đồng ý trước của Người sử dụng hoặc tin nhắn quảng cáo vi phạm các quy định về gửi tin nhắn quảng cáo tại Nghị định này;” hoặc “Tin nhắn vi phạm các nội dung bị cấm theo quy định tại Điều 9 Luật Giao dịch điện tử, Điều 12 Luật Công nghệ thông tin, Điều 12 Luật Viễn thông, Điều 8 Luật Quảng cáo, Điều 7 Luật An toàn thông tin mạng, Điều 8 Luật An ninh mạng”.
119 trang |
Chia sẻ: Tuệ An 21 | Ngày: 08/11/2024 | Lượt xem: 130 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các phương pháp phát hiện tin nhắn rác Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
VŨ MINH TUẤN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT
Chuyên ngành: Hệ thống thông tin
Mã số: 9.48.01.04
LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN
HÀ NỘI - 2024
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
VŨ MINH TUẤN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN
TIN NHẮN RÁC TIẾNG VIỆT
Chuyên ngành: Hệ thống thông tin
Mã số: 9.48.01.04
LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN
Người hướng dẫn khoa học:
PGS.TS. Trần Quang Anh
TS. Nguyễn Xuân Thắng
HÀ NỘI – 2024
MỤC LỤC
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác.
Tác giả
Vũ Minh Tuấn
LỜI CẢM ƠN
Luận án Tiến sĩ này được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông dưới sự hướng dẫn khoa học của PGS. TS Trần Quang Anh và TS. Nguyễn Xuân Thắng. Tôi xin bày tỏ lòng biết ơn sâu sắc tới các Thầy về định hướng khoa học, liên tục quan tâm, tạo điều kiện thuận lợi trong suốt quá trình nghiên cứu hoàn thành cuốn luận án này. Tôi xin được chân thành cảm ơn các nhà khoa học, tác giả các công trình công bố đã trích dẫn trong luận án vì đã cung cấp nguồn tư liệu quý báu, những kiến thức liên quan, quan trọng trong quá trình nghiên cứu hoàn thành luận án.
Tôi xin trân trọng cảm ơn Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông, Hội đồng Khoa học, Hội đồng Tiến sĩ của Học viện vì đã tạo điều kiện để nghiên cứu sinh được thực hiện và hoàn thành chương trình nghiên cứu của mình. Xin chân thành cảm ơn Khoa Đào tạo sau đại học và các nhà khoa học thuộc Học viện Công nghệ Bưu chính Viễn thông cũng như các nghiên cứu sinh khác về sự hỗ trợ trên phương diện hành chính, hợp tác có hiệu quả trong suốt quá trình nghiên cứu khoa học của mình.
Tôi xin gửi lời cảm ơn tới Ban giám hiệu Trường Đại học Hà Nội và các bạn đồng nghiệp, bạn bè thân hữu, vì đã tạo nhiều điều kiện thuận lợi trong suốt quá trình học tập.
Cuối cùng là sự biết ơn tới gia đình và những người bạn thân thiết vì đã liên tục động viên để duy trì nghị lực, sự cảm thông, chia sẻ về thời gian, sức khỏe và các khía cạnh của cuộc sống trong cả quá trình để hoàn thành luận án.
Hà Nội, tháng năm 2024
Tác giả
Vũ Minh Tuấn
DANH MỤC KÝ HIỆU VÀ VIẾT TẮT
Kí hiệu
Tiếng Anh
Tiếng Việt
3GPP
Third Generation Partnership Project
Dự án các đối tác thế hệ 3
BERT
Bidirectional Encoder Representations from Transformers
Biểu diễn mã hóa hai chiều từ transformers
BOW
Bag of Words
Túi từ
CBOW
Continuos Bag of Words
Túi từ liên tục
CDMA
Code Division Multiple Access
Đa người dùng phân chia theo mã
CMS
Content Management System
Hệ thống quản lý nội dung
CNN
Convolutional Neural Network
Mạng nơ ron tích chập
DT
Decision Tree
Thuật toán cây quyết định
ETSI
European Telecommunications Standards Institute
Viện tiêu chuẩn Viễn thông Châu Âu
FN
False Negatives
Âm tính giả
FP
False Positives
Dương tính giả
GB
Gradient Boosting
Tên một thuật toán học máy
IA-AIS
Improved Adaptive Artificial Immune System
Hệ thống miễn dịch nhân tạo thích ứng cải thiện
IM
Instant Message
Tin nhắn tức thì
k-NN
k-Nearest Neighbor
Tên một thuật toán học máy
LIWC
Linguistic Inquiry and Word Count
Truy vấn ngôn ngữ và đếm từ
LR
Logistic Regression
Tên một thuật toán học máy
LSTM
Long-Short Term Memory Network
Mạng trí nhớ ngắn-dài hạn
ML
Machine Learning
Học máy
MTM
Message Topic Model
Mô hình chủ đề tin nhắn
NB
Naïve Bayes
Tên một thuật toán học máy
NCS
Nghiên cứu sinh
NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
OTT
Over The Top
Ứng dụng lớp trên
RF
Random Forest
Tên một thuật toán học máy
RNN
Recurrent Neural Network
Mạng nơ-ron quy hồi
SGD
Stochastic Gradient Descent
Tên một thuật toán
SIM
Subscriber Identity Module
Thiết bị định danh người dùng di động
SMS
Short Service Message
Dịch vụ tin nhắn ngắn
SMSC
Short Service Message Center
Trung tâm dịch vụ tin nhắn ngắn
SVM
Support Vector Machine
Tên một thuật toán học máy
TDMA
Time Division Multiple Access
Đa truy cập theo thời gian
TF-IDF
Term Frequency – Inverse Document Frequency
Tần suất thuật ngữ - Tần suất tài liệu nghịch đảo
TN
True Negatives
Âm tính thật
TP
True Positives
Dương tính thật
TP-PID
Protocol Identifier
Mã định danh giao thức
DANH MỤC CÁC BẢNG
Bảng 11Danh sách đặc tính của SMS 17
Bảng 12 Danh sách 20 đặc trưng kết hợp LIWC 19
Bảng 13 Bảng thống kê nguồn cung cấp dữ liệu tin nhắn 30
Bảng 14 Số lượng tin nhắn sau khi xử lý trùng lặp 31
Bảng 15 Danh sách thông số trong độ đo đánh giá phân lớp nhị phân 43
Bảng 21 Mô tả tập dữ liệu tin nhắn có độ dài khác nhau 54
Bảng 22 Kết quả tại các ngưỡng khác nhau của bộ luật cho tin nhắn SMS 58
Bảng 23 Kết quả mô hình sử dụng bộ luật với ngưỡng 1.25 59
Bảng 24 Kết quả thí nghiệm với học máy truyền thống với tập dữ liệu DS-Short 61
Bảng 25 Kết quả thí nghiệm với học máy truyền thống với tập dữ liệu DS-Medium 61
Bảng 26 Kết quả thí nghiệm với học máy truyền thống với tập dữ liệu DS-Long 62
Bảng 27 Mô tả cấu trúc và tham số mạng CNN 64
Bảng 28 Mô tả cấu trúc và tham số mạng LSTM 66
Bảng 29 Kết quả thí nghiệm mô hình học sâu với ba tập dữ liệu tin nhắn có độ dài khác nhau 67
Bảng 210 Bảng so sánh kết quả của các mô hình với 3 tập dữ liệu tin nhắn có độ dài khác nhau 68
Bảng 31 Kết quả thí nghiệm mô hình CNN với 3 tập dữ liệu tin nhắn biến thế 77
Bảng 32 Tham số mạng CNN kết hợp cùng với các kĩ thuật vector hóa 83
Bảng 33 Tham số mạng LSTM kết hợp cùng với các kĩ thuật vector hóa 85
DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ
Hình 11 Cấu trúc tin nhắn SMS 11
Hình 12 Form thu thập tin nhắn rác 26
Hình 13 Phân bổ số lượng tin nhắn theo độ dài 32
Hình 14 Phân bổ số lượng tin nhắn rác theo độ dài 33
Hình 21 Quy trình triển khai và so sánh hiệu quả mô hình phát hiện tin nhắn rác tiếng Việt đơn thể 51
Hình 22 Mô tả dữ liệu thí nghiệm 54
Hình 23 Mô hình triển khai phát hiện tin nhắn rác với bộ luật thống kê 55
Hình 24 Giao diện phần mềm trên thiết bị di động 57
Hình 25 Biểu đồ kết quả bộ luật ở ngưỡng 1.25 60
Hình 26 Mô hình phát hiện tin nhắn rác với mạng CNN và các kĩ thuật vector hóa văn bản 65
Hình 27 Kết quả so sánh Accuracy và F1 Score của 2 thuật toán CNN & LSTM trên 3 tập dữ liệu 68
Hình 28 So sánh mức độ phụ thuộc của các mô hình và độ dài tin nhắn 69
Hình 31 So sánh kết quả của mô hình CNN trên 3 tập dữ liệu 78
Hình 32 So sánh kết quả mô hình CNN khi kết hợp với các phép vector hoá 84
Hình 33 So sánh kết quả mô hình LSTM khi kết hợp với các phép vector hoá 86
Hình 34 Mô hình BERT NER [45] 88
Hình 35 So sánh kết quả mô hình BERT NER chạy trên tập dữ liệu tiếng Anh và tiếng Việt đa biến thể 89
Hình 36 So sánh kết quả các mô hình CNN và LSTM khi kết hợp với PhoBERT và BERT NER trên tập dữ liệu tiếng Việt đa biến thể 90
MỞ ĐẦU
LÝ DO LỰA CHỌN ĐỀ TÀI
Trong thế giới phẳng ngày nay, ứng dụng công nghệ thông tin để có thể giao tiếp nhanh chóng, thuận tiện và hiệu quả là điều tất yếu. Cùng với điện thoại và thư điện tử, tin nhắn (SMS) đã tạo nên một cuộc cách mạng về trao đổi thông tin. Mặc dù ra đời sau thư điện tử nhưng tin nhắn SMS lại đang phát triển rất nhanh và đang có xu hướng chiếm ưu thế do một số đặc điểm đặc thù. Tin nhắn đã trở thành một phương tiện giao tiếp không thể thiếu, mang lại nhiều lợi ích đối với cả người dùng và các tổ chức. Khả năng truyền tải thông điệp nhanh chóng và hiệu quả đã biến tin nhắn thành công cụ quan trọng trong việc duy trì liên lạc cá nhân, kết nối kinh doanh và thậm chí là quảng cáo sản phẩm, dịch vụ thông qua chiến dịch marketing. Điều này không chỉ giúp người dùng tiết kiệm thời gian mà còn mở ra những cơ hội kinh doanh mới. Từ việc thông báo khuyến mãi đến việc xác nhận giao dịch, tin nhắn ngày càng chứng minh vai trò quan trọng trong cuộc sống hàng ngày của mọi người. Theo một báo cáo gần đây của Slicktext, trên 5 tỷ người trên thế giới – chiếm 65% dân số toàn cầu đang sử dụng dịch vụ tin nhắn SMS [1].
Tuy nhiên, sự lạm dụng của tin nhắn, đặc biệt là tin nhắn rác, đã đặt ra một thách thức đối với tính hữu ích của nó. Sự xuất hiện ngày càng nhiều của tin nhắn rác đã gây ảnh hưởng tiêu cực đến trải nghiệm người dùng. Không chỉ làm mất thời gian và tạo ra sự phiền hà, tin nhắn rác còn gây ảnh hưởng tới tính hợp pháp và độ tin cậy của tin nhắn. Ngoài ra, việc lạm dụng tin nhắn rác còn có thể gây nguy cơ về an toàn thông tin cá nhân, tạo ra sự lo ngại về quyền riêng tư, gây hại đến thiết bị của người dùng thông qua các liên kết độc hại và cả những hậu quả nghiêm trọng về tài chính cho cá nhân và doanh nghiệp [2]. Năm 2020, sau đại dịch Covid 19, chứng kiến sự tăng vọt của sự phát tán tin nhắn rác và các cuộc tấn công lừa đảo qua tin nhắn SMS (smishing), với tổng thiệt hại ở Mỹ đạt 86 triệu USD. Các cuộc tấn công này không chỉ nhắm vào cá nhân mà còn ảnh hưởng đến doanh nghiệp, với 76% doanh nghiệp trên toàn cầu báo cáo rằng họ đã nhận được tin nhắn smishing https://techreport.com/statistics/smishing-statistics/
. Năm 2021, ước tính có tổng cộng hơn 10 tỷ USD thiệt hại do tin nhắn rác https://www.slicktext.com/blog/2022/10/17-spam-text-statisitics-for-2022/
. Đáng chú ý, số lượng nạn nhân của các cuộc tấn công smishing và phishing đã tăng đáng kể, với hơn 240.000 trường hợp được báo cáo vào năm 2020, gây ra hơn 54 triệu USD thiệt hại https://www.safetydetectives.com/blog/what-is-smishing-sms-phishing-facts/
.
Điều này cũng không quá khó giải thích. Về xu hướng sử dụng SMS, một khảo sát cho thấy 75% người tiêu dùng thích nhận được tin nhắn quảng cáo qua SMS. SMS marketing cũng được chứng minh là có hiệu quả với tỷ lệ mở 98% và tỷ lệ phản hồi 45%, cao hơn nhiều so với email. Điều này chứng tỏ SMS vẫn là một công cụ quảng cáo quan trọng và hiệu quả cho các doanh nghiệp https://marketsplash.com/sms-statistics/
. Với số lượng người dùng khổng lồ, liên tục gia tăng trên toàn thế giới, người dùng điện thoại đã và đang trở thành những “con mồi béo bở” để những kẻ phát tán tin nhắn rác, những nhà cung cấp dịch vụ quảng cáo, marketing tha hồ tấn công, lợi dụng để truyền tải thông tin, giới thiệu dịch vụ, sản phẩm.
Theo thống kê của Trung tâm cứu hộ máy tính Việt Nam
, mỗi ngày có hàng triệu tin nhắn rác được gửi đi, tương đương với hàng triệu thuê bao bị tấn công bởi những thông tin không có giá trị; đồng thời gây ra áp lực rất lớn lên hạ tầng viễn thông di động trong nước. Theo báo cáo của Bộ Thông tin và truyền thông Việt Nam https://vietnamnet.vn/doanh-nghiep-vien-thong-da-chan-243-trieu-tin-nhan-rac-2142763.html
, từ tháng 11/2022 đến giữa tháng 4/2023, các doanh nghiệp viễn thông đã phát hiện và ngăn chặn 243 triệu tin nhắn rác nhưng cũng chỉ chiếm một phần số lượng tin nhắn rác thực tế đang được phát tán tới người dùng di động.
Để giải quyết mối đe dọa trên, cần phải kết hợp rất nhiều biện pháp mới có thể xử lý triệt để như chính sách quản lý đối với các công ty viễn thông, các công ty cung cấp dịch vụ quảng cáo, nâng cao ý thức người dùng về bảo mật thông tin cá nhân (địa chỉ thư điện tử, số điện thoại) và các giải pháp kĩ thuật. Đối với giải pháp kĩ thuật, bài toán đặt ra cho các nhà nghiên cứu là làm sao để có thể phát hiện và ngăn chặn việc phát tán tin rác hiệu quả và kịp thời nhất.
Đã có rất nhiều nghiên cứu được thực hiện trong những năm qua đề xuất các phương pháp phát hiện tin nhắn rác nhằm giảm thiểu những ảnh hưởng mà tin nhắn rác gây ra cho người dùng. Các nghiên cứu được chia thành 2 hướng tiếp cận: Phương pháp dựa trên nội dung tin nhắn và phương pháp dựa trên những đặc điểm phi nội dung. Ngoài ra, có một số nghiên cứu kết hợp cả hai hướng trên để nâng cao hiệu quả. Trong phạm vi của luận án, nghiên cứu sinh (NCS) tập trung khảo sát các nghiên cứu phát hiện tin nhắn rác tiếng Việt dựa trên đặc điểm nội dung tin nhắn. Đối với bài toán phát hiện tin nhắn rác tiếng Việt, NCS nhận thấy còn tồn tại một số vấn đề sau mà các nghiên cứu hiện tại chưa xử lý triệt để:
Các nghiên cứu sử dụng các tập dữ liệu cũ, mất cân bằng với số lượng hạn chế. Đặc biệt, chưa có một tập dữ liệu tiếng Việt được sử dụng cho việc phát hiện tin nhắn rác tiếng Việt;
Chưa có nghiên cứu đánh giá về mức độ phụ thuộc của hiệu quả của phương pháp phát hiện tin nhắn rác vào độ dài của tin nhắn – đặc biệt là với ngôn ngữ tiếng Việt. Từ đó, đề xuất mô hình phát hiện tin nhắn rác tiếng Việt cho hiệu quả “ổn định” khi độ dài tin nhắn thay đổi;
Đối với những ngôn ngữ có nhiều biến thể như tiếng Việt, chưa có một mô hình phù hợp và hiệu quả để phát hiện tin nhắn rác.
Nghiên cứu sinh (NCS) nhận thấy việc nghiên cứu, thử nghiệm và cải tiến các kĩ thuật phát hiện tin nhắn rác phổ biến hiện nay để để xử lý các tồn tại trên là hết sức cần thiết. Kết quả khảo sát các nghiên cứu liên quan đến 03 tồn tại trên được NCS đề cập chi tiết trong phần tiếp theo khi trình bày về các nhiệm vụ nghiên cứu của đề tài. Đề tài nghiên cứu không chỉ hỗ trợ tốt hơn công tác quản lý mà còn góp phần thúc đẩy sự phát triển bền vững của ngành viễn thông và trải nghiệm người dùng. Điều này càng thể hiện tính cấp thiết và ý nghĩa của việc nghiên cứu trong lĩnh vực này để tạo ra môi trường truyền thông an toàn, hiệu quả và thú vị hơn cho tất cả chúng ta. Chính vì vậy, NCS đã quyết định chọn đề tài “Nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt” cho luận án tiến sĩ.
MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Mục tiêu nghiên cứu
Mục tiêu chung của đề tài là nghiên cứu để tìm ra phương pháp hiệu quả và phù hợp phát hiện tin nhắn rác tiếng Việt, giúp người dùng tránh được những phiền phức, ảnh hưởng xấu do những đối tượng phát tán tin rác gây ra; đồng thời, đề xuất phương pháp để các nhà cung cấp dịch vụ viễn thông có thể thử nghiệm và ứng dụng chặn tin nhắn rác từ nguồn phát tán. Việc phát hiện tin nhắn rác được thực hiện với nhiều cách tiếp cận và cần được thử nghiệm với các mô hình khác nhau để lựa chọn ra phương pháp phù hợp nhất với ngữ cảnh và hành vi của người dùng tại Việt Nam, sử dụng tiếng Việt. Để thực hiện được mong muốn đó, đề tài có những mục tiêu nghiên cứu cụ thể như sau:
Xây dựng tập dữ liệu tin nhắn rác và tin nhắn thường bằng tiếng Việt.
Phân tích mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dung của tin nhắn.
Đề xuất phương pháp phát hiện tin nhắn rác thích hợp cho đặc thù đa biến thể của ngôn ngữ tiếng Việt.
NCS hướng tới việc triển khai thành công mô hình cùng với những cải tiến để góp phần tích cực giảm thiểu việc lạm dụng công cụ thông tin liên lạc là tin nhắn vào các mục đích xấu, hỗ trợ nhà cung cấp dịch vụ tin nhắn ngăn chặn tin nhắn rác, giảm lãng phí tài nguyên mạng viễn thông do việc phát tán tin nhắn rác gây ra.
Đối tượng và phạm vi nghiên cứu
Đối tượng NCS tập trung nghiên cứu là các phương pháp phát hiện tin nhắn rác tiếng Việt. Đề tài nghiên cứu các kiến thức thuộc về ngành học máy và nhánh học sâu – chính là cơ sở đề xây dựng mô hình bài toán.
Với khách thể nghiên cứu chính là những tin nhắn rác được phát tán đến người sử dụng dịch vụ di động, NCS đã chọn đối tượng khảo sát trên phạm vi rộng là những tập dữ liệu tin nhắn rác mẫu tiếng Việt được thu thập từ người dùng của các mạng viễn thông di động đang hoạt động ở Việt Nam để phục vụ nghiên cứu. Ngoài ra, NCS cũng mở rộng tập dữ liệu với những tin nhắn được gửi đi trên các nền tảng đang có xu hướng phát triển mạnh hiện nay như: mạng xã hội và OTT để làm phong phú và toàn diện hơn hướng nghiên cứu của đề tài.
Phương pháp nghiên cứu
NCS kết hợp một số phương pháp nghiên cứu như sau để thực hiện đề tài:
Thu thập, chuẩn bị dữ liệu thử nghiệm cho các mô hình phát hiện tin nhắn rác tiếng Việt.
Nghiên cứu cơ sở lý thuyết dựa trên việc đọc và phân tích các tài liệu liên quan đến các vấn đề thuộc lĩnh vực nghiên cứu.
Trên cơ sở các phân tích về lý thuyết, triển khai các thực nghiệm:
Mô hình hóa các phương pháp dự định nghiên cứu, cài đặt với các ngôn ngữ lập trình phù hợp
Chạy thực nghiệm với dữ liệu mẫu để so sánh kết quả của các phương pháp
Tối ưu hóa các thuật toán để nâng cao hiệu quả thực nghiệm
Kết quả của các thực nghiệm được đánh giá dựa trên các tiêu chí như Accuracy, Precision, Recall, F1 Score.
Ý NGHĨA CỦA ĐỀ TÀI
Ý nghĩa khoa học
Kết quả nghiên cứu của đề tài về những đặc điểm của tin nhắn và tin nhắn rác tiếng Việt là tiền đề cho các nghiên cứu liên quan đến phát hiện, phân loại và ngăn chặn tin nhắn rác. Trong phạm vi nghiên cứu, luận án đã bổ sung thêm cơ sở lý luận cho khoa học trong việc đề xuất các phương pháp hiện tin nhắn rác. Cụ thể: (i) mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dung của tin nhắn; (ii) phương pháp tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt.
Ý nghĩa thực tiễn
Kết quả nghiên cứu của đề tài là nguồn tài liệu tham khảo có giá trị cho các doanh nghiệp liên quan đến lĩnh vực viễn thông và bảo mật để nâng cao khả năng kiểm soát và ngăn chặn tin nhắn rác, tin quảng cáo sai quy định. Kết quả nghiên cứu với mô hình phát hiện tin nhắn rác tiếng Việt có tính ứng dụng cao, có thể phát triển và mở rộng để đưa vào triển khai trong thực tế.
NHIỆM VỤ NGHIÊN CỨU VÀ KẾT QUẢ ĐẠT ĐƯỢC
Nhiệm vụ nghiên cứu
Để đảm bảo việc đạt được các mục tiêu nghiên cứu đã được đề cập, NCS đã xác định một loạt các nhiệm vụ nghiên cứu cụ thể phục vụ cho việc nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt.
Nhiệm vụ đầu tiên của luận án là xây dựng một tập dữ liệu chứa cả tin nhắn thường và tin nhắn rác trong ngôn ngữ tiếng Việt. Tập dữ liệu này sẽ đóng vai trò quan trọng trong việc thực hiện các thí nghiệm và phân tích trong phạm vi luận án. Tạo ra một tập dữ liệu phong phú và đáng tin cậy sẽ cung cấp cơ sở dữ liệu quan trọng cho toàn bộ luận án và giúp cho việc xác định và hiểu rõ các đặc điểm của tin nhắn rác trong ngôn ngữ tiếng Việt như về độ dài, biến thể ngôn ngữ, sắc thái cảm xúc
Nhiệm vụ tiếp theo liên quan đến việc phân tích mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dung của tin nhắn. Để làm được điều này, NCS thử nghiệm và áp dụng các mô hình với các thuật toán học máy truyền thống, học sâu cho bài toán phát hiện tin nhắn rác tiếng Việt trên các tập dữ liệu tin nhắn có độ dài khác nhau. Mục tiêu của nhiệm vụ là xây dựng một hệ thống thông minh có khả năng phát hiện các tin nhắn rác một cách hiệu quả, đồng thời đảm bảo rằng các tin nhắn hợp lệ không bị nhầm lẫn hoặc bị loại bỏ trong điều kiện bị giới hạn về nội dung và độ dài của của tin nhắn.
Cuối cùng, nhiệm vụ thứ ba đề xuất phương pháp tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt trên cơ sở kế thừa kết quả của nhiệm vụ thứ hai. Điều này yêu cầu sự hiểu biết sâu sắc về đặc điểm đa biến thể của tiếng Việt, từ việc sử dụng dạng có dấu, không dấu, hỗn hợp hoặc kết hợp với chữ viết tắt, ký tự đặc biệt để lựa chọn phương pháp phù hợp cho từng dạng biến thể. Nhiệm vụ này liên quan chặt chẽ đến kỹ thuật biểu diễn ngôn ngữ hiểu được ngữ cảnh, nội dung của tin nhắn; đồng thời, cũng đánh giá việc sử dụng học chuyển giao vào bài toán phát hiện tin nhắn rác tiếng Việt đa biến thể.
Tất cả các nhiệm vụ nghiên cứu trên kết hợp sẽ đóng góp vào việc nâng cao hiệu quả phát hiện tin nhắn rác iếng Việt và mang lại những giá trị quan trọng trong việc bảo vệ người dùng khỏi các tin nhắn không mong muốn.
Các kết quả đạt được
Một là luận án đã xây dựng bộ dữ liệu tin nhắn rác và tin nhắn thường phục vụ cho mục đích nghiên cứu. Bộ dữ liệu bao gồm 69.192 tin nhắn tiếng Việt có dấu và không dấu, được thu thập từ nhiều nguồn khác nhau như do tổ chức cung cấp, từ bẫy spam và do các tình nguyện viên cung cấp. Bộ dữ liệu có vai trò quan trọng trong việc phân tích các đặc điểm, đặc trưng của tin nhắn rác tiếng Việt, thử nghiệm và đánh giá các mô hình phát hiện tin nhắn rác trong luận án.
Hai là luận án phân tích mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dun