Cơ sơ lý thuyết của khai phá hữu ích cao
Phát biểu: Cho tập hữu hạn gồm các mục I = {x1, x2, . . . , xm}, mỗi mục x ∈ I
có một giá trị hữu ích ngoại, ký hiệu là p(x). Tập mục X = {x1, x2, . . . , xk}, với X ⊆ I,
k là độ dài của tập mục X. CSDL giao tác D = {T1, T2, . . . , Tn} chứa n giao tác, mỗi
giao tác Tc ⊆ I, 1 ≤ c ≤ n có một định danh gọi là Tid. Mỗi mục x trong giao tác Tc
kết hợp với một trọng số gọi là hữu ích nội (số lượng), ký hiệu là q(x, Tc).
Ví dụ 1.1. Cho I là tập hữu hạn gồm các mục {A, B, C, D, E, F, G, H}. Mỗi mục
x ∈ I có một giá trị hữu ích ngoại p(x), cụ thể trong Bảng 1.2. CSDL giao tác D gồm
10 giao tác, cụ thể trong Bảng 1.1. CSDL này được sử dụng cho tất cả ví dụ trong
toàn bộ nội dung của luận án này.
127 trang |
Chia sẻ: khanhvy204 | Ngày: 13/05/2023 | Lượt xem: 670 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy cảm trong khai phá hữu ích cao, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI BÁCH KHOA
HUỲNH TRIỆU VỸ
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT
CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI
PHÁ HỮU ÍCH CAO
LUẬN ÁN TIẾN SĨ KỸ THUẬT
ĐÀ NẴNG, 02/2023
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI BÁCH KHOA
HUỲNH TRIỆU VỸ
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT
CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI
PHÁ HỮU ÍCH CAO
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 9480101
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
1. TS. TRƯƠNG NGỌC CHÂU
2. TS. LÊ QUỐC HẢI
ĐÀ NẴNG, 02/2023
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng
dẫn của TS. Trương Ngọc Châu và TS. Lê Quốc Hải.
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực
và không sao chép từ bất kỳ luận án nào khác. Một số nhiệm vụ nghiên cứu là thành
quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng. Mọi trích dẫn đều có ghi
nguồn gốc xuất xứ rõ ràng và đầy đủ.
Tác giả
NCS. Huỳnh Triệu Vỹ
i
LỜI CẢM ƠN
Trước tiên, tôi xin gởi lời tri ân đến thầy TS. Trương Ngọc Châu và thầy TS. Lê
Quốc Hải là người trực tiếp hướng dẫn và đồng hành cùng tôi từ khi bắt đầu nghiên
cứu cho đến khi hoàn thành luận án. Xin được bày tỏ lòng biết ơn đối với Quý thầy
PGS-TS. Nguyễn Tấn Khôi, PGS-TS. Nguyễn Thanh Bình, PGS-TS. Võ Trung Hùng,
TS. Huỳnh Hữu Hưng là những thầy đã trực tiếp giảng dạy tôi trong các chuyên đề
nghiên cứu của nghiên cứu sinh.
Tôi xin trân trọng cảm ơn Ban Sau Đại học - Đại học Đà Nẵng, Phòng Đào tạo -
Trường Đại học Bách khoa đã tạo mọi điều kiện thuận lợi cho tôi trong thời gian học
tập, nghiên cứu và thực hiện luận án.
Tôi xin gởi lời cảm ơn chân thành đến Ban Lãnh đạo và tập thể giảng viên Khoa
Công nghệ Thông tin - Trường Đại học Bách khoa đã tạo môi trường học thuật thân
thiện và tích cực cho các nghiên cứu sinh.
Xin cảm ơn các đồng tác giả đã đồng ý cho tôi sử dụng các kết quả nghiên cứu
chung cho luận án.
Cuối cùng, tôi xin được gởi lời cảm ơn sâu sắc nhất đến gia đình và bạn bè, những
người đã luôn dành cho tôi tình yêu và niềm tin, để tôi có thể vững tâm trên hành
trình nhiều thách thức này.
NCS. Huỳnh Triệu Vỹ
ii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT
NGỮ TIẾNG ANH
AC Artificial Cost Mẫu xuất hiện giả mạo
DUS Database Utility Similarity
Sự tương đồng của giá trị hữu ích
giữa CSDL gốc và CSDL sửa đổi
DSS Database Structure Similarity
Sự tương đồng cấu trúc giữa CSDL
gốc và CSDL sửa đổi
EHSHUI
Efficient algorithm for Hiding
Sensitive High Utility Itemsets
Thuật toán ẩn các tập mục hữu ích
cao nhạy cảm hiệu quả
EHSHA-
UI
Efficient algorithm for Hiding
Sensitive High Average-Utility
Itemsets
Thuật toán ẩn các tập mục hữu ích
trung bình cao nhạy cảm hiệu quả
GA-
based
Genetic Algorithm-based
Thuật toán dựa trên giải thuật di
truyền
HAUIM
High Average-Utility Itemset
Mining
Khai phá tập mục hữu ích trung
bình cao
HAUIs High Average-Utility Itemset
Tập các tập mục hữu ích trung bình
cao
HSUFIBL
Hiding Sensitive Utility and
Frequent Based on Lattice
Ẩn tập mục hữu ích cao và phổ biến
nhạy cảm dựa trên giàn
HUM High Utility Mining Khai phá hữu ích cao
HUIM High Utility Itemset Mining Khai phá tập mục hữu ích cao
HUIs High Utility Itemsets Tập các tập mục hữu ích cao
HURIM
High Utility Rare Itemset Min-
ing
Khai phá tập mục hữu ích cao hiếm
HUFIM
High Utility and Frequent
Itemset Mining
Khai phá tập mục hữu ích cao và phổ
biến
HUFIs
High Utility and Frequent
Itemsets
Tập các tập mục hữu ích cao và phổ
biến
HF Hiding Failure Mẫu nhạy cảm không ẩn được
IUS Itemsets Utility Similarity
Sự tương đồng của hữu ích tập mục
giữa CSDL gốc và CSDL sửa đổi
iii
MC Miss Cost Mẫu bị mất
PPDM
Privacy Preserving Data Min-
ing
Bảo vệ tính riêng tư trong khai phá
dữ liệu
PPUM
Privacy Preserving Utility
Mining
Bảo vệ tính riêng tư trong khai phá
hữu ích cao
SHUIs Sensitive High Utility Itemsets
Tập các tập mục hữu ích cao nhạy
cảm
SHAUIs
Sensitive High Average Utility
Itemsets
Tập các tập mục hữu ích trung bình
cao nhạy cảm
SHUFIs
Sensitive High Utility and Fre-
quent Itemsets
Tập các tập mục hữu ích cao và phổ
biến nhạy cảm
TWU
Transaction-Weighted-
Utilization
Trọng số hữu ích giao tác
UP-
Growth
Utility Pattern Growth Mẫu hữu ích cao tăng trưởng
UP-Tree Utility Pattern Tree Cây mẫu hữu ích cao
iv
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT
NGỮ TIẾNG VIỆT
ATMTU Ẩn tập mục hữu ích cao và phổ biến nhạy cảm tối ưu
CSDL Cơ sở dữ liệu
KPDL Khai phá dữ liệu
v
MỤC LỤC
Lời cam đoan i
Lời cảm ơn ii
Danh mục các từ viết tắt và thuật ngữ tiếng Anh iii
Danh mục các từ viết tắt và thuật ngữ tiếng Việt v
Mục lục vi
Danh mục bảng, biểu ix
Danh mục hình vẽ x
TÓM TẮT LUẬN ÁN xii
MỞ ĐẦU 1
1 TỔNG QUAN VỀ KHAI PHÁ HỮU ÍCH CAO VÀ CHE GIẤU
THÔNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO
TỪ CƠ SỞ DỮ LIỆU GIAO TÁC 7
1.1 Tổng quan về khai phá hữu ích cao từ CSDL giao tác . . . . . . . . . . 7
1.1.1 Cơ sơ lý thuyết của khai phá hữu ích cao . . . . . . . . . . . . . 7
1.1.2 Tổng quan tình hình nghiên cứu về khai phá hữu ích cao . . . . 12
1.2 Che giấu thông tin nhạy cảm trong khai phá hữu ích cao . . . . . . . . 16
1.2.1 Một số kỹ thuật che giấu mẫu nhạy cảm trong khai phá dữ liệu 17
1.2.2 Tổng quan về che giấu thông tin nhạy cảm trong khai phá hữu
ích cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.3 Các đơn vị đo lường trong đánh giá hiệu ứng phụ của thuật toán
che giấu thông tin nhạy cảm trong khai phá hữu ích cao . . . . 20
1.3 Ứng dụng lý thuyết giàn trong khai phá dữ liệu . . . . . . . . . . . . . 22
1.4 Mô tả các CSDL giao tác được sử dụng để chạy thực nghiệm của các
thuật toán trong luận án . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Tổng kết Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 CHE GIẤU THÔNG TIN NHẠY CẢM TRONGKHAI PHÁ HỮU
ÍCH CAO DỰA TRÊN KỸ THUẬT HEURISTIC 25
2.1 Quy trình che giấu thông tin nhạy cảm trong khai phá hữu ích cao từ
CSDL giao tác dựa trên kỹ thuật heuristic . . . . . . . . . . . . . . . . 26
2.2 Tình hình nghiên cứu về che giấu thông tin nhạy cảm trong khai phá
hữu ích cao từ CSDL giao tác dựa trên kỹ thuật heuristic . . . . . . . . 27
2.2.1 Ẩn tập mục hữu ích cao nhạy cảm . . . . . . . . . . . . . . . . 27
vi
2.2.2 Ẩn tập mục hữu ích cao và phổ biến nhạy cảm . . . . . . . . . . 29
2.2.3 Ẩn tập mục hữu ích trung bình cao nhạy cảm . . . . . . . . . . 30
2.2.4 Ẩn luật kết hợp hữu ích cao nhạy cảm . . . . . . . . . . . . . . 30
2.3 Thuật toán ẩn tập mục hữu ích cao nhạy cảm đề xuất . . . . . . . . . 30
2.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 31
2.3.3 Thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 38
2.3.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 39
2.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 45
2.4 Thuật toán ẩn tập mục hữu ích cao và phổ biến nhạy cảm đề xuất . . . 46
2.4.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 47
2.4.3 Thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.4.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 54
2.4.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 56
2.4.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 59
2.5 Thuật toán ẩn tập mục hữu ích trung bình cao nhạy cảm đề xuất . . . 60
2.5.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.5.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 60
2.5.3 Thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 64
2.5.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 66
2.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 66
2.5.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 68
2.6 Thuật toán ẩn luật kết hợp hữu ích cao nhạy cảm đề xuất . . . . . . . 70
2.6.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.6.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 71
2.6.3 Thuật toán ẩn luật kết hợp hữu ích cao nhạy cảm đề xuất . . . 72
2.6.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 73
2.6.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 75
2.6.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 76
2.6.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 76
Tổng kết Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3 CHE GIẤU THÔNG TIN NHẠY CẢM TRONGKHAI PHÁ HỮU
ÍCH CAO DỰA TRÊN LÝ THUYẾT GIÀN 78
3.1 Lý thuyết giàn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.1.1 Quan hệ hai ngôi [14] . . . . . . . . . . . . . . . . . . . . . . . . 79
vii
3.1.2 Giàn sắp thứ tự (Lattice as orders) [14] . . . . . . . . . . . . . . 81
3.1.3 Giàn đại số (Lacttice as algebras) [14] . . . . . . . . . . . . . . . 82
3.1.4 Giàn của tập hợp [14] . . . . . . . . . . . . . . . . . . . . . . . 84
3.1.5 Giàn giao của tập phổ biến [37] . . . . . . . . . . . . . . . . . . 85
3.2 Che giấu thông tin nhạy cảm trong khai phá hữu ích cao dựa trên lý
thuyết Giàn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2.1 Giàn giao của tập các tập mục hữu ích cao và phổ biến . . . . . 86
3.2.2 Thuật toán ẩn tập mục hữu ích cao và phổ biến nhạy cảm dựa
trên Giàn giao đề xuất . . . . . . . . . . . . . . . . . . . . . . . 88
3.2.3 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 90
3.2.4 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 93
3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 93
3.2.6 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 96
Tổng kết Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 105
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ 107
Tài liệu tham khảo 109
viii
DANH MỤC BẢNG, BIỂU
1.1 CSDL Giao tác D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Hữu ích ngoại của CSDL D. . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Mô tả CSDL thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1 Tập HUIs khai thác từ CSDL D với ε = 40 . . . . . . . . . . . . . . . . 39
2.2 Mô tả CSDL chạy thực nghiệm của thuật toán EHSHUI . . . . . . . . 41
2.3 Tập HUFIs khai thác từ CSDL D với ε = 30 và δ = 30% . . . . . . . . 54
2.4 Mô tả tập các tập mục SHUFIs . . . . . . . . . . . . . . . . . . . . . . 57
2.5 Tập HAUIs khai thác từ CSDL D với β = 18 . . . . . . . . . . . . . . . 66
2.6 Mô tả tập HAUIs được khai thác bởi thuật toán HAUIMiner [25] . . . 67
2.7 Mô tả tập SHAUIs chạy thực nghiệm thuật toán EHSHA-UI . . . . . . 67
2.8 Tập HRs khai thác từ CSDL D với ε = 40 và µ = 70% . . . . . . . . . 74
2.9 Mô tả kết quả ẩn luật kết hợp hữu ích cao nhạy cảm . . . . . . . . . . 76
3.1 Các thông số của tập SHUFIs . . . . . . . . . . . . . . . . . . . . . . . 94
ix
DANH MỤC HÌNH VẼ
1.1 Sơ đồ che giấu mẫu nhạy cảm trong khai phá hữu ích cao . . . . . . . . 19
1.2 Mối quan hệ của ba loại hiệu ứng phụ khi thực hiện sửa đổi CSDL . . . 21
2.1 Sơ đồ biểu diễn quá trình ẩn tập mục hữu ích cao nhạy cảm . . . . . . 32
2.2 Tỷ lệ MC giữa các thuật toán khi thực nghiệm trên các CSDL với các
tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3 Thời gian thực thi của các thuật toán khi thực nghiệm trên các CSDL
với các tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . 43
2.4 Tỷ lệ DSS giữa các thuật toán khi thực nghiệm trên các CSDL với các
tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5 Tỷ lệ DUS giữa các thuật toán khi thực nghiệm trên các CSDL với các
tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6 Tỷ lệ IUS giữa các thuật toán khi thực nghiệm trên các CSDL với các
tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.7 Sơ đồ biểu diễn quá trình ẩn các tập mục SHUFIs . . . . . . . . . . . . 47
2.8 So sánh tỷ lệ MC giữa thuật toán HUFI và ATMTU . . . . . . . . . . 57
2.9 So sánh thời gian thực thi giữa thuật toán HUFI và ATMTU . . . . . . 58
2.10 So sánh tỷ lệ DSS giữa thuật toán HUFI và ATMTU . . . . . . . . . . 59
2.11 So sánh tỷ lệ DUS giữa thuật toán HUFI và ATMTU . . . . . . . . . . 59
2.12 Tỷ lệ IUS khi thực hiện ẩn các tập SHUFIs bởi thuật toán HUFI và
ATMTU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.13 So sánh tỷ lệ MC giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . 69
2.14 So sánh thời gian thực thi giữa thuật toán HHAUSI và EHSHA-UI . . 69
2.15 So sánh tỷ lệ DSS giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . 70
2.16 So sánh tỷ lệ DUS giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . 70
2.17 Tỷ lệ IUS giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . . . . . . 70
3.1 Giàn của tập hợp P = {a, b, c} . . . . . . . . . . . . . . . . . . . . . . . 84
3.2 Giàn L∩H của HUFIs trong Bảng 2.3 (bên trong mỗi nút là độ hỗ
trợ(%)/giá trị hữu ích của nút tương ứng) . . . . . . . . . . . . . . . . 87
3.3 Tỷ lệ MC theo kích thước của tập nhạy cảm . . . . . . . . . . . . . . . 97
3.4 Tỷ lệ MC theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 97
3.5 Tỷ lệ MC theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 98
x
3.6 Tỷ lệ DSS theo kích thước của tập nhạy cảm . . . . . . . . . . . . . . . 98
3.7 Tỷ lệ DSS theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 99
3.8 Tỷ lệ DSS theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 99
3.9 Tỷ lệ DUS theo kích thước của tập nhạy cảm . . . . . . . . . . . . . . 100
3.10 Tỷ lệ DUS theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 100
3.11 Tỷ lệ DUS theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 101
3.12 Tỷ lệ IUS kích thước của tập nhạy cảm . . . . . . . . . . . . . . . . . . 101
3.13 Tỷ lệ IUS theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 102
3.14 Tỷ lệ IUS theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 102
3.15 Thời gian thực thi theo kích thước của tập nhạy cảm . . . . . . . . . . 103
3.16 Thời gian thực thi theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . 103
3.17 Thời gian thực thi theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . 104
xi
TÓM TẮT LUẬN ÁN
Tên đề tài: Nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy
cảm trong khai phá hữu ích cao.
Chuyên ngành: Khoa học máy tính.
Mã số: 94.80.101
Tóm tắt: Luận án đã nghiên cứu và phát triển một số kỹ thuật che giấu thông
tin nhạy cảm trong khai phá hữu ích cao, kết quả đạt được gồm: Thứ nhất, dựa trên
kỹ thuật heuristic: Đề xuất thuật toán ẩn tập mục hữu ích cao nhạy cảm; thuật toán
ẩn tập mục hữu và phổ biến nhạy cảm; đề xuất mô hình và thuật toán ẩn tập mục
hữu ích trung bình cao nhạy cảm; mô hình và thuật toán ẩn luật kết hợp hữu ích cao
nhạy cảm. Thứ hai, đề xuất Giàn giao có ràng buộc của tập các tập mục hữu ích cao
và phổ biến để làm cơ sở xây dựng mô hình và đề xuất thuật toán ẩn tập mục hữu
ích cao và phổ biến nhạy cảm.
Từ khóa: Khai phá hữu ích cao, che giấu thông tin riêng tư trong khai phá hữu
ích cao, giàn giao.
ABSTRACT
Thesis title: Research and develop a number of techniques to hide sensitive
information in high utility mining.
Major: Computer science.
Code: 94.80.101
Abstract: The thesis has researched and developed a number of techniques to
hide sensitive information in high utility mining. Namely, include: First, based on
the heuristic technique propose the algorithm for hiding sensitive high utility itemset;
the algorithm for hiding sensitive high utility and frequent itemsets; propose a model
and algorithm for hiding sensitive high average-utility itemsets; and propose a model
and algorithm for hiding sensitive high utility association rules. Second, propose a
constrained intersection lattice of the high utility and frequent itemsets for proposing
the sensitive high utility and frequent itemset hiding algorithm.
Keywords: High utility mining, privacy-preserving utility mining, intersection
lattice.
xii
MỞ ĐẦU
Ngày nay, với sự phát triển nhanh chóng của ứng dụng công nghệ thông tin trong
hầu hết các lĩnh vực, lượng dữ liệu từ các hệ thống thông tin, ứng dụng ngày càng gia
tăng và được lưu trữ thành các kho dữ liệu lớn. Các phương pháp khai thác dữ liệu
truyền thống không còn đáp ứng đầy đủ những yêu cầu về phân tích, đánh giá, dự
đoán, dự báo dựa trên dữ liệu. Do đó, kỹ thuật phát hiện tri thức trong cơ sở dữ liệu
(CSDL) đã ra đời nhằm giải quyết bài toán khai phá dữ liệu đang được áp dụng một
cách rộng rãi trong nhiều lĩnh vực khác nhau của đời sống. Mục đích của khai phá dữ
liệu (KPDL) là khám phá tri thức nhằm tìm ra những mẫu mới, những thông tin tiềm
ẩn mang tính dự đoán chưa được biết đến, có khả năng mang lại lợi ích cho người sử
dụng, trong đó quan trọng nhất là tìm ra các mẫu chứa đựng những thông tin có thể
hỗ trợ ra quyết định tồn tại trong CSDL. Có nhiều kỹ thuật đã được nghiên cứu và
đề xuất trong KPDL. Một trong những kỹ thuật quan trọng được ứng dụng rộng rãi
là khai phá tập mục thường xuyên và luật kết hợp. Đây là một kỹ thuật quan trọng
nhằm phát hiện mối quan hệ giữa các mục dữ liệu trong CSDL. Việc xác định các
quan hệ này không phân biệt vai trò khác nhau cũng như không dựa vào các đặc tính
dữ liệu vốn có của các mục dữ liệu, mà chỉ dựa vào sự xuất hiện cùng lúc của chúng.
Trong khai phá tập mục thường xuyên vai trò của các mục xuất hiện trong các
giao tác là như nhau. Mỗi mục không thể xuất hiện nhiều hơn một lần trong mỗi giao
tác. Tập mục xuất hiện phổ biến hơn trong CSDL sẽ có ý nghĩa hơn đối với người
dùng. Như vậy, các tập mục thường xuyên khai thác được chỉ mang ngữ nghĩa thống
kê nên nó chỉ đáp ứng một phần nhu cầu ứng dụng thực tiễn. Chẳng hạn như nhà
kinh doanh quan tâm đến tần suất xuất hiện đồng thời của các mặt hàng trong cùng
một giao dịch của khách hàng thì có thể sử dụng kỹ thuật khai thác tập mục thường
xuyên để dự đoán xu thế mua sắm của khách hàng. Tuy nhiên, nhà quản lý có thể cần
đến những thông tin chi tiết hơn như lợi ích mang lại của một hoặc một nhóm mặt
hàng được khách hàng mua sắm cùng nhau trong một giao dịch. Khai phá tập mục
thường xuyên không đáp ứng được điều này. Chính vì điều này mà một khái niệm mới
ra đời, đó là Khai phá hữu ích cao, tức là có xét đến yếu tố hữu ích của mỗi mục trong
CSDL (ví dụ: số lượng, lợi nhuận của mỗi mặt hàng trong mỗi giao tác của CSDL).
Ngày nay, sự phát triển nhanh chóng của Công nghệ thông tin đang tạo môi trường
thuận lợi để thúc đẩy hợp tác thương mại toàn cầu và kinh doanh xuyên quốc gia.
1
Trong môi trường kinh doanh quốc tế, việc chia sẻ dữ liệu giữa các đối tác hoặc công
bố ra bên ngoài internet là rất cần thiết để thúc đẩy sự phát triển. Tuy nhiên, bên
trong dữ liệu có thể ẩn chứa các thông tin riêng tư hoặc nhạy cảm (gọi chung là thông
tin nhạy cảm) mà chủ sở hữu không muốn tiết lộ ra bên ngoài, vì việc lộ những thông
tin nhạy cảm ra bên ngoài có thể khiến cho bên sở hữu dữ liệu đánh mất bí mật kinh
doanh hoặc lợi thế cạnh tranh,... Do đó, hiện nay có nhiều mô hình và kỹ thuật đang
được nghiên cứu để giải quyết vấn đề đặt ra, làm thế nào để cho phép thực hiện quá
trình KPDL trên các tập dữ liệu trong khi vẫn bảo vệ được các thô