Luận án Nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy cảm trong khai phá hữu ích cao

Cơ sơ lý thuyết của khai phá hữu ích cao Phát biểu: Cho tập hữu hạn gồm các mục I = {x1, x2, . . . , xm}, mỗi mục x ∈ I có một giá trị hữu ích ngoại, ký hiệu là p(x). Tập mục X = {x1, x2, . . . , xk}, với X ⊆ I, k là độ dài của tập mục X. CSDL giao tác D = {T1, T2, . . . , Tn} chứa n giao tác, mỗi giao tác Tc ⊆ I, 1 ≤ c ≤ n có một định danh gọi là Tid. Mỗi mục x trong giao tác Tc kết hợp với một trọng số gọi là hữu ích nội (số lượng), ký hiệu là q(x, Tc). Ví dụ 1.1. Cho I là tập hữu hạn gồm các mục {A, B, C, D, E, F, G, H}. Mỗi mục x ∈ I có một giá trị hữu ích ngoại p(x), cụ thể trong Bảng 1.2. CSDL giao tác D gồm 10 giao tác, cụ thể trong Bảng 1.1. CSDL này được sử dụng cho tất cả ví dụ trong toàn bộ nội dung của luận án này.

pdf127 trang | Chia sẻ: khanhvy204 | Ngày: 13/05/2023 | Lượt xem: 728 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy cảm trong khai phá hữu ích cao, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI BÁCH KHOA HUỲNH TRIỆU VỸ NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG, 02/2023 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI BÁCH KHOA HUỲNH TRIỆU VỸ NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: 1. TS. TRƯƠNG NGỌC CHÂU 2. TS. LÊ QUỐC HẢI ĐÀ NẴNG, 02/2023 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn của TS. Trương Ngọc Châu và TS. Lê Quốc Hải. Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ luận án nào khác. Một số nhiệm vụ nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng. Mọi trích dẫn đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ. Tác giả NCS. Huỳnh Triệu Vỹ i LỜI CẢM ƠN Trước tiên, tôi xin gởi lời tri ân đến thầy TS. Trương Ngọc Châu và thầy TS. Lê Quốc Hải là người trực tiếp hướng dẫn và đồng hành cùng tôi từ khi bắt đầu nghiên cứu cho đến khi hoàn thành luận án. Xin được bày tỏ lòng biết ơn đối với Quý thầy PGS-TS. Nguyễn Tấn Khôi, PGS-TS. Nguyễn Thanh Bình, PGS-TS. Võ Trung Hùng, TS. Huỳnh Hữu Hưng là những thầy đã trực tiếp giảng dạy tôi trong các chuyên đề nghiên cứu của nghiên cứu sinh. Tôi xin trân trọng cảm ơn Ban Sau Đại học - Đại học Đà Nẵng, Phòng Đào tạo - Trường Đại học Bách khoa đã tạo mọi điều kiện thuận lợi cho tôi trong thời gian học tập, nghiên cứu và thực hiện luận án. Tôi xin gởi lời cảm ơn chân thành đến Ban Lãnh đạo và tập thể giảng viên Khoa Công nghệ Thông tin - Trường Đại học Bách khoa đã tạo môi trường học thuật thân thiện và tích cực cho các nghiên cứu sinh. Xin cảm ơn các đồng tác giả đã đồng ý cho tôi sử dụng các kết quả nghiên cứu chung cho luận án. Cuối cùng, tôi xin được gởi lời cảm ơn sâu sắc nhất đến gia đình và bạn bè, những người đã luôn dành cho tôi tình yêu và niềm tin, để tôi có thể vững tâm trên hành trình nhiều thách thức này. NCS. Huỳnh Triệu Vỹ ii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ TIẾNG ANH AC Artificial Cost Mẫu xuất hiện giả mạo DUS Database Utility Similarity Sự tương đồng của giá trị hữu ích giữa CSDL gốc và CSDL sửa đổi DSS Database Structure Similarity Sự tương đồng cấu trúc giữa CSDL gốc và CSDL sửa đổi EHSHUI Efficient algorithm for Hiding Sensitive High Utility Itemsets Thuật toán ẩn các tập mục hữu ích cao nhạy cảm hiệu quả EHSHA- UI Efficient algorithm for Hiding Sensitive High Average-Utility Itemsets Thuật toán ẩn các tập mục hữu ích trung bình cao nhạy cảm hiệu quả GA- based Genetic Algorithm-based Thuật toán dựa trên giải thuật di truyền HAUIM High Average-Utility Itemset Mining Khai phá tập mục hữu ích trung bình cao HAUIs High Average-Utility Itemset Tập các tập mục hữu ích trung bình cao HSUFIBL Hiding Sensitive Utility and Frequent Based on Lattice Ẩn tập mục hữu ích cao và phổ biến nhạy cảm dựa trên giàn HUM High Utility Mining Khai phá hữu ích cao HUIM High Utility Itemset Mining Khai phá tập mục hữu ích cao HUIs High Utility Itemsets Tập các tập mục hữu ích cao HURIM High Utility Rare Itemset Min- ing Khai phá tập mục hữu ích cao hiếm HUFIM High Utility and Frequent Itemset Mining Khai phá tập mục hữu ích cao và phổ biến HUFIs High Utility and Frequent Itemsets Tập các tập mục hữu ích cao và phổ biến HF Hiding Failure Mẫu nhạy cảm không ẩn được IUS Itemsets Utility Similarity Sự tương đồng của hữu ích tập mục giữa CSDL gốc và CSDL sửa đổi iii MC Miss Cost Mẫu bị mất PPDM Privacy Preserving Data Min- ing Bảo vệ tính riêng tư trong khai phá dữ liệu PPUM Privacy Preserving Utility Mining Bảo vệ tính riêng tư trong khai phá hữu ích cao SHUIs Sensitive High Utility Itemsets Tập các tập mục hữu ích cao nhạy cảm SHAUIs Sensitive High Average Utility Itemsets Tập các tập mục hữu ích trung bình cao nhạy cảm SHUFIs Sensitive High Utility and Fre- quent Itemsets Tập các tập mục hữu ích cao và phổ biến nhạy cảm TWU Transaction-Weighted- Utilization Trọng số hữu ích giao tác UP- Growth Utility Pattern Growth Mẫu hữu ích cao tăng trưởng UP-Tree Utility Pattern Tree Cây mẫu hữu ích cao iv DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ TIẾNG VIỆT ATMTU Ẩn tập mục hữu ích cao và phổ biến nhạy cảm tối ưu CSDL Cơ sở dữ liệu KPDL Khai phá dữ liệu v MỤC LỤC Lời cam đoan i Lời cảm ơn ii Danh mục các từ viết tắt và thuật ngữ tiếng Anh iii Danh mục các từ viết tắt và thuật ngữ tiếng Việt v Mục lục vi Danh mục bảng, biểu ix Danh mục hình vẽ x TÓM TẮT LUẬN ÁN xii MỞ ĐẦU 1 1 TỔNG QUAN VỀ KHAI PHÁ HỮU ÍCH CAO VÀ CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU GIAO TÁC 7 1.1 Tổng quan về khai phá hữu ích cao từ CSDL giao tác . . . . . . . . . . 7 1.1.1 Cơ sơ lý thuyết của khai phá hữu ích cao . . . . . . . . . . . . . 7 1.1.2 Tổng quan tình hình nghiên cứu về khai phá hữu ích cao . . . . 12 1.2 Che giấu thông tin nhạy cảm trong khai phá hữu ích cao . . . . . . . . 16 1.2.1 Một số kỹ thuật che giấu mẫu nhạy cảm trong khai phá dữ liệu 17 1.2.2 Tổng quan về che giấu thông tin nhạy cảm trong khai phá hữu ích cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.3 Các đơn vị đo lường trong đánh giá hiệu ứng phụ của thuật toán che giấu thông tin nhạy cảm trong khai phá hữu ích cao . . . . 20 1.3 Ứng dụng lý thuyết giàn trong khai phá dữ liệu . . . . . . . . . . . . . 22 1.4 Mô tả các CSDL giao tác được sử dụng để chạy thực nghiệm của các thuật toán trong luận án . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Tổng kết Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2 CHE GIẤU THÔNG TIN NHẠY CẢM TRONGKHAI PHÁ HỮU ÍCH CAO DỰA TRÊN KỸ THUẬT HEURISTIC 25 2.1 Quy trình che giấu thông tin nhạy cảm trong khai phá hữu ích cao từ CSDL giao tác dựa trên kỹ thuật heuristic . . . . . . . . . . . . . . . . 26 2.2 Tình hình nghiên cứu về che giấu thông tin nhạy cảm trong khai phá hữu ích cao từ CSDL giao tác dựa trên kỹ thuật heuristic . . . . . . . . 27 2.2.1 Ẩn tập mục hữu ích cao nhạy cảm . . . . . . . . . . . . . . . . 27 vi 2.2.2 Ẩn tập mục hữu ích cao và phổ biến nhạy cảm . . . . . . . . . . 29 2.2.3 Ẩn tập mục hữu ích trung bình cao nhạy cảm . . . . . . . . . . 30 2.2.4 Ẩn luật kết hợp hữu ích cao nhạy cảm . . . . . . . . . . . . . . 30 2.3 Thuật toán ẩn tập mục hữu ích cao nhạy cảm đề xuất . . . . . . . . . 30 2.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 31 2.3.3 Thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 38 2.3.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 39 2.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 45 2.4 Thuật toán ẩn tập mục hữu ích cao và phổ biến nhạy cảm đề xuất . . . 46 2.4.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.4.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 47 2.4.3 Thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.4.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 54 2.4.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 56 2.4.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 56 2.4.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 59 2.5 Thuật toán ẩn tập mục hữu ích trung bình cao nhạy cảm đề xuất . . . 60 2.5.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.5.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 60 2.5.3 Thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.5.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 64 2.5.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 66 2.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 66 2.5.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 68 2.6 Thuật toán ẩn luật kết hợp hữu ích cao nhạy cảm đề xuất . . . . . . . 70 2.6.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.6.2 Cơ sở lý thuyết của thuật toán đề xuất . . . . . . . . . . . . . . 71 2.6.3 Thuật toán ẩn luật kết hợp hữu ích cao nhạy cảm đề xuất . . . 72 2.6.4 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 73 2.6.5 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 75 2.6.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 76 2.6.7 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 76 Tổng kết Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3 CHE GIẤU THÔNG TIN NHẠY CẢM TRONGKHAI PHÁ HỮU ÍCH CAO DỰA TRÊN LÝ THUYẾT GIÀN 78 3.1 Lý thuyết giàn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.1.1 Quan hệ hai ngôi [14] . . . . . . . . . . . . . . . . . . . . . . . . 79 vii 3.1.2 Giàn sắp thứ tự (Lattice as orders) [14] . . . . . . . . . . . . . . 81 3.1.3 Giàn đại số (Lacttice as algebras) [14] . . . . . . . . . . . . . . . 82 3.1.4 Giàn của tập hợp [14] . . . . . . . . . . . . . . . . . . . . . . . 84 3.1.5 Giàn giao của tập phổ biến [37] . . . . . . . . . . . . . . . . . . 85 3.2 Che giấu thông tin nhạy cảm trong khai phá hữu ích cao dựa trên lý thuyết Giàn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.2.1 Giàn giao của tập các tập mục hữu ích cao và phổ biến . . . . . 86 3.2.2 Thuật toán ẩn tập mục hữu ích cao và phổ biến nhạy cảm dựa trên Giàn giao đề xuất . . . . . . . . . . . . . . . . . . . . . . . 88 3.2.3 Ví dụ minh họa thuật toán . . . . . . . . . . . . . . . . . . . . . 90 3.2.4 Độ phức tạp tính toán của thuật toán . . . . . . . . . . . . . . 93 3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 93 3.2.6 Nhận xét thuật toán đề xuất . . . . . . . . . . . . . . . . . . . . 96 Tổng kết Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 105 DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ 107 Tài liệu tham khảo 109 viii DANH MỤC BẢNG, BIỂU 1.1 CSDL Giao tác D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Hữu ích ngoại của CSDL D. . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Mô tả CSDL thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1 Tập HUIs khai thác từ CSDL D với ε = 40 . . . . . . . . . . . . . . . . 39 2.2 Mô tả CSDL chạy thực nghiệm của thuật toán EHSHUI . . . . . . . . 41 2.3 Tập HUFIs khai thác từ CSDL D với ε = 30 và δ = 30% . . . . . . . . 54 2.4 Mô tả tập các tập mục SHUFIs . . . . . . . . . . . . . . . . . . . . . . 57 2.5 Tập HAUIs khai thác từ CSDL D với β = 18 . . . . . . . . . . . . . . . 66 2.6 Mô tả tập HAUIs được khai thác bởi thuật toán HAUIMiner [25] . . . 67 2.7 Mô tả tập SHAUIs chạy thực nghiệm thuật toán EHSHA-UI . . . . . . 67 2.8 Tập HRs khai thác từ CSDL D với ε = 40 và µ = 70% . . . . . . . . . 74 2.9 Mô tả kết quả ẩn luật kết hợp hữu ích cao nhạy cảm . . . . . . . . . . 76 3.1 Các thông số của tập SHUFIs . . . . . . . . . . . . . . . . . . . . . . . 94 ix DANH MỤC HÌNH VẼ 1.1 Sơ đồ che giấu mẫu nhạy cảm trong khai phá hữu ích cao . . . . . . . . 19 1.2 Mối quan hệ của ba loại hiệu ứng phụ khi thực hiện sửa đổi CSDL . . . 21 2.1 Sơ đồ biểu diễn quá trình ẩn tập mục hữu ích cao nhạy cảm . . . . . . 32 2.2 Tỷ lệ MC giữa các thuật toán khi thực nghiệm trên các CSDL với các tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.3 Thời gian thực thi của các thuật toán khi thực nghiệm trên các CSDL với các tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . 43 2.4 Tỷ lệ DSS giữa các thuật toán khi thực nghiệm trên các CSDL với các tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.5 Tỷ lệ DUS giữa các thuật toán khi thực nghiệm trên các CSDL với các tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.6 Tỷ lệ IUS giữa các thuật toán khi thực nghiệm trên các CSDL với các tập nhạy cảm khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.7 Sơ đồ biểu diễn quá trình ẩn các tập mục SHUFIs . . . . . . . . . . . . 47 2.8 So sánh tỷ lệ MC giữa thuật toán HUFI và ATMTU . . . . . . . . . . 57 2.9 So sánh thời gian thực thi giữa thuật toán HUFI và ATMTU . . . . . . 58 2.10 So sánh tỷ lệ DSS giữa thuật toán HUFI và ATMTU . . . . . . . . . . 59 2.11 So sánh tỷ lệ DUS giữa thuật toán HUFI và ATMTU . . . . . . . . . . 59 2.12 Tỷ lệ IUS khi thực hiện ẩn các tập SHUFIs bởi thuật toán HUFI và ATMTU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.13 So sánh tỷ lệ MC giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . 69 2.14 So sánh thời gian thực thi giữa thuật toán HHAUSI và EHSHA-UI . . 69 2.15 So sánh tỷ lệ DSS giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . 70 2.16 So sánh tỷ lệ DUS giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . 70 2.17 Tỷ lệ IUS giữa thuật toán HHAUSI và EHSHA-UI . . . . . . . . . . . . 70 3.1 Giàn của tập hợp P = {a, b, c} . . . . . . . . . . . . . . . . . . . . . . . 84 3.2 Giàn L∩H của HUFIs trong Bảng 2.3 (bên trong mỗi nút là độ hỗ trợ(%)/giá trị hữu ích của nút tương ứng) . . . . . . . . . . . . . . . . 87 3.3 Tỷ lệ MC theo kích thước của tập nhạy cảm . . . . . . . . . . . . . . . 97 3.4 Tỷ lệ MC theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 97 3.5 Tỷ lệ MC theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 98 x 3.6 Tỷ lệ DSS theo kích thước của tập nhạy cảm . . . . . . . . . . . . . . . 98 3.7 Tỷ lệ DSS theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 99 3.8 Tỷ lệ DSS theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 99 3.9 Tỷ lệ DUS theo kích thước của tập nhạy cảm . . . . . . . . . . . . . . 100 3.10 Tỷ lệ DUS theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 100 3.11 Tỷ lệ DUS theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 101 3.12 Tỷ lệ IUS kích thước của tập nhạy cảm . . . . . . . . . . . . . . . . . . 101 3.13 Tỷ lệ IUS theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . . . . . . 102 3.14 Tỷ lệ IUS theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . . . . . 102 3.15 Thời gian thực thi theo kích thước của tập nhạy cảm . . . . . . . . . . 103 3.16 Thời gian thực thi theo ngưỡng hỗ trợ . . . . . . . . . . . . . . . . . . 103 3.17 Thời gian thực thi theo ngưỡng hữu ích . . . . . . . . . . . . . . . . . . 104 xi TÓM TẮT LUẬN ÁN Tên đề tài: Nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy cảm trong khai phá hữu ích cao. Chuyên ngành: Khoa học máy tính. Mã số: 94.80.101 Tóm tắt: Luận án đã nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy cảm trong khai phá hữu ích cao, kết quả đạt được gồm: Thứ nhất, dựa trên kỹ thuật heuristic: Đề xuất thuật toán ẩn tập mục hữu ích cao nhạy cảm; thuật toán ẩn tập mục hữu và phổ biến nhạy cảm; đề xuất mô hình và thuật toán ẩn tập mục hữu ích trung bình cao nhạy cảm; mô hình và thuật toán ẩn luật kết hợp hữu ích cao nhạy cảm. Thứ hai, đề xuất Giàn giao có ràng buộc của tập các tập mục hữu ích cao và phổ biến để làm cơ sở xây dựng mô hình và đề xuất thuật toán ẩn tập mục hữu ích cao và phổ biến nhạy cảm. Từ khóa: Khai phá hữu ích cao, che giấu thông tin riêng tư trong khai phá hữu ích cao, giàn giao. ABSTRACT Thesis title: Research and develop a number of techniques to hide sensitive information in high utility mining. Major: Computer science. Code: 94.80.101 Abstract: The thesis has researched and developed a number of techniques to hide sensitive information in high utility mining. Namely, include: First, based on the heuristic technique propose the algorithm for hiding sensitive high utility itemset; the algorithm for hiding sensitive high utility and frequent itemsets; propose a model and algorithm for hiding sensitive high average-utility itemsets; and propose a model and algorithm for hiding sensitive high utility association rules. Second, propose a constrained intersection lattice of the high utility and frequent itemsets for proposing the sensitive high utility and frequent itemset hiding algorithm. Keywords: High utility mining, privacy-preserving utility mining, intersection lattice. xii MỞ ĐẦU Ngày nay, với sự phát triển nhanh chóng của ứng dụng công nghệ thông tin trong hầu hết các lĩnh vực, lượng dữ liệu từ các hệ thống thông tin, ứng dụng ngày càng gia tăng và được lưu trữ thành các kho dữ liệu lớn. Các phương pháp khai thác dữ liệu truyền thống không còn đáp ứng đầy đủ những yêu cầu về phân tích, đánh giá, dự đoán, dự báo dựa trên dữ liệu. Do đó, kỹ thuật phát hiện tri thức trong cơ sở dữ liệu (CSDL) đã ra đời nhằm giải quyết bài toán khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực khác nhau của đời sống. Mục đích của khai phá dữ liệu (KPDL) là khám phá tri thức nhằm tìm ra những mẫu mới, những thông tin tiềm ẩn mang tính dự đoán chưa được biết đến, có khả năng mang lại lợi ích cho người sử dụng, trong đó quan trọng nhất là tìm ra các mẫu chứa đựng những thông tin có thể hỗ trợ ra quyết định tồn tại trong CSDL. Có nhiều kỹ thuật đã được nghiên cứu và đề xuất trong KPDL. Một trong những kỹ thuật quan trọng được ứng dụng rộng rãi là khai phá tập mục thường xuyên và luật kết hợp. Đây là một kỹ thuật quan trọng nhằm phát hiện mối quan hệ giữa các mục dữ liệu trong CSDL. Việc xác định các quan hệ này không phân biệt vai trò khác nhau cũng như không dựa vào các đặc tính dữ liệu vốn có của các mục dữ liệu, mà chỉ dựa vào sự xuất hiện cùng lúc của chúng. Trong khai phá tập mục thường xuyên vai trò của các mục xuất hiện trong các giao tác là như nhau. Mỗi mục không thể xuất hiện nhiều hơn một lần trong mỗi giao tác. Tập mục xuất hiện phổ biến hơn trong CSDL sẽ có ý nghĩa hơn đối với người dùng. Như vậy, các tập mục thường xuyên khai thác được chỉ mang ngữ nghĩa thống kê nên nó chỉ đáp ứng một phần nhu cầu ứng dụng thực tiễn. Chẳng hạn như nhà kinh doanh quan tâm đến tần suất xuất hiện đồng thời của các mặt hàng trong cùng một giao dịch của khách hàng thì có thể sử dụng kỹ thuật khai thác tập mục thường xuyên để dự đoán xu thế mua sắm của khách hàng. Tuy nhiên, nhà quản lý có thể cần đến những thông tin chi tiết hơn như lợi ích mang lại của một hoặc một nhóm mặt hàng được khách hàng mua sắm cùng nhau trong một giao dịch. Khai phá tập mục thường xuyên không đáp ứng được điều này. Chính vì điều này mà một khái niệm mới ra đời, đó là Khai phá hữu ích cao, tức là có xét đến yếu tố hữu ích của mỗi mục trong CSDL (ví dụ: số lượng, lợi nhuận của mỗi mặt hàng trong mỗi giao tác của CSDL). Ngày nay, sự phát triển nhanh chóng của Công nghệ thông tin đang tạo môi trường thuận lợi để thúc đẩy hợp tác thương mại toàn cầu và kinh doanh xuyên quốc gia. 1 Trong môi trường kinh doanh quốc tế, việc chia sẻ dữ liệu giữa các đối tác hoặc công bố ra bên ngoài internet là rất cần thiết để thúc đẩy sự phát triển. Tuy nhiên, bên trong dữ liệu có thể ẩn chứa các thông tin riêng tư hoặc nhạy cảm (gọi chung là thông tin nhạy cảm) mà chủ sở hữu không muốn tiết lộ ra bên ngoài, vì việc lộ những thông tin nhạy cảm ra bên ngoài có thể khiến cho bên sở hữu dữ liệu đánh mất bí mật kinh doanh hoặc lợi thế cạnh tranh,... Do đó, hiện nay có nhiều mô hình và kỹ thuật đang được nghiên cứu để giải quyết vấn đề đặt ra, làm thế nào để cho phép thực hiện quá trình KPDL trên các tập dữ liệu trong khi vẫn bảo vệ được các thô

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_va_phat_trien_mot_so_ky_thuat_che_giau_th.pdf
  • pdf0. Phụ lục Bìa luận án.pdf
  • pdf2. Tóm tắt tiếng Việt.pdf
  • pdf3. Tóm tắt tiếng Anh.pdf
  • pdf4. Thông tin đóng góp mới tiếng Việt.pdf
  • pdf5. Thông tin đóng góp mới tiếng Anh.pdf
  • pdf6. Trích yếu luân án tiếng Việt.pdf
  • pdf7. Trích yếu luận án tiếng Anh.pdf
  • pdf1064 QD TL Hoi dong cham luan an tien si cap co so Huynh Trieu Vy khoa 30.PDF