Luận án Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển

Tính cấp thiết của luận án Phân cụm dữ liệu là quá trình phân chia các điểm dữ liệu thành các cụm khác nhau, đảm bảo rằng các phần tử trong một cụm có nhiều điểm tương đồng hơn các phần tử trong các cụm khác [105]. Phân cụm dữ liệu được phân thành hai nhóm: phân cụm rõ và phân cụm mờ. Trong phân cụm rõ, một điểm dữ liệu thuộc về duy nhất một cụm. Trong phân cụm mờ, một điểm dữ liệu có thể thuộc nhiều hơn một cụm kèm theo thông tin về độ thuộc của điểm dữ liệu vào các cụm. Khi phân cụm mờ sử dụng một số thông tin bổ trợ thì được gọi là phân cụm bán giám sát mờ [13]. Một trong những hướng nghiên cứu về phân cụm bán giám sát đang được quan tâm hiện nay đó là phân cụm bán giám sát mờ an toàn (hay còn gọi là phân cụm dữ liệu với độ tin cậy). Vấn đề phân cụm dữ liệu với độ tin cậy được minh họa như trong Hình 1, giả sử bộ dữ liệu bao gồm 2 cụm và có một số dữ liệu đã được gán nhãn (hình vuông thể hiện dữ liệu đã được gán nhãn thuộc Cụm 1 và hình tam giác thể hiện dữ liệu đã được gán nhãn thuộc Cụm 2), hình tròn thể hiện các điểm dữ liệu chưa được gán nhãn. Đường nét đứt ngầm hiển thị ranh giới giữa hai cụm. Một số dữ liệu được gán nhãn không chính xác được biểu diễn bằng dấu thập phía trên các ký hiệu của dữ liệu được gán nhãn. Mục tiêu của bài toán này là tìm ra đường ranh giới “tốt nhất” giữa hai cụm với các dữ liệu được gán nhãn chính xác và không chính xác. Vấn đề phân cụm dữ liệu với độ tin cậy đã được nhận được sự quan tâm từ nhiều nhà nghiên cứu nghiên cứu, điển hình từ Gan và cộng sự [36, 37, 38]. Ý tưởng chính của cách tiếp cận này gồm hai bước: i) Tính toán trọng số tin cậy của dữ liệu được gán nhãn bằng một đồ thị cục bộ; ii) Xây dựng, xác định các tâm cụm và các giá trị phần tử mờ theo dữ liệu được gán nhãn có trọng số tin cậy cao.

pdf147 trang | Chia sẻ: khanhvy204 | Ngày: 13/05/2023 | Lượt xem: 634 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thế Huân NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT MỜ AN TOÀN ỨNG DỤNG CHO BÀI TOÁN QUẢN LÝ CẢNG BIỂN LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2023 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thế Huân NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT MỜ AN TOÀN ỨNG DỤNG CHO BÀI TOÁN QUẢN LÝ CẢNG BIỂN Chuyên ngành: Khoa học máy tính Mã số: 9. 48. 01. 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Vũ Đức Thái 2. PGS.TS. Lê Hoàng Sơn THÁI NGUYÊN, 2023 Lời cam đoan Tôi xin cam đoan luận án “Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển” là công trình nghiên cứu của cá nhân tôi, được hoàn thành dưới sự hướng dẫn của TS. Vũ Đức Thái và PGS.TS. Lê Hoàng Sơn. Các kết quả nghiên cứu của tôi cùng với các tác giả khác đã được sự nhất trí của các đồng tác giả khi đưa vào nội dung luận án. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế. Tôi xin cam đoan các số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác. Tác giả: NCS. Phùng Thế Huân i Lời cảm ơn Lời đầu tiên, cho phép tác giả xin được bày tỏ sự biết ơn chân thành và sâu sắc nhất đến tập thể giáo viên hướng dẫn TS. Vũ Đức Thái và PGS.TS. Lê Hoàng Sơn. Các Thầy đã chỉ bảo ân cần và định hướng cho tác giả trong suốt thời gian thực hiện luận án. Các Thầy không những hướng dẫn kiến thức về chuyên môn, học thuật mà còn chỉ bảo cho tác giả những kinh nghiệm trong cuộc sống thường ngày. Một vinh dự rất lớn cho tác giả đã có cơ hội được học tập, nghiên cứu dưới sự hướng dẫn và chỉ bảo tận tâm của các Thầy. Xin trân trọng cảm ơn Ban Giám hiệu, Ban chủ nhiệm Khoa Công nghệ thông tin, Phòng Đào tạo trường Đại học Công nghệ Thông tin và Truyền thông - ĐHTN đã luôn tạo mọi điều kiện thuận lợi nhất cho tác giả trong suốt quá trình thực hiện luận án. Xin bày tỏ sự biết ơn sâu sắc đến các Thầy, Cô trong Lab ITI - Viện Công nghệ Thông tin - ĐHQGHN và các Thầy, Cô trong Khoa Công nghệ Thông tin - Trường Đại học Công nghệ Thông tin và Truyền thông - ĐHTN đã luôn quan tâm giúp đỡ và tạo điều kiện về nhiều mặt, chỉ bảo tận tình trong quá trình tác giả thực hiện luận án. Xin bày tỏ lòng biết ơn vô hạn đối với cha mẹ, anh chị em và gia đình đã luôn ủng hộ và yêu thương một cách vô điều kiện. Xin chân thành cảm ơn các anh chị em và bạn bè đã luôn cổ vũ động viên tác giả trong quá trình thực hiện luận án. Cuối cùng, xin kính chúc các Thầy, Cô và đồng nghiệp, anh chị em bạn bè luôn mạnh khoẻ, đạt được nhiều thành tựu trong công tác, học tập và nghiên cứu khoa học! Tác giả:NCS. Phùng Thế Huân ii Mục lục Lời cam đoan i Lời cảm ơn ii Danh sách thuật ngữ và từ viết tắt vi Mở đầu 1 Chương 1 Tổng quan về phân cụm bán giám sát mờ và ứng dụng trong bài toán quản lý cảng biển 8 1.1 Tổng quan về phân cụm bán giám sát mờ . . . . . . . . . . . 9 1.1.1 Tập mờ và mở rộng . . . . . . . . . . . . . . . . . . . 9 1.1.2 Phân cụm mờ . . . . . . . . . . . . . . . . . . . . . . 10 1.1.3 Phân cụm bán giám sát mờ . . . . . . . . . . . . . . . 13 1.2 Một số tiếp cận trong phân cụm bán giám sát mờ gần đây . . 15 1.2.1 Phân cụm bán giám sát mờ an toàn . . . . . . . . . . 15 1.2.2 Phân cụm bán giám sát mờ trên tập mờ nâng cao . . . 19 1.2.3 Phân cụm bán giám sát mờ với nhiều tham số mờ . . . 20 1.2.4 Nhận xét về các nghiên cứu liên quan . . . . . . . . . 22 1.3 Ứng dụng phân cụm bán giám sát mờ trong bài toán quản lý cảng biển . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.1 Giới thiệu bài toán quản lý cảng biển . . . . . . . . . . 24 1.3.2 Tổng quan các phương pháp phát hiện tàu biển trong ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.3.3 Nhận xét chung . . . . . . . . . . . . . . . . . . . . . 34 1.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 35 1.5 Đánh giá hiệu năng thuật toán phân cụm . . . . . . . . . . . 37 iii 1.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 39 Chương 2 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn 40 2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . . . . . 41 2.3 Chi tiết thuật toán TS3FCM . . . . . . . . . . . . . . . . . . 42 2.3.1 Bước 1. Phân cụm mờ cho dữ liệu đã được gán nhãn . 42 2.3.2 Bước 2. Chuyển đổi dữ liệu . . . . . . . . . . . . . . . 45 2.3.3 Bước 3. Phân cụm bán giám sát mờ cho toàn bộ dữ liệu 45 2.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . . . . 46 2.5 Ví dụ minh hoạ . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.5.1 Thiết lập giá trị độ thuộc thấp cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . . . 50 2.5.2 Thiết lập giá trị độ thuộc bằng không cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . 51 2.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 53 2.6.1 Thiết lập giá trị độ thuộc thấp cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . . . 54 2.6.2 Thiết lập giá trị độ thuộc bằng không cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . 59 2.7 Ứng dụng phát hiện tàu biển trong ảnh vệ tinh . . . . . . . . 66 2.7.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . 66 2.7.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 67 2.8 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 70 Chương 3 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn trên tập mờ viễn cảnh 71 3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . . . . . 73 3.3 Chi tiết thuật toán PTS3FCM . . . . . . . . . . . . . . . . . 74 3.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . . . . 79 3.5 Ví dụ minh hoạ . . . . . . . . . . . . . . . . . . . . . . . . . 79 iv 3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 84 3.6.1 Đánh giá theo độ chính xác phân cụm . . . . . . . . . 84 3.6.2 Đánh giá theo chất lượng cụm . . . . . . . . . . . . . 90 3.6.3 Đánh giá theo thời gian chạy thuật toán . . . . . . . . 91 3.7 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 93 Chương 4 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn với nhiều tham số mờ 94 4.1 Phương pháp phân cụm bán giám sát mờ với nhiều tham số mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.1.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . 95 4.1.3 Chi tiết thuật toán MCSSFC-P . . . . . . . . . . . . . 95 4.1.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . 98 4.1.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 98 4.2 Phương pháp phân cụm bán giám sát mờ an toàn với nhiều tham số mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . 101 4.2.3 Chi tiết thuật toán TS3MFCM . . . . . . . . . . . . . 102 4.2.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . 104 4.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 105 4.3 Ứng dụng phát hiện tàu biển trong ảnh vệ tinh . . . . . . . . 108 4.3.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . 108 4.3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 108 4.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 114 Kết luận 115 Danh sách các công trình tác giả đã công bố 117 Danh sách các công trình tác giả đã gửi đăng 119 Tài liệu tham khảo 120 v Danh sách thuật ngữ và từ viết tắt STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch 1 ASWC Alternative Silhouette Width Criterion index Chỉ số Silhouette thay thế 2 CA Clustering Accuracy Độ chính xác phân cụm 3 CNN Convolutional Neural Network Mạng nơ-ron tích chập 4 CS3FCM Confidence-weighted Safe Semi-Supervised Fuzzy Clustering Method Thuật toán phân cụm bán giám sát mờ an toàn có trọng số tin cậy 5 CT Computation Time Thời gian tính toán 6 DB Davies-Bouldin index Chỉ số chất lượng cụm Davies–Bouldin 7 FCM Fuzzy C-means Clustering Method Thuật toán phân cụm mờ 8 FCN Fully Convolutional Network Mạng tích chập toàn phần 9 FC-PFS Fuzzy Clustering on Picture Fuzzy Set Thuật toán phân cụm mờ viễn cảnh 10 FS Fuzzy Set Tập mờ 11 IFS Intuitionistics Fuzzy Set Tập mờ trực cảm Bảng tiếp tục ở trang sau vi Tiếp tục từ trang trước STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch 12 MC-FCM Multiple fuzzification Coefficients Fuzzy C–means Clustering Method Thuật toán phân cụm mờ với nhiều tham số mờ 13 MCSSFC-P Multiple fuzzification Coefficients Semi-Supervised Fuzzy Clustering algorithm with Point Thuật toán phân cụm bán giám sát mờ với nhiều tham số mờ điểm 14 NN Neural Network Mạng nơ-ron nhân tạo 15 ODDS Outlier Detection DataSets Bộ dữ liệu phát hiện nhiễu 16 PBM Pakhira, Bandyopadhyay and Maulik index Chỉ số Pakhira, Bandyopadhyay và Maulik 17 PFS Picture Fuzzy Set Tập mờ viễn cảnh 18 PTS3FCM Picture Trusted Safe Semi-Supervised Fuzzy Clustering Method Thuật toán phân cụm bán giám sát mờ viễn cảnh an toàn tin cậy 19 R-CNN Regional Convolutional Neural Network Mạng nơ-ron tích chập theo vùng 20 SAR Synthetic Aperture Radar Ra đa khẩu độ tổng hợp 21 SIDS Satellite Image DataSets of Ships Bộ dữ liệu ảnh vệ tinh tàu biển 22 SSFCM Semi-Supervised Fuzzy C-means Clustering Method Thuật toán phân cụm bán giám sát mờ 23 T2FS Type 2 Fuzzy Set Tập mờ loại 2 Bảng tiếp tục ở trang sau vii Tiếp tục từ trang trước STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch 24 TS3FCM Trusted Safe Semi-Supervised Fuzzy Clustering Method Thuật toán phân cụm bán giám sát mờ an toàn tin cậy 25 TS3MFCM Trusted Safe Semi-Supervised with Multiple fuzzifiers Fuzzy Clustering Method Thuật toán phân cụm bán giám sát mờ an toàn tin cậy với nhiều tham số mờ 26 UCI University of California, Irvine Machine Learning Repository Kho dữ liệu học máy UCI viii Danh sách bảng 1.1 Dữ liệu UCI dùng cho thực nghiệm . . . . . . . . . . . . . . 36 1.2 Dữ liệu ODDS dùng cho thực nghiệm . . . . . . . . . . . . . 36 2.1 Thời gian tính toán của TS3FCM và CS3FCM trong trường hợp 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.2 Độ chính xác phân cụm trên dữ liệu được gán nhãn trong trường hợp 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.3 Chất lượng phân cụm theo chỉ số DB trong trường hợp 1 . . 57 2.4 Chất lượng phân cụm theo chỉ số ASWC trong trường hợp 1 58 2.5 Chất lượng phân cụm theo chỉ số BPM trong trường hợp 1 . 60 2.6 Thời gian tính toán của TS3FCM và CS3FCM trong trường hợp 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.7 Độ chính xác phân cụm trên dữ liệu được gán nhãn trong trường hợp 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.8 Chất lượng phân cụm theo chỉ số DB trong trường hợp 2 . . 63 2.9 Chất lượng phân cụm theo chỉ số ASWC trong trường hợp 2 64 2.10 Chất lượng phân cụm theo chỉ số PBM trong trường hợp 2 . 65 2.11 Thông số dữ liệu ảnh thực nghiệm . . . . . . . . . . . . . . . 67 2.12 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 68 3.1 Độ chính xác phân cụm đối với tất cả các điểm dữ liệu trên các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . 84 3.2 Độ chính xác phân cụm đối với tất cả các điểm dữ liệu trên các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 86 3.3 Độ chính xác phân cụm đối với dữ liệu gán nhãn trên các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . . . 87 ix 3.4 Độ chính xác phân cụm đối với dữ liệu được gán nhãn trên các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 89 3.5 Chất lượng phân cụm theo chỉ số DB trên các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 90 3.6 Chất lượng phân cụm theo chỉ số DB trên các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.7 Thời gian tính toán trên các bộ dữ liệu không chứa nhiễu . . 92 3.8 Thời gian tính toán trên các bộ dữ liệu có chứa nhiễu . . . . 93 4.1 Kết quả thực nghiệm trên bộ dữ liệu UCI . . . . . . . . . . . 99 4.2 Bộ dữ liệu nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 105 4.3 Dữ liệu ảnh vệ tinh tàu biển . . . . . . . . . . . . . . . . . . 105 4.4 Giá trị của các chỉ số đánh giá trên tất cả dữ liệu có nhiễu . 107 4.5 Thông số dữ liệu ảnh thực nghiệm . . . . . . . . . . . . . . . 109 4.6 So sánh kết quả nhận dạng giữa 2 phương pháp TS3MFCM và CS3FCM . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 x Danh sách hình vẽ 1 Phân cụm dữ liệu với độ tin cậy . . . . . . . . . . . . . . . . 2 1.1 Sơ đồ cảng biển [49] . . . . . . . . . . . . . . . . . . . . . . 25 1.2 Phát hiện tàu biển từ ảnh vệ tinh [85] . . . . . . . . . . . . . 26 1.3 Các phương pháp phân đoạn ảnh . . . . . . . . . . . . . . . 28 1.4 Ảnh vệ tinh tàu biển ban đầu . . . . . . . . . . . . . . . . . 37 1.5 Ảnh vệ tinh tàu biển sau khi nhận dạng . . . . . . . . . . . . 37 2.1 Sơ đồ thuật toán đề xuất TS3FCM . . . . . . . . . . . . . . 42 2.2 Dữ liệu được gán nhãn ban đầu . . . . . . . . . . . . . . . . 47 2.3 Phân vùng dữ liệu được gán nhãn tại vòng lặp đầu tiên từ công thức (2.14) . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.4 Phân vùng dữ liệu được gán nhãn ở vòng lặp đầu tiên sau khi giảm các giá trị độ thuộc bị sai bởi công thức (2.15) . . . 49 2.5 Dữ liệu được gán nhãn sau phân vùng cuối cùng . . . . . . . 50 2.6 Kết quả phân cụm trong trường hợp 1 . . . . . . . . . . . . 52 2.7 Kết quả phân cụm trong trường hợp 2 . . . . . . . . . . . . 53 2.8 Biểu đồ độ chính xác phân cụm trong trường hợp 1 . . . . . 56 2.9 Biểu đồ độ chính xác phân cụm trong trường hợp 2 . . . . . 66 2.10 Kết quả phân cụm ảnh 1 . . . . . . . . . . . . . . . . . . . . 69 2.11 Kết quả phân cụm ảnh 2 . . . . . . . . . . . . . . . . . . . . 69 3.1 Sơ đồ thuật toán đề xuất PTS3FCM . . . . . . . . . . . . . 77 3.2 Sự phân bố của tất cả dữ liệu . . . . . . . . . . . . . . . . . 80 3.3 Dữ liệu được phân vùng với FC-PFS . . . . . . . . . . . . . 80 3.4 Phân vùng dữ liệu ở vòng lặp đầu tiên của TS3PFCM . . . . 81 3.5 Các cụm kết quả sau khi sau phân cụm . . . . . . . . . . . . 83 xi 3.6 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . 85 3.7 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . . . 86 3.8 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn với các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . 88 3.9 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn với các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 89 4.1 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn . . . . 100 4.2 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu . . . . . . 100 4.3 Sơ đồ thuật toán TS3MFCM . . . . . . . . . . . . . . . . . . 102 4.4 Kết quả phân cụm ảnh 1 . . . . . . . . . . . . . . . . . . . . 110 4.5 Kết quả phân cụm ảnh 2 . . . . . . . . . . . . . . . . . . . . 110 4.6 Kết quả phân cụm ảnh 3 . . . . . . . . . . . . . . . . . . . . 111 4.7 Kết quả phân cụm ảnh 4 . . . . . . . . . . . . . . . . . . . . 111 xii Danh sách thuật toán 1.1 Thuật toán phân cụm mờ (FCM) . . . . . . . . . . . . . . 12 1.2 Thuật toán phân cụm bán giám sát mờ (SSFCM) . . . . . . 14 1.3 Thuật toán phân cụm bán giám sát mờ an toàn có trọng số tin cậy (CS3FCM) . . . . . . . . . . . . . . . . . . . . . . . 18 1.4 Thuật toán phân cụm mờ viễn cảnh (FC-PFS) . . . . . . . 20 1.5 Thuật toán phân cụm mờ với nhiều tham số mờ (MC-FCM) 22 2.1 Thuật toán phân cụm mờ FCM cải tiến . . . . . . . . . . . 44 2.2 Thuật toán phân cụm bán giám sát mờ mới . . . . . . . . . 46 3.1 Thuật toán phân cụm bán giám sát mờ an toàn trên tập mờ viễn cảnh (PTS3FCM) . . . . . . . . . . . . . . . . . . . . 78 4.1 Thuật toán phân cụm bán giám sát mờ với nhiều tham số mờ (MCSSFC-P) . . . . . . . . . . . . . . . . . . . . . . . 97 xiii Mở đầu 1. Tính cấp thiết của luận án Phân cụm dữ liệu là quá trình phân chia các điểm dữ liệu thành các cụm khác nhau, đảm bảo rằng các phần tử trong một cụm có nhiều điểm tương đồng hơn các phần tử trong các cụm khác [105]. Phân cụm dữ liệu được phân thành hai nhóm: phân cụm rõ và phân cụm mờ. Trong phân cụm rõ, một điểm dữ liệu thuộc về duy nhất một cụm. Trong phân cụm mờ, một điểm dữ liệu có thể thuộc nhiều hơn một cụm kèm theo thông tin về độ thuộc của điểm dữ liệu vào các cụm. Khi phân cụm mờ sử dụng một số thông tin bổ trợ thì được gọi là phân cụm bán giám sát mờ [13]. Một trong những hướng nghiên cứu về phân cụm bán giám sát đang được quan tâm hiện nay đó là phân cụm bán giám sát mờ an toàn (hay còn gọi là phân cụm dữ liệu với độ tin cậy). Vấn đề phân cụm dữ liệu với độ tin cậy được minh họa như trong Hình 1, giả sử bộ dữ liệu bao gồm 2 cụm và có một số dữ liệu đã được gán nhãn (hình vuông thể hiện dữ liệu đã được gán nhãn thuộc Cụm 1 và hình tam giác thể hiện dữ liệu đã được gán nhãn thuộc Cụm 2), hình tròn thể hiện các điểm dữ liệu chưa được gán nhãn. Đường nét đứt ngầm hiển thị ranh giới giữa hai cụm. Một số dữ liệu được gán nhãn không chính xác được biểu diễn bằng dấu thập phía trên các ký hiệu của dữ liệu được gán nhãn. Mục tiêu của bài toán này là tìm ra đường ranh giới “tốt nhất” giữa hai cụm với các dữ liệu được gán nhãn chính xác và không chính xác. 1 Hình 1 Phân cụm dữ liệu với độ tin cậy Vấn đề phân cụm dữ liệu với độ tin cậy đã được nhận được sự quan tâm từ nhiều nhà nghiên cứu nghiên cứu, điển hình từ Gan và cộng sự [36, 37, 38]. Ý tưởng chính của cách tiếp cận này gồm hai bước: i) Tính toán trọng số tin cậy của dữ liệu được gán nhãn bằng một đồ thị cục bộ; ii) Xây dựng, xác định các tâm cụm và các giá trị phần tử mờ theo dữ liệu được gán nhãn có trọng số tin cậy cao. Các phương pháp của Gan và đồng nghiệp đạt hiệu suất tốt về độ chính xác phân cụm. Tuy nhiên, thường mất nhiều thời gian tính toán do việc tính toán với toàn bộ tập dữ liệu trong bước khởi tạo. Mặt khác, trong các phương pháp của Gan chưa đề cập đến vấn đề phân vùng dữ liệu đối với dữ liệu nhiễu. Ngoài ra các phương pháp này cũng chưa đề cập đến việc thay đổi giá trị của tham số mờ để nâng cao hiệu suất phân cụm. Do đó, nhằm nâng cao độ chính xác phân cụm và chất lượng cụm, đồng thời để giảm thời gian tính toán so với các phương pháp của Gan, trong phạm vi luận án này nghiên cứu một số vấn đề như sau: • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới cho phân vùng dữ liệu với độ tin cậy có hiệu suất phân cụm tốt và thời gian tính toán tốt. 2 • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới trên tập mờ viễn cảnh cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới với nhiều tham số mờ cho phân vùng dữ liệu với độ tin cậy xử lý thông tin nhiễu. Kỹ thuật phân cụm dữ liệu đã được áp dụng trong nhiều lĩnh vực, ví dụ như: phân loại tài liệu [29], phân đoạn ảnh X-quang nha khoa [52, 66], phân đoạn hình ảnh y tế [11, 12], v.v. Đặc biệt trong xử lý ảnh vệ tinh có nhiều lĩnh vực ứng dụng quan trọng trong quân sự cũng như trong đời sống xã hội như: phân loại phương tiện tham gia giao thông [23], hậu cần [57], phân loại ảnh vệ tinh để dự báo hạn hán, lũ lụt, cháy rừng [51], v.v. Trong bài toán quản lý cảng biển, có nhiều nghiên cứu đã đưa ra các phương pháp để giải quy

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_phat_trien_phuong_phap_phan_cum_ban_giam.pdf
  • pdfCV gửi Cục CNTT.pdf
  • pdfQĐ BV Cấp Trường.pdf
  • pdfTom_tat_LA_PTHuan (3).pdf
  • docxTrichYeu LATS.docx