Tính cấp thiết của luận án
Phân cụm dữ liệu là quá trình phân chia các điểm dữ liệu thành các
cụm khác nhau, đảm bảo rằng các phần tử trong một cụm có nhiều điểm
tương đồng hơn các phần tử trong các cụm khác [105]. Phân cụm dữ liệu
được phân thành hai nhóm: phân cụm rõ và phân cụm mờ. Trong phân
cụm rõ, một điểm dữ liệu thuộc về duy nhất một cụm. Trong phân cụm
mờ, một điểm dữ liệu có thể thuộc nhiều hơn một cụm kèm theo thông
tin về độ thuộc của điểm dữ liệu vào các cụm. Khi phân cụm mờ sử dụng
một số thông tin bổ trợ thì được gọi là phân cụm bán giám sát mờ [13].
Một trong những hướng nghiên cứu về phân cụm bán giám sát đang được
quan tâm hiện nay đó là phân cụm bán giám sát mờ an toàn (hay còn gọi
là phân cụm dữ liệu với độ tin cậy).
Vấn đề phân cụm dữ liệu với độ tin cậy được minh họa như trong Hình
1, giả sử bộ dữ liệu bao gồm 2 cụm và có một số dữ liệu đã được gán nhãn
(hình vuông thể hiện dữ liệu đã được gán nhãn thuộc Cụm 1 và hình tam
giác thể hiện dữ liệu đã được gán nhãn thuộc Cụm 2), hình tròn thể hiện
các điểm dữ liệu chưa được gán nhãn. Đường nét đứt ngầm hiển thị ranh
giới giữa hai cụm. Một số dữ liệu được gán nhãn không chính xác được
biểu diễn bằng dấu thập phía trên các ký hiệu của dữ liệu được gán nhãn.
Mục tiêu của bài toán này là tìm ra đường ranh giới “tốt nhất” giữa hai
cụm với các dữ liệu được gán nhãn chính xác và không chính xác.
Vấn đề phân cụm dữ liệu với độ tin cậy đã được nhận được sự quan
tâm từ nhiều nhà nghiên cứu nghiên cứu, điển hình từ Gan và cộng sự
[36, 37, 38]. Ý tưởng chính của cách tiếp cận này gồm hai bước: i) Tính
toán trọng số tin cậy của dữ liệu được gán nhãn bằng một đồ thị cục bộ;
ii) Xây dựng, xác định các tâm cụm và các giá trị phần tử mờ theo dữ liệu
được gán nhãn có trọng số tin cậy cao.
147 trang |
Chia sẻ: khanhvy204 | Ngày: 13/05/2023 | Lượt xem: 668 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Phùng Thế Huân
NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP
PHÂN CỤM BÁN GIÁM SÁT MỜ AN TOÀN
ỨNG DỤNG CHO BÀI TOÁN QUẢN LÝ CẢNG BIỂN
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN, 2023
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Phùng Thế Huân
NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP
PHÂN CỤM BÁN GIÁM SÁT MỜ AN TOÀN
ỨNG DỤNG CHO BÀI TOÁN QUẢN LÝ CẢNG BIỂN
Chuyên ngành: Khoa học máy tính
Mã số: 9. 48. 01. 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Vũ Đức Thái
2. PGS.TS. Lê Hoàng Sơn
THÁI NGUYÊN, 2023
Lời cam đoan
Tôi xin cam đoan luận án “Nghiên cứu phát triển phương pháp
phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản
lý cảng biển” là công trình nghiên cứu của cá nhân tôi, được hoàn thành
dưới sự hướng dẫn của TS. Vũ Đức Thái và PGS.TS. Lê Hoàng Sơn. Các
kết quả nghiên cứu của tôi cùng với các tác giả khác đã được sự nhất trí
của các đồng tác giả khi đưa vào nội dung luận án. Tôi đã trích dẫn đầy
đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước
và quốc tế. Tôi xin cam đoan các số liệu và kết quả trình bày trong luận
án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một
công trình nào khác.
Tác giả: NCS. Phùng Thế Huân
i
Lời cảm ơn
Lời đầu tiên, cho phép tác giả xin được bày tỏ sự biết ơn chân thành
và sâu sắc nhất đến tập thể giáo viên hướng dẫn TS. Vũ Đức Thái và
PGS.TS. Lê Hoàng Sơn. Các Thầy đã chỉ bảo ân cần và định hướng cho
tác giả trong suốt thời gian thực hiện luận án. Các Thầy không những
hướng dẫn kiến thức về chuyên môn, học thuật mà còn chỉ bảo cho tác giả
những kinh nghiệm trong cuộc sống thường ngày. Một vinh dự rất lớn cho
tác giả đã có cơ hội được học tập, nghiên cứu dưới sự hướng dẫn và chỉ
bảo tận tâm của các Thầy.
Xin trân trọng cảm ơn Ban Giám hiệu, Ban chủ nhiệm Khoa Công nghệ
thông tin, Phòng Đào tạo trường Đại học Công nghệ Thông tin và Truyền
thông - ĐHTN đã luôn tạo mọi điều kiện thuận lợi nhất cho tác giả trong
suốt quá trình thực hiện luận án.
Xin bày tỏ sự biết ơn sâu sắc đến các Thầy, Cô trong Lab ITI - Viện
Công nghệ Thông tin - ĐHQGHN và các Thầy, Cô trong Khoa Công nghệ
Thông tin - Trường Đại học Công nghệ Thông tin và Truyền thông - ĐHTN
đã luôn quan tâm giúp đỡ và tạo điều kiện về nhiều mặt, chỉ bảo tận tình
trong quá trình tác giả thực hiện luận án.
Xin bày tỏ lòng biết ơn vô hạn đối với cha mẹ, anh chị em và gia đình
đã luôn ủng hộ và yêu thương một cách vô điều kiện.
Xin chân thành cảm ơn các anh chị em và bạn bè đã luôn cổ vũ động
viên tác giả trong quá trình thực hiện luận án.
Cuối cùng, xin kính chúc các Thầy, Cô và đồng nghiệp, anh chị em bạn
bè luôn mạnh khoẻ, đạt được nhiều thành tựu trong công tác, học tập và
nghiên cứu khoa học!
Tác giả:NCS. Phùng Thế Huân
ii
Mục lục
Lời cam đoan i
Lời cảm ơn ii
Danh sách thuật ngữ và từ viết tắt vi
Mở đầu 1
Chương 1 Tổng quan về phân cụm bán giám sát mờ và ứng
dụng trong bài toán quản lý cảng biển 8
1.1 Tổng quan về phân cụm bán giám sát mờ . . . . . . . . . . . 9
1.1.1 Tập mờ và mở rộng . . . . . . . . . . . . . . . . . . . 9
1.1.2 Phân cụm mờ . . . . . . . . . . . . . . . . . . . . . . 10
1.1.3 Phân cụm bán giám sát mờ . . . . . . . . . . . . . . . 13
1.2 Một số tiếp cận trong phân cụm bán giám sát mờ gần đây . . 15
1.2.1 Phân cụm bán giám sát mờ an toàn . . . . . . . . . . 15
1.2.2 Phân cụm bán giám sát mờ trên tập mờ nâng cao . . . 19
1.2.3 Phân cụm bán giám sát mờ với nhiều tham số mờ . . . 20
1.2.4 Nhận xét về các nghiên cứu liên quan . . . . . . . . . 22
1.3 Ứng dụng phân cụm bán giám sát mờ trong bài toán quản
lý cảng biển . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.1 Giới thiệu bài toán quản lý cảng biển . . . . . . . . . . 24
1.3.2 Tổng quan các phương pháp phát hiện tàu biển trong
ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.3 Nhận xét chung . . . . . . . . . . . . . . . . . . . . . 34
1.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 35
1.5 Đánh giá hiệu năng thuật toán phân cụm . . . . . . . . . . . 37
iii
1.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 39
Chương 2 Đề xuất phương pháp phân cụm bán giám sát mờ
an toàn 40
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Chi tiết thuật toán TS3FCM . . . . . . . . . . . . . . . . . . 42
2.3.1 Bước 1. Phân cụm mờ cho dữ liệu đã được gán nhãn . 42
2.3.2 Bước 2. Chuyển đổi dữ liệu . . . . . . . . . . . . . . . 45
2.3.3 Bước 3. Phân cụm bán giám sát mờ cho toàn bộ dữ liệu 45
2.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . . . . 46
2.5 Ví dụ minh hoạ . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.5.1 Thiết lập giá trị độ thuộc thấp cho dữ liệu được gán
nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . . . 50
2.5.2 Thiết lập giá trị độ thuộc bằng không cho dữ liệu được
gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . 51
2.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 53
2.6.1 Thiết lập giá trị độ thuộc thấp cho dữ liệu được gán
nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . . . 54
2.6.2 Thiết lập giá trị độ thuộc bằng không cho dữ liệu được
gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . 59
2.7 Ứng dụng phát hiện tàu biển trong ảnh vệ tinh . . . . . . . . 66
2.7.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . 66
2.7.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 67
2.8 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 70
Chương 3 Đề xuất phương pháp phân cụm bán giám sát mờ
an toàn trên tập mờ viễn cảnh 71
3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . . . . . 73
3.3 Chi tiết thuật toán PTS3FCM . . . . . . . . . . . . . . . . . 74
3.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . . . . 79
3.5 Ví dụ minh hoạ . . . . . . . . . . . . . . . . . . . . . . . . . 79
iv
3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 84
3.6.1 Đánh giá theo độ chính xác phân cụm . . . . . . . . . 84
3.6.2 Đánh giá theo chất lượng cụm . . . . . . . . . . . . . 90
3.6.3 Đánh giá theo thời gian chạy thuật toán . . . . . . . . 91
3.7 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 93
Chương 4 Đề xuất phương pháp phân cụm bán giám sát mờ
an toàn với nhiều tham số mờ 94
4.1 Phương pháp phân cụm bán giám sát mờ với nhiều tham số
mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . 95
4.1.3 Chi tiết thuật toán MCSSFC-P . . . . . . . . . . . . . 95
4.1.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . 98
4.1.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 98
4.2 Phương pháp phân cụm bán giám sát mờ an toàn với nhiều
tham số mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . 101
4.2.3 Chi tiết thuật toán TS3MFCM . . . . . . . . . . . . . 102
4.2.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . 104
4.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 105
4.3 Ứng dụng phát hiện tàu biển trong ảnh vệ tinh . . . . . . . . 108
4.3.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . 108
4.3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 108
4.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 114
Kết luận 115
Danh sách các công trình tác giả đã công bố 117
Danh sách các công trình tác giả đã gửi đăng 119
Tài liệu tham khảo 120
v
Danh sách thuật ngữ và từ viết tắt
STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch
1 ASWC
Alternative Silhouette
Width Criterion index
Chỉ số Silhouette thay thế
2 CA Clustering Accuracy Độ chính xác phân cụm
3 CNN
Convolutional Neural
Network
Mạng nơ-ron tích chập
4 CS3FCM
Confidence-weighted
Safe Semi-Supervised
Fuzzy Clustering
Method
Thuật toán phân cụm
bán giám sát mờ an toàn
có trọng số tin cậy
5 CT Computation Time Thời gian tính toán
6 DB Davies-Bouldin index
Chỉ số chất lượng cụm
Davies–Bouldin
7 FCM
Fuzzy C-means
Clustering Method
Thuật toán phân cụm mờ
8 FCN
Fully Convolutional
Network
Mạng tích chập toàn
phần
9 FC-PFS
Fuzzy Clustering on
Picture Fuzzy Set
Thuật toán phân cụm mờ
viễn cảnh
10 FS Fuzzy Set Tập mờ
11 IFS Intuitionistics Fuzzy Set Tập mờ trực cảm
Bảng tiếp tục ở trang sau
vi
Tiếp tục từ trang trước
STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch
12 MC-FCM
Multiple fuzzification
Coefficients Fuzzy
C–means Clustering
Method
Thuật toán phân cụm mờ
với nhiều tham số mờ
13 MCSSFC-P
Multiple fuzzification
Coefficients
Semi-Supervised Fuzzy
Clustering algorithm
with Point
Thuật toán phân cụm
bán giám sát mờ với
nhiều tham số mờ điểm
14 NN Neural Network Mạng nơ-ron nhân tạo
15 ODDS
Outlier Detection
DataSets
Bộ dữ liệu phát hiện
nhiễu
16 PBM
Pakhira,
Bandyopadhyay and
Maulik index
Chỉ số Pakhira,
Bandyopadhyay và
Maulik
17 PFS Picture Fuzzy Set Tập mờ viễn cảnh
18 PTS3FCM
Picture Trusted Safe
Semi-Supervised Fuzzy
Clustering Method
Thuật toán phân cụm
bán giám sát mờ viễn
cảnh an toàn tin cậy
19 R-CNN
Regional Convolutional
Neural Network
Mạng nơ-ron tích chập
theo vùng
20 SAR
Synthetic Aperture
Radar
Ra đa khẩu độ tổng hợp
21 SIDS
Satellite Image DataSets
of Ships
Bộ dữ liệu ảnh vệ tinh
tàu biển
22 SSFCM
Semi-Supervised Fuzzy
C-means Clustering
Method
Thuật toán phân cụm
bán giám sát mờ
23 T2FS Type 2 Fuzzy Set Tập mờ loại 2
Bảng tiếp tục ở trang sau
vii
Tiếp tục từ trang trước
STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch
24 TS3FCM
Trusted Safe
Semi-Supervised Fuzzy
Clustering Method
Thuật toán phân cụm
bán giám sát mờ an toàn
tin cậy
25 TS3MFCM
Trusted Safe
Semi-Supervised with
Multiple fuzzifiers Fuzzy
Clustering Method
Thuật toán phân cụm
bán giám sát mờ an toàn
tin cậy với nhiều tham số
mờ
26 UCI
University of California,
Irvine Machine Learning
Repository
Kho dữ liệu học máy UCI
viii
Danh sách bảng
1.1 Dữ liệu UCI dùng cho thực nghiệm . . . . . . . . . . . . . . 36
1.2 Dữ liệu ODDS dùng cho thực nghiệm . . . . . . . . . . . . . 36
2.1 Thời gian tính toán của TS3FCM và CS3FCM trong trường
hợp 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2 Độ chính xác phân cụm trên dữ liệu được gán nhãn trong
trường hợp 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3 Chất lượng phân cụm theo chỉ số DB trong trường hợp 1 . . 57
2.4 Chất lượng phân cụm theo chỉ số ASWC trong trường hợp 1 58
2.5 Chất lượng phân cụm theo chỉ số BPM trong trường hợp 1 . 60
2.6 Thời gian tính toán của TS3FCM và CS3FCM trong trường
hợp 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.7 Độ chính xác phân cụm trên dữ liệu được gán nhãn trong
trường hợp 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.8 Chất lượng phân cụm theo chỉ số DB trong trường hợp 2 . . 63
2.9 Chất lượng phân cụm theo chỉ số ASWC trong trường hợp 2 64
2.10 Chất lượng phân cụm theo chỉ số PBM trong trường hợp 2 . 65
2.11 Thông số dữ liệu ảnh thực nghiệm . . . . . . . . . . . . . . . 67
2.12 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 68
3.1 Độ chính xác phân cụm đối với tất cả các điểm dữ liệu trên
các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . 84
3.2 Độ chính xác phân cụm đối với tất cả các điểm dữ liệu trên
các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 86
3.3 Độ chính xác phân cụm đối với dữ liệu gán nhãn trên các bộ
dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . . . 87
ix
3.4 Độ chính xác phân cụm đối với dữ liệu được gán nhãn trên
các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 89
3.5 Chất lượng phân cụm theo chỉ số DB trên các bộ dữ liệu
không chứa nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 90
3.6 Chất lượng phân cụm theo chỉ số DB trên các bộ dữ liệu có
chứa nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.7 Thời gian tính toán trên các bộ dữ liệu không chứa nhiễu . . 92
3.8 Thời gian tính toán trên các bộ dữ liệu có chứa nhiễu . . . . 93
4.1 Kết quả thực nghiệm trên bộ dữ liệu UCI . . . . . . . . . . . 99
4.2 Bộ dữ liệu nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 105
4.3 Dữ liệu ảnh vệ tinh tàu biển . . . . . . . . . . . . . . . . . . 105
4.4 Giá trị của các chỉ số đánh giá trên tất cả dữ liệu có nhiễu . 107
4.5 Thông số dữ liệu ảnh thực nghiệm . . . . . . . . . . . . . . . 109
4.6 So sánh kết quả nhận dạng giữa 2 phương pháp TS3MFCM
và CS3FCM . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
x
Danh sách hình vẽ
1 Phân cụm dữ liệu với độ tin cậy . . . . . . . . . . . . . . . . 2
1.1 Sơ đồ cảng biển [49] . . . . . . . . . . . . . . . . . . . . . . 25
1.2 Phát hiện tàu biển từ ảnh vệ tinh [85] . . . . . . . . . . . . . 26
1.3 Các phương pháp phân đoạn ảnh . . . . . . . . . . . . . . . 28
1.4 Ảnh vệ tinh tàu biển ban đầu . . . . . . . . . . . . . . . . . 37
1.5 Ảnh vệ tinh tàu biển sau khi nhận dạng . . . . . . . . . . . . 37
2.1 Sơ đồ thuật toán đề xuất TS3FCM . . . . . . . . . . . . . . 42
2.2 Dữ liệu được gán nhãn ban đầu . . . . . . . . . . . . . . . . 47
2.3 Phân vùng dữ liệu được gán nhãn tại vòng lặp đầu tiên từ
công thức (2.14) . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4 Phân vùng dữ liệu được gán nhãn ở vòng lặp đầu tiên sau
khi giảm các giá trị độ thuộc bị sai bởi công thức (2.15) . . . 49
2.5 Dữ liệu được gán nhãn sau phân vùng cuối cùng . . . . . . . 50
2.6 Kết quả phân cụm trong trường hợp 1 . . . . . . . . . . . . 52
2.7 Kết quả phân cụm trong trường hợp 2 . . . . . . . . . . . . 53
2.8 Biểu đồ độ chính xác phân cụm trong trường hợp 1 . . . . . 56
2.9 Biểu đồ độ chính xác phân cụm trong trường hợp 2 . . . . . 66
2.10 Kết quả phân cụm ảnh 1 . . . . . . . . . . . . . . . . . . . . 69
2.11 Kết quả phân cụm ảnh 2 . . . . . . . . . . . . . . . . . . . . 69
3.1 Sơ đồ thuật toán đề xuất PTS3FCM . . . . . . . . . . . . . 77
3.2 Sự phân bố của tất cả dữ liệu . . . . . . . . . . . . . . . . . 80
3.3 Dữ liệu được phân vùng với FC-PFS . . . . . . . . . . . . . 80
3.4 Phân vùng dữ liệu ở vòng lặp đầu tiên của TS3PFCM . . . . 81
3.5 Các cụm kết quả sau khi sau phân cụm . . . . . . . . . . . . 83
xi
3.6 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các
bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . 85
3.7 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các
bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . . . 86
3.8 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn với
các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . 88
3.9 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn với
các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 89
4.1 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn . . . . 100
4.2 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu . . . . . . 100
4.3 Sơ đồ thuật toán TS3MFCM . . . . . . . . . . . . . . . . . . 102
4.4 Kết quả phân cụm ảnh 1 . . . . . . . . . . . . . . . . . . . . 110
4.5 Kết quả phân cụm ảnh 2 . . . . . . . . . . . . . . . . . . . . 110
4.6 Kết quả phân cụm ảnh 3 . . . . . . . . . . . . . . . . . . . . 111
4.7 Kết quả phân cụm ảnh 4 . . . . . . . . . . . . . . . . . . . . 111
xii
Danh sách thuật toán
1.1 Thuật toán phân cụm mờ (FCM) . . . . . . . . . . . . . . 12
1.2 Thuật toán phân cụm bán giám sát mờ (SSFCM) . . . . . . 14
1.3 Thuật toán phân cụm bán giám sát mờ an toàn có trọng số
tin cậy (CS3FCM) . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Thuật toán phân cụm mờ viễn cảnh (FC-PFS) . . . . . . . 20
1.5 Thuật toán phân cụm mờ với nhiều tham số mờ (MC-FCM) 22
2.1 Thuật toán phân cụm mờ FCM cải tiến . . . . . . . . . . . 44
2.2 Thuật toán phân cụm bán giám sát mờ mới . . . . . . . . . 46
3.1 Thuật toán phân cụm bán giám sát mờ an toàn trên tập mờ
viễn cảnh (PTS3FCM) . . . . . . . . . . . . . . . . . . . . 78
4.1 Thuật toán phân cụm bán giám sát mờ với nhiều tham số
mờ (MCSSFC-P) . . . . . . . . . . . . . . . . . . . . . . . 97
xiii
Mở đầu
1. Tính cấp thiết của luận án
Phân cụm dữ liệu là quá trình phân chia các điểm dữ liệu thành các
cụm khác nhau, đảm bảo rằng các phần tử trong một cụm có nhiều điểm
tương đồng hơn các phần tử trong các cụm khác [105]. Phân cụm dữ liệu
được phân thành hai nhóm: phân cụm rõ và phân cụm mờ. Trong phân
cụm rõ, một điểm dữ liệu thuộc về duy nhất một cụm. Trong phân cụm
mờ, một điểm dữ liệu có thể thuộc nhiều hơn một cụm kèm theo thông
tin về độ thuộc của điểm dữ liệu vào các cụm. Khi phân cụm mờ sử dụng
một số thông tin bổ trợ thì được gọi là phân cụm bán giám sát mờ [13].
Một trong những hướng nghiên cứu về phân cụm bán giám sát đang được
quan tâm hiện nay đó là phân cụm bán giám sát mờ an toàn (hay còn gọi
là phân cụm dữ liệu với độ tin cậy).
Vấn đề phân cụm dữ liệu với độ tin cậy được minh họa như trong Hình
1, giả sử bộ dữ liệu bao gồm 2 cụm và có một số dữ liệu đã được gán nhãn
(hình vuông thể hiện dữ liệu đã được gán nhãn thuộc Cụm 1 và hình tam
giác thể hiện dữ liệu đã được gán nhãn thuộc Cụm 2), hình tròn thể hiện
các điểm dữ liệu chưa được gán nhãn. Đường nét đứt ngầm hiển thị ranh
giới giữa hai cụm. Một số dữ liệu được gán nhãn không chính xác được
biểu diễn bằng dấu thập phía trên các ký hiệu của dữ liệu được gán nhãn.
Mục tiêu của bài toán này là tìm ra đường ranh giới “tốt nhất” giữa hai
cụm với các dữ liệu được gán nhãn chính xác và không chính xác.
1
Hình 1 Phân cụm dữ liệu với độ tin cậy
Vấn đề phân cụm dữ liệu với độ tin cậy đã được nhận được sự quan
tâm từ nhiều nhà nghiên cứu nghiên cứu, điển hình từ Gan và cộng sự
[36, 37, 38]. Ý tưởng chính của cách tiếp cận này gồm hai bước: i) Tính
toán trọng số tin cậy của dữ liệu được gán nhãn bằng một đồ thị cục bộ;
ii) Xây dựng, xác định các tâm cụm và các giá trị phần tử mờ theo dữ liệu
được gán nhãn có trọng số tin cậy cao.
Các phương pháp của Gan và đồng nghiệp đạt hiệu suất tốt về độ chính
xác phân cụm. Tuy nhiên, thường mất nhiều thời gian tính toán do việc
tính toán với toàn bộ tập dữ liệu trong bước khởi tạo. Mặt khác, trong các
phương pháp của Gan chưa đề cập đến vấn đề phân vùng dữ liệu đối với
dữ liệu nhiễu. Ngoài ra các phương pháp này cũng chưa đề cập đến việc
thay đổi giá trị của tham số mờ để nâng cao hiệu suất phân cụm. Do đó,
nhằm nâng cao độ chính xác phân cụm và chất lượng cụm, đồng thời để
giảm thời gian tính toán so với các phương pháp của Gan, trong phạm vi
luận án này nghiên cứu một số vấn đề như sau:
• Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn
mới cho phân vùng dữ liệu với độ tin cậy có hiệu suất phân cụm tốt
và thời gian tính toán tốt.
2
• Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn
mới trên tập mờ viễn cảnh cho phân vùng dữ liệu với độ tin cậy và
dữ liệu nhiễu.
• Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn
mới với nhiều tham số mờ cho phân vùng dữ liệu với độ tin cậy xử lý
thông tin nhiễu.
Kỹ thuật phân cụm dữ liệu đã được áp dụng trong nhiều lĩnh vực, ví
dụ như: phân loại tài liệu [29], phân đoạn ảnh X-quang nha khoa [52, 66],
phân đoạn hình ảnh y tế [11, 12], v.v. Đặc biệt trong xử lý ảnh vệ tinh
có nhiều lĩnh vực ứng dụng quan trọng trong quân sự cũng như trong đời
sống xã hội như: phân loại phương tiện tham gia giao thông [23], hậu cần
[57], phân loại ảnh vệ tinh để dự báo hạn hán, lũ lụt, cháy rừng [51], v.v.
Trong bài toán quản lý cảng biển, có nhiều nghiên cứu đã đưa ra các
phương pháp để giải quy