Luận án Một số kỹ thuật phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội

Mạng xã hội là một tập hợp các thực thể được kết nối với nhau bằng một tập hợp các mối quan hệ hay liên kết, như mối quan hệ bạn bè, gia đình, mối quan hệ kinh doanh, quá trình lây lan bệnh tật, sự phát tán tin tức, các biểu đồ cộng tác, mạng ngữ nghĩa cho mô tả ngôn ngữ, . . . Mạng xã hội thường được biểu diễn dưới dạng đồ thị, trong đó các nút (đỉnh) biểu diễn cho các thực thể và các cạnh biểu diễn cho mối quan hệ giữa các thực thể với nhau. Khai phá đồ thị là quá trình phát hiện, truy xuất và phân tích các mẫu không tầm thường trong dữ liệu dưới dạng cấu trúc đồ thị. Ngày nay, khai phá dữ liệu đồ thị nổi lên như một kỹ thuật quan trọng trong xã hội học hiện đại, đã có những đóng góp vô cùng quan trọng trong nhiều lĩnh vực như: nhân chủng học, sinh học, nhân khẩu học, nghiên cứu truyền thông, kinh tế, địa lý, lịch sử, khoa học thông tin, khoa học máy tính, . . . Trong lĩnh vực khai phá đồ thị, việc phân tích và phát hiện cấu trúc cộng đồng mang nhiều ý nghĩa quan trọng và có rất nhiều ứng dụng cả trong lý thuyết lẫn thực tiễn. Cấu trúc cộng đồng (cộng đồng) được hiểu là một nhóm các thực thể trong mạng có những tính chất tương tự nhau, liên kết chặt chẽ với nhau và cùng đóng một vai trò nhất định đối với mỗi bài toán thực tế. Việc phát hiện và phân tích các cộng đồng trên đồ thị mạng xã hội sẽ cung cấp cho chúng ta những thông tin quý giá để hiểu 1 biết sâu sắc hơn và hình dung rõ ràng hơn những cấu trúc của mạng. Trong những năm gần đây, việc phân tích và phát hiện cấu trúc cộng đồng là một trong những lĩnh vực nghiên cứu chính trong khai thác, phân tích dữ liệu đồ thị nói chung và đồ thị mạng xã hội nói riêng. Đặc biệt, trong bối cảnh bùng nổ thông tin, vấn đề này lại càng thu hút các học giả nối tiếng của nhiều lĩnh vực khoa học khác nhau. Nhiều thuật toán phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội được nhiều người tập trung nghiên cứu và phát triển ứng dụng. Song hầu hết các thuật toán trên đều có độ phức tạp khá lớn do phải tính các độ đo khác nhau ở mỗi bước xử lý. Một cách tiếp cận mới là thuật toán lan truyền nhãn (LPA) [74], có ưu điểm: thời gian tính toán gần tuyến tính và chỉ cần dựa vào một chút thông tin tiên nghiệm ban đầu về cấu trúc mạng. Nhưng nhược điểm chính của phương pháp này là sử dụng hàm heuristic, không tạo ra lời giải duy nhất, kết quả chỉ mang tính gần đúng. LPA phù hợp với loại bài toán có dữ liệu cực kỳ lớn. Nhiều cải tiến đã được thực hiện trên LPA để cải thiện tính ổn định và nâng cao hiệu quả của các thuật toán phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội.

pdf146 trang | Chia sẻ: khanhvy204 | Ngày: 13/05/2023 | Lượt xem: 448 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận án Một số kỹ thuật phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Hiền Trinh MỘT SỐ KỸ THUẬT PHÁT HIỆN CẤU TRÚC CỘNG ĐỒNG TRÊN ĐỒ THỊ MẠNG XÃ HỘI LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, NĂM 2023 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Hiền Trinh MỘT SỐ KỸ THUẬT PHÁT HIỆN CẤU TRÚC CỘNG ĐỒNG TRÊN ĐỒ THỊ MẠNG XÃ HỘI Chuyên ngành: Khoa học máy tính Mã số: 9. 48. 01. 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Đoàn Văn Ban 2. TS. Vũ Vinh Quang THÁI NGUYÊN, NĂM 2023 Lời cam đoan Tôi xin cam đoan những nội dung được đề xuất trong luận án là hoàn toàn mới, chưa có tác giả nào công bố. Các kết quả đạt được trong quá trình nghiên cứu là hoàn toàn trung thực khách quan. Tác giả: NCS Nguyễn Hiền Trinh i Lời cảm ơn Tôi xin chân thành cảm ơn PGS.TS Đoàn Văn Ban và TS. Vũ Vinh Quang đã tận tình giúp đỡ, động viên, định hướng, hướng dẫn tôi nghiên cứu và hoàn thành luận án này. Tôi xin chân thành cảm ơn Ban lãnh đạo Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên, Ban chủ nhiệm khoa Khoa Công nghệ thông tin đã giúp đỡ tôi trong quá trình thực hiện luận án. Tôi chân thành cảm ơn những ý kiến đóng góp, tư vấn, hỗ trợ từ các thầy, cô giáo, các nhà khoa học và bạn bè đồng nghiệp để hoàn thiện luận án này. Trân trọng cám ơn! NCS. Nguyễn Hiền Trinh ii Mục lục Lời cam đoan i Lời cảm ơn ii Danh mục các ký hiệu, các chữ viết tắt vi Danh mục các thuật ngữ viii Mở đầu 1 1 Tổng quan về đồ thị mạng xã hội và bài toán phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội 9 1.1 Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Mạng xã hội và đồ thị mạng xã hội . . . . . . . . . . . . . 11 1.2.1 Mạng xã hội . . . . . . . . . . . . . . . . . . . . . . 11 1.2.2 Một số đặc tính của mạng xã hội . . . . . . . . . . . 12 1.2.3 Đồ thị mạng xã hội và cấu trúc cộng đồng của mạng xã hội . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 Một số độ đo quan trọng trên đồ thị mạng xã hội . . . . . . 16 1.3.1 Độ đo trung tâm theo bậc . . . . . . . . . . . . . . 16 1.3.2 Độ đo trung gian . . . . . . . . . . . . . . . . . . . 19 1.3.3 Độ đo trung tâm theo vector riêng . . . . . . . . . . 23 1.3.4 Hệ số phân cụm đồ thị . . . . . . . . . . . . . . . . 24 1.4 Bài toán phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 iii 1.4.1 Nhóm thuật toán phát hiện cấu trúc cộng đồng truyền thống . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.4.2 Nhóm thuật toán phát hiện cấu trúc cộng đồng dựa trên tối ưu hóa độ đo đơn thể . . . . . . . . . . . . . 30 1.4.3 Nhóm thuật toán phát hiện cấu trúc cộng đồng dựa vào độ đo trung gian . . . . . . . . . . . . . . . . . 32 1.4.4 Nhóm thuật toán phát hiện cấu trúc cộng đồng dựa trên lan truyền nhãn . . . . . . . . . . . . . . . . . 35 1.4.5 Nhóm thuật toán phát hiện cấu trúc cộng đồng dựa vào mạng học sâu . . . . . . . . . . . . . . . . . . . 37 1.5 Các độ đo đánh giá thuật toán phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội . . . . . . . . . . . . . . . . . . . . 43 1.5.1 Độ đo đơn thể Modularity . . . . . . . . . . . . . . 43 1.5.2 Thông tin tương hỗ chuẩn NMI . . . . . . . . . . . 44 1.6 Tổng kết chương 1 . . . . . . . . . . . . . . . . . . . . . . 45 2 Phát hiện cấu trúc cộng đồng rời nhau trên đồ thị mạng xã hội 46 2.1 Phát hiện cấu trúc cộng đồng rời nhau bằng phương pháp phân cụm phổ (Spectral) . . . . . . . . . . . . . . . . . . . 46 2.1.1 Những vấn đề cơ bản trong phương pháp phân cụm phổ (Spectral Clustering) . . . . . . . . . . . . . . 47 2.1.2 Bài toán và phương pháp phân cụm phổ . . . . . . . 50 2.1.3 Thuật toán đề xuất . . . . . . . . . . . . . . . . . . 52 2.1.4 Các kết quả thực nghiệm . . . . . . . . . . . . . . . 64 2.2 Cải tiến thuật toán lan truyền nhãn LPA . . . . . . . . . . 67 2.2.1 Thuật toán lan truyền nhãn LPA . . . . . . . . . . . 67 2.2.2 Thuật toán lan truyền nhãn LPAMD với hàm f đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.2.3 Kết quả thực nghiệm thuật toán LPAMD . . . . . . 76 2.2.4 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . 82 2.3 Kết hợp rút gọn đồ thị và thuật toán lan truyền nhãn . . . 83 iv 2.3.1 Thuật toán LPARLV (LPA Reduce Leaf Vertex) . . 83 2.3.2 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . 88 2.3.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . 88 2.4 Tổng kết chương 2 . . . . . . . . . . . . . . . . . . . . . . . 93 3 Phát hiện cấu trúc cộng đồng chồng chéo trên đồ thị mạng xã hội 94 3.1 Khái quát về vấn đề cộng đồng chồng chéo . . . . . . . . . 94 3.2 Hệ số phân cụm đồ thị và hệ số thuộc về cộng đồng . . . . 96 3.2.1 Hệ số phân cụm đồ thị . . . . . . . . . . . . . . . . 96 3.2.2 Hệ số thuộc về cộng đồng . . . . . . . . . . . . . . 99 3.2.3 Phát hiện cấu trúc cộng đồng chồng chéo theo lan truyền nhãn và dựa vào hệ số thuộc về cộng đồng . . 101 3.2.4 Độ phức tạp thuật toán COPA-BC . . . . . . . . . 108 3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . 109 3.2.6 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . 112 3.3 Tổng kết chương 3 . . . . . . . . . . . . . . . . . . . . . . . 114 Kết luận và hướng phát triển của luận án 115 Danh mục các công trình khoa học có liên quan đến luận án118 Tài liệu tham khảo 120 v Danh mục các ký hiệu, các chữ viết tắt STT Từ viết tắt Dạng đầy đủ 1 AE Auto Encoder 2 BIRCH Balanced iterative reducing and clustering using hierarchies 3 BFS Breadth first search 4 CNN Convolution Neural Network 5 CONGA Cluster Overlap Newman-Girvan Algorithm 6 CONGO CONGA Optimized 7 COPRA Community Overlap Propagation Algorithm 8 COPA-BC Community Overlap Propagation Algorithm Based on New Belonging Coefficient 9 DFS Depth-first search 10 DSF Deep Sparse Filtering 11 GAN Generative Adversarial Network 12 GCN Graph Convolutional Networks 13 GN Girvan-Newman 14 GNN Graph neural networks 15 IVIC- COPRA Improved Vertex Imitation Co-efficient based COPRA Bảng tiếp tục ở trang sau vi Tiếp tục từ trang trước STT Từ viết tắt Dạng đầy đủ 16 LPA Label propagation algorithm 17 LPAMD Label Propagation Algorithm with Modularity and Density 18 LPARLV LPA Reduce Leaf Vertex 19 MCG Make Compact Graph 20 MLE Maximum-likelihood estimation 21 NMI Normalized mutual information 22 NMF Deep Nonnegative Ma-trix Factorization 23 OLP Optimized label propagation 24 PCB Belief Propagation and Conflict 25 RCL ReClustering 26 RE Remove edge 27 SC Stanford large network dataset collection 28 SCN Spectral Clustering New 29 SN Social network 30 SNAP Stanford Network Analysis Platform 31 SpcSA Spectral clustering combining information on both the network Structure and node Attributes 32 WTG Weight Triangle vii Danh mục các thuật ngữ STT Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt 1 Actor Tác nhân 2 Adjacency list Danh sách liền kề (lân cận kề) 3 Adjacency matrix Ma trận liền kề (lân cận kề) 4 Betweenness Độ đo trung gian 5 Betweenness centrality Độ đo trung tâm trung gian 6 Big data Dữ liệu lớn 7 Bio-logical networks Mạng sinh học 8 Breadth first search Duyệt theo chiều rộng 9 Closeness Độ gần nhau 10 Closeness centrality Hệ số trung tâm gần nhau 11 Clustering Coefficient Hệ số phân cụm 12 Chemical compound Hợp chất hóa học 13 Collaborative Networks Mạng cộng tác trong nghiên cứu khoa học 14 Communication network Mạng truyền thông 15 Community detection Phát hiện cấu trúc cộng đồng 16 Community social structure Cấu trúc cộng đồng mạng xã hội 17 Degree Bậc 18 Degree centrality Độ đo trung tâm theo bậc 19 Diameter Đường kính Bảng tiếp tục ở trang sau viii Tiếp tục từ trang trước STT Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt 20 Direction Có hướng 21 Dynamic Động 22 Edge Cạnh 23 Edge betweenness centrality Độ đo trung gian của cạnh 24 Eigenvector centrality Độ đo theo vecto đặc trưng 25 Evolutionary algorithms Thuật toán tiến hóa 26 Extremal Optimization Tối ưu hóa mở rộng 27 Frequent subgraph Đồ thị con phổ biến 28 Graph Đồ thị 29 Graph clustering Phân cụm đồ thị 30 Graph partitioning Phân vùng đồ thị 31 Graph evolution Tiến hóa đồ thị 32 Graph Mining Khai phá đồ thị 33 Greedy techniques Tìm kiếm tham lam 34 Ground truth Cộng đồng thực 35 Hierarchical Agglomerative Clustering Phân cụm phân cấp có thứ bậc 36 Information theory Lý thuyết thông tin 37 Isomorphism Đẳng cấu 38 K-Nearest Neighbors Classifier Phương pháp phân loại k-hàng xóm gần nhất 39 Label Propagation Algorithm Thuật toán lan truyền nhãn 40 Leaf vertex Đỉnh treo 41 Network Mạng 42 Measure Độ đo 43 Modularity Modul Bảng tiếp tục ở trang sau ix Tiếp tục từ trang trước STT Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt 44 Modularity Optimisation Based Community Detection Techniques Thuật toán phát hiện cấu trúc cộng đồng dựa trên tối ưu hóa modul 45 Overlapping Chồng chéo⧸ Chồng chéo 46 Pair betweenness Độ đo trung gian cặp 47 Pair-counting Tính toán cặp 48 Partitional clustering Phân cụm phân hoạch 49 Pattern Mẫu 50 Protein structure Cấu trúc protein 51 Run times Thời gian chạy/thực hiện 52 Simulated annealing Mô phỏng luyện kim 53 Social Networks Mạng xã hội 54 Social Network Analysis Phân tích mạng xã hội 55 Social network community structure Cấu trúc cộng đồng mạng xã hội 56 Social network community Cộng đồng mạng xã hội 57 Sparse graph Đồ thị thưa 58 Spectral clustering Phân cụm phổ 59 Support Độ độ hỗ trợ/ phổ biến 60 Support Vector Machine learning Máy học vectơ hỗ trợ 61 Supervised Neural Networks Mạng neural có giám sát 62 Traditional Community Detection Techniques Thuật toán phát hiện cấu trúc cộng đồng truyền thống 63 Triangle Tam giác x Danh sách bảng 1.1 Độ đo trung tâm theo bậc và độ đo theo bậc chuẩn hóa . . 17 1.2 Tính độ đo trung gian cho các đỉnh của đồ thị hình 1.4 . . . 22 2.1 Kết quả phân cụm . . . . . . . . . . . . . . . . . . . . . . . 63 2.2 Kết quả thực nghiệm về thời gian thực hiện SCN, SpcSA và UVonLB trên mạng thực, đơn vị tính s (giây). Với các bộ dữ liệu: AdjNoun, Caltech36, Simmons81, Pages tvshow, Lehigh96 lấy từ [64] . . . . . . . . . . . . . . . . . . . . . . 64 2.3 Kết quả thực nghiệm về chất lượng cộng đồng (Modular- ity)với SCN, SpcSA và UVonLB . . . . . . . . . . . . . . . 65 2.4 Kết quả thực nghiệm về độ đo thông tin tương hỗ chuẩn (NMI) với SCN, SpcSA và UVonLB . . . . . . . . . . . . . 66 2.6 Kết quả thực nghiệm về thời gian thực hiện LPAMD, đơn vị tính s (giây) Với các bộ dữ liệu Page - food, Hamsterster, Hepth Oregon_2 , Email - Enron, Brightkite [64], Musae - wiki [43] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7 Kết quả thực nghiệm về chất lượng cộng đồng (Modular- ity)với LPAMD . . . . . . . . . . . . . . . . . . . . . . . . 81 2.8 Kết quả thực nghiệm về độ đo thông tin tương hỗ chuẩn (NMI) với LPAMD . . . . . . . . . . . . . . . . . . . . . . 82 2.9 Kết quả thực nghiệm về thời gian thực hiện LPARLV . Với các bộ dữ liệu: Dolphin Group, Les Misérables Group, Wiki- Vote, Youtube, Wiki-Elec lấy theo [64] . . . . . . . . . . . 90 2.10 Kết quả thực nghiệm về chất lượng cộng đồng với LPARLV 91 xi 2.11 Kết quả thực nghiệm về thông tin tương hỗ chuẩn hóa NMI với LPARLV . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.1 Quá trình gắn nhãn ở các bước t = 1, 2, 3, 4 . . . . . . . . 104 3.2 Kết quả thực nghiệm về thời gian thực hiện. Với các bộ dữ liệu: Karate Club, Dolphin Group lấy theo [64]; Email-Eu- core, DBLP, Amazon, Youtube [43] . . . . . . . . . . . . . 110 3.3 Kết quả thực nghiệm về chất lượng cộng đồng qua chỉ số Modularity với COPA-BC . . . . . . . . . . . . . . . . . . . 111 3.4 Kết quả thực nghiệm về thông tin tương hỗ chuẩn hóa NMI với COPA-BC . . . . . . . . . . . . . . . . . . . . . . . . . 112 xii Danh sách hình vẽ 1.1 Cấu trúc dữ liệu đồ thị có mặt ở khắp nơi: Mạng đồng biểu hiện; mạng xã hội; các luồng chương trình; trong hợp chất hóa học và cấu trúc protein, . . . . . . . . . . . . . . . . . . 10 1.2 Cấu trúc cộng đồng trong mạng thể hiện mối quan hệ giữa các nhân vật trong tác phẩm Những người khốn khổ . . . . 15 1.3 Đồ thị vô hướng 7 nút và độ đo trung tâm theo bậc . . . . 17 1.4 Đồ thị vô hướng 6 nút . . . . . . . . . . . . . . . . . . . . . 21 2.1 Minh họa đồ thị phân thành 2 cụm . . . . . . . . . . . . . 48 2.2 Mạng 8 đỉnh, các liên kết và trọng số . . . . . . . . . . . . 61 2.3 Hình ảnh phân 3 cộng đồng . . . . . . . . . . . . . . . . . . 63 2.4 Đánh giá thời gian thực hiện giữa SCN, SpcSA và UVonLB 65 2.5 Đánh giá Modularity giữa SCN, SpcSA và UVonLB . . . . 66 2.6 Đánh giá NMI giữa SCN, SpcSA và UVonLB . . . . . . . . 67 2.7 Minh họa các đỉnh láng giềng . . . . . . . . . . . . . . . . . 71 2.8 Mạng giả định 2.8 với 12 đỉnh . . . . . . . . . . . . . . . . 73 2.9 Minh họa thuật toán ở vòng lặp thứ nhất, đỉnh chọn ngẫu nhiên x = 5 . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.10 Minh họa thuật toán ở vòng lặp thứ nhất, đỉnh chọn ngẫu nhiên x = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.11 Minh họa thuật toán ở vòng lặp thứ nhất, đỉnh chọn ngẫu nhiên x = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.12 Kết quả phát hiện cộng đồng của mạng giả định 2.8 . . . . 76 2.13 Mạng Karate Club ban đầu . . . . . . . . . . . . . . . . . . 77 2.14 Mạng Karate Club với cộng đồng được hình thành . . . . . 78 xiii 2.15 Mạng Karate Club sau 5 lần lặp với các cộng đồng kết quả . 78 2.16 Mạng Karate Club với 2 cộng đồng khi chạy LPAMD với hàm gắn nhãn theo công thức (2.10) . . . . . . . . . . . . . 79 2.17 Đánh giá thời gian thực hiện giữa LPAMD với LPA, CLPA và NLPPC . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.18 Đánh giá Modularity giữa LPAMD với LPA, CLPA và NLPPC 81 2.19 Đánh giá giữa LPAMD với LPA, CLPA và NLPPC dựa trên đo đo thông tin tương hỗ chuẩn (NMI) . . . . . . . . . . . 82 2.20 Kết quả các cộng đồng của mạng Les Misérables . . . . . . 89 2.21 So sánh thời gian thực hiện giữa LPARLV, OLP, LPA . . . 90 2.22 So sánh chất lượng cộng đồng (Modularity) giữa LPARLV, OLP, LPA . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 2.23 So sánh thông tin tương hỗ chuẩn hóa NMI giữa LPARLV, OLP, LPA . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.1 Đồ thị mạng xã hội đơn giản 4 nút có 2 cộng đồng C,D . . 95 3.2 Đồ thị mạng G có 14 nút thành viên . . . . . . . . . . . . . 98 3.3 Mạng G có 3 cộng đồng chồng chéo với hai nút chồng chéo 2, 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.4 So sánh thời gian thực hiện thuật toán COPA-BC trên 6 mạng thực với COPRA, IVIC-COPRA . . . . . . . . . . . . 110 3.5 So sánh chất lượng cộng đồng được phát hiện trên 6 mạng thực giữa COPA-BC, COPRA, IVICCOPRA . . . . . . . . 111 3.6 So sánh NMI của các cộng đồng được phát hiện trên 6 mạng thực giữa COPA-BC, COPRA, IVICCOPRA . . . . . . . . 113 xiv Mở đầu 1. Tính cấp thiết của luận án Mạng xã hội là một tập hợp các thực thể được kết nối với nhau bằng một tập hợp các mối quan hệ hay liên kết, như mối quan hệ bạn bè, gia đình, mối quan hệ kinh doanh, quá trình lây lan bệnh tật, sự phát tán tin tức, các biểu đồ cộng tác, mạng ngữ nghĩa cho mô tả ngôn ngữ, . . . Mạng xã hội thường được biểu diễn dưới dạng đồ thị, trong đó các nút (đỉnh) biểu diễn cho các thực thể và các cạnh biểu diễn cho mối quan hệ giữa các thực thể với nhau. Khai phá đồ thị là quá trình phát hiện, truy xuất và phân tích các mẫu không tầm thường trong dữ liệu dưới dạng cấu trúc đồ thị. Ngày nay, khai phá dữ liệu đồ thị nổi lên như một kỹ thuật quan trọng trong xã hội học hiện đại, đã có những đóng góp vô cùng quan trọng trong nhiều lĩnh vực như: nhân chủng học, sinh học, nhân khẩu học, nghiên cứu truyền thông, kinh tế, địa lý, lịch sử, khoa học thông tin, khoa học máy tính, . . . Trong lĩnh vực khai phá đồ thị, việc phân tích và phát hiện cấu trúc cộng đồng mang nhiều ý nghĩa quan trọng và có rất nhiều ứng dụng cả trong lý thuyết lẫn thực tiễn. Cấu trúc cộng đồng (cộng đồng) được hiểu là một nhóm các thực thể trong mạng có những tính chất tương tự nhau, liên kết chặt chẽ với nhau và cùng đóng một vai trò nhất định đối với mỗi bài toán thực tế. Việc phát hiện và phân tích các cộng đồng trên đồ thị mạng xã hội sẽ cung cấp cho chúng ta những thông tin quý giá để hiểu 1 biết sâu sắc hơn và hình dung rõ ràng hơn những cấu trúc của mạng. Trong những năm gần đây, việc phân tích và phát hiện cấu trúc cộng đồng là một trong những lĩnh vực nghiên cứu chính trong khai thác, phân tích dữ liệu đồ thị nói chung và đồ thị mạng xã hội nói riêng. Đặc biệt, trong bối cảnh bùng nổ thông tin, vấn đề này lại càng thu hút các học giả nối tiếng của nhiều lĩnh vực khoa học khác nhau. Nhiều thuật toán phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội được nhiều người tập trung nghiên cứu và phát triển ứng dụng. Song hầu hết các thuật toán trên đều có độ phức tạp khá lớn do phải tính các độ đo khác nhau ở mỗi bước xử lý. Một cách tiếp cận mới là thuật toán lan truyền nhãn (LPA) [74], có ưu điểm: thời gian tính toán gần tuyến tính và chỉ cần dựa vào một chút thông tin tiên nghiệm ban đầu về cấu trúc mạng. Nhưng nhược điểm chính của phương pháp này là sử dụng hàm heuristic, không tạo ra lời giải duy nhất, kết quả chỉ mang tính gần đúng. LPA phù hợp với loại bài toán có dữ liệu cực kỳ lớn. Nhiều cải tiến đã được thực hiện trên LPA để cải thiện tính ổn định và nâng cao hiệu quả của các thuật toán phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội. Ngoài ra, trong thời gian gần đây, các nghiên cứu bắt đầu tập trung vào vấn đề cấu trúc cộng đồng chồng chéo, bởi đó tuy là vấn đề phức tạp song lại mang nhiều ý nghĩa thực tiễn: phần nhiều các cấu trúc cộng đồng không rời nhau hoàn toàn mà chúng có thể gối lên nhau, chồng chéo hay giao nhau trong một phạm vi nào đấy, nghĩa là một số nút có thể thuộc nhiều hơn một cộng đồng. Để xác định các cấu trúc cộng đồng chồng chéo, các thuật toán sử dụng nhiều kỹ thuật, bao gồm việc loại bỏ các cạnh có độ trung gian cao [30], phát hiện đồ thị con dày đặc [38], tối ưu hóa modul [16, 76], phương pháp heuristic dựa vào vai trò của các nút [33, 84] và nhất là phương pháp lan truyền nhãn [5, 25, 32, 74, 76, 83, 100] . . . Hầu hết các phương pháp phát hiện cấu trúc cộng đồng chồng chéo không thể cân bằng giữa hiệu quả và độ chính xác cho các mạng lớn và dày đặc. Để nhanh chóng xác định các cấu trúc cộng đồng chồng chéo cho các mạng như vậy, Fu và các cộng sự [25] đề xuất thuật toán PCB (Belief Propagation and Conflict) sử dụng phương pháp lan truyền dựa vào niềm tin và tránh xung 2 đột để xác định các cấu trúc cộng đồng chồng chéo. Độ phức tạp thời gian của thuật toán PCB gần như tuyến tính và độ phức tạp không gian của nó là tuyến tính. Mới đây (2020), Saradha và cộng sự [76] tập trung vào kỹ thuật phát hiện cấu trúc cộng đồng chồng chéo và tối ưu hóa rời rạc bằng cách áp dụng thuật toán lan truyền chồng chéo theo đơn thể để phân chia mạng thành các cộng đồng chồng chéo. Nhìn chung, các phương pháp lan truyền nhãn thực hiện nhanh, hay hiệu quả về cơ bản đều phụ thuộc vào việc xác định cơ chế lan truyền nhãn. Tại Việt Nam, những nghiên cứu về mạng xã hội và phân tích mạng xã hội đã và đang là một xu hướng phát triển mạnh mẽ, hình thành nhiều nhóm nghiên cứu khác nhau. Hồ Trung Thành [3] (Đại học quốc gia thành phố Hồ Chí Minh) nghiên cứu phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng (2017), nội dung chủ yếu là phát hiện cấu trúc cộng đồng dựa trên mô hình chủ đề có yếu tố thời gian. Dư Phương Hạnh [2] (Đại học quốc gia Hà Nội) đề xuất phương pháp nâng cao hiệu năng xử lý giao tác trong kho dữ liệu không gian (2018), nội dung chủ yếu là tối ưu hóa truy vấn tương tranh trên đồ thị động và nâng cao hiệu năng quá trình tính độ trung tâm trên độ thị m

Các file đính kèm theo tài liệu này:

  • pdfluan_an_mot_so_ky_thuat_phat_hien_cau_truc_cong_dong_tren_do.pdf
  • pdfCV.pdf
  • pdfQđ cấp trg.pdf
  • docxTA_TrangThongTin_LAT_Nguyen_Hien_Trinh_20_4_2023.docx
  • pdfTV_LA_Tomtat_Nguyen_Hien_Trinh_24_4_2023_A.pdf
  • docxTV_TrangThongTin_LA_Nguyen_Hien_Trinh_20_4_2023.docx