Luận án Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản

Ngày nay, dữ liệu được coi là một nguồn tài nguyên vô cùng quan trọng với sự gia tăng nhanh chóng theo thời gian. Một phần rất lớn dữ liệu thường được trình bày dưới các dạng văn bản, tài liệu không có cấu trúc hoặc bán cấu trúc và hoàn toàn miễn phí. Tuy nhiên, việc tìm kiếm và trích chọn ra được các thông tin người dùng cần từ những nguồn dữ liệu này là điều không dễ dàng. Việc này đã thúc đẩy những nghiên cứu về các phương pháp, kỹ thuật nhằm phân tích dữ liệu và trích xuất thông tin từ văn bản một cách hiệu quả. Trích xuất thông tin (Information Extraction) thực hiện trích xuất tự động những thông tin có cấu trúc như các thực thể, các ý kiến/quan điểm mô tả thực thể, mối quan hệ giữa các thực thể, hay các sự kiện từ các nguồn dữ liệu không có cấu trúc hoặc bán cấu trúc. Mục tiêu cuối cùng là chuyển thông tin trong văn bản sang một hình thức dễ tiếp cận (/truy xuất) hơn để có thể tiếp tục xử lý, nhằm hỗ trợ tốt hơn cho người dùng. Hiện tại trên thực tế có khá nhiều ứng dụng của trích xuất thông tin, từ các ứng dụng quản lý thông tin cá nhân, tới các ứng dụng trong doanh nghiệp (như theo dõi tin tức, chăm sóc khách hàng, làm sạch dữ liệu), đến các ứng dụng trong các lĩnh vực khoa học (ví dụ, tin sinh học), và đặc biệt là sự phát triển mạnh mẽ của các ứng dụng hướng web (như cơ sở dữ liệu trích dẫn, cơ sở dữ liệu ý kiến/quan điểm, các trang web cộng đồng, so sánh khi mua sắm) [40,101].

pdf158 trang | Chia sẻ: Tài Chi | Ngày: 27/11/2023 | Lượt xem: 494 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN THỊ THANH THỦY NGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY CHO TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI – 2023 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN THỊ THANH THỦY NGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY CHO TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 9.48.01.04 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. GS.TS. TỪ MINH PHƯƠNG 2. PGS.TS. NGÔ XUÂN BÁCH HÀ NỘI – 2023 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn của GS.TS. Từ Minh Phương và PGS.TS. Ngô Xuân Bách. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác. Hà Nội, ngày . tháng . năm 2023 Nghiên cứu sinh Nguyễn Thị Thanh Thủy ii LỜI CẢM ƠN Trong quá trình học tập, nghiên cứu để hoàn thành đề tài luận án “Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản”, ngoài sự nỗ lực của cá nhân, tôi đã nhận được rất nhiều sự giúp đỡ, tạo điều kiện của các Thầy hướng dẫn, nhà trường, các nhà khoa học, đơn vị công tác và gia đình. Tôi xin bày tỏ lòng biết ơn chân thành về sự giúp đỡ đó. Đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy GS.TS. Từ Minh Phương và Thầy PGS.TS. Ngô Xuân Bách đã tận tình hướng dẫn, chỉ bảo, giúp đỡ và đồng hành cùng tôi trong suốt quá trình thực hiện nghiên cứu và hoàn thành luận án. Tôi xin trân trọng cảm ơn Lab Học máy và Ứng dụng, Khoa Quốc tế và Đào tạo Sau Đại học và Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án. Tôi xin cảm ơn các Thầy Lãnh đạo và tập thể cán bộ, giảng viên Khoa Công nghệ thông tin 1, Học viện Công nghệ Bưu chính Viễn thông đã luôn cổ vũ, động viên tôi trong quá trình nghiên cứu. Tôi xin trân trọng cảm ơn Quỹ Đổi mới sáng tạo Vingroup (VINIF), Viện nghiên cứu VINBIGDATA, Tập đoàn Vingroup đã trao học bổng học tập cho tôi trong thời gian tôi làm nghiên cứu luận án. Tôi xin gửi lời cảm ơn chân thành tới tất cả những người bạn luôn chia sẻ và động viên tôi trong những lúc khó khăn. Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình đã luôn bên cạnh ủng hộ, động viên, tạo mọi điều kiện hỗ trợ tôi. Hà Nội, ngày . tháng . năm 2023 Nghiên cứu sinh iii MỤC LỤC LỜI CAM ĐOAN ................................................................................................................. i LỜI CẢM ƠN ...................................................................................................................... ii MỤC LỤC ........................................................................................................................... iii DANH MỤC CÁC BẢNG ................................................................................................ vi DANH MỤC CÁC HÌNH VẼ ........................................................................................ viii DANH MỤC CÁC TỪ VIẾT TẮT ................................................................................. ix PHẦN MỞ ĐẦU ................................................................................................................. 1 1. TÍNH CẤP THIẾT CỦA LUẬN ÁN .................................................................. 1 2. MỤC TIÊU VÀ PHẠM VI NGHIÊN CỨU LUẬN ÁN .................................... 3 3. CÁC ĐÓNG GÓP CỦA LUẬN ÁN ................................................................... 6 4. BỐ CỤC CỦA LUẬN ÁN .................................................................................. 8 CHƯƠNG 1. TỔNG QUAN VỀ TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN .................................................................................................................................... 10 1.1. GIỚI THIỆU VỀ TRÍCH XUẤT THÔNG TIN ........................................... 10 1.2. ỨNG DỤNG CỦA TRÍCH XUẤT THÔNG TIN ........................................ 13 1.3. CÁC PHƯƠNG PHÁP TIẾP CẬN ............................................................... 15 1.3.1. Phương pháp tiếp cận dựa trên phân loại ............................................... 16 1.3.2. Phương pháp tiếp cận dựa trên gán nhãn chuỗi ...................................... 19 1.3.3. Phương pháp tiếp cận dựa trên học sâu .................................................. 22 1.3.4. Phương pháp thực hiện thực nghiệm và đánh giá kết quả ...................... 31 1.4. KHẢO SÁT CÁC NGHIÊN CỨU LIÊN QUAN ......................................... 33 1.5. KẾT LUẬN CHƯƠNG 1 ............................................................................... 42 CHƯƠNG 2. TRÍCH XUẤT KHÍA CẠNH VÀ PHÂN LOẠI QUAN ĐIỂM CHO TIẾNG VIỆT TẬN DỤNG NGUỒN DỮ LIỆU ĐÃ ĐƯỢC GÁN NHÃN TỪ NGÔN NGỮ KHÁC ...................................................................................................................... 44 iv 2.1. ĐẶT VẤN ĐỀ ................................................................................................ 45 2.2. ĐỀ XUẤT PHƯƠNG PHÁP TRÍCH XUẤT KHÍA CẠNH VÀ PHÂN LOẠI QUAN ĐIỂM CHO TIẾNG VIỆT ........................................................................ 49 2.2.1. Xây dựng dữ liệu huấn luyện ................................................................... 50 2.2.2. Trích chọn đặc trưng ................................................................................ 51 2.2.3. Các mô hình huấn luyện .......................................................................... 54 2.3. XÂY DỰNG TẬP DỮ LIỆU ......................................................................... 55 2.4. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ ............................................ 59 2.4.1. Thiết lập thực nghiệm .............................................................................. 59 2.4.2. Triển khai các mô hình thực nghiệm ....................................................... 60 2.4.3. Kết quả thực nghiệm và phân tích ........................................................... 61 2.5. KẾT LUẬN CHƯƠNG 2 ............................................................................... 66 CHƯƠNG 3. TRÍCH XUẤT THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN PHÁP QUY TIẾNG VIỆT SỬ DỤNG HỌC MÁY TRUYỀN THỐNG VÀ HỌC SÂU ... 68 3.1. ĐẶT VẤN ĐỀ ................................................................................................ 70 3.2. ĐỀ XUẤT PHƯƠNG PHÁP TRÍCH XUẤT THỰC THỂ VÀ QUAN HỆ .. 74 3.2.1. Trích xuất thực thể tham chiếu ................................................................ 74 3.2.2. Phân loại quan hệ giữa các thực thể văn bản pháp quy ........................... 78 3.3. XÂY DỰNG TẬP DỮ LIỆU ......................................................................... 84 3.4. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ ............................................ 88 3.4.1. Thiết lập thực nghiệm .............................................................................. 88 3.4.2. Trích xuất thực thể tham chiếu ................................................................ 89 3.4.3. Phân loại quan hệ giữa các thực thể văn bản pháp quy ........................... 94 3.5. KẾT LUẬN CHƯƠNG 3 ............................................................................. 104 CHƯƠNG 4. TRÍCH XUẤT KẾT HỢP ĐỒNG THỜI THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN PHÁP QUY TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU ................................................................................................................................... 105 4.1. ĐẶT VẤN ĐỀ .............................................................................................. 106 v 4.2. ĐỀ XUẤT MÔ HÌNH TRÍCH XUẤT KẾT HỢP THỰC THỂ VÀ QUAN HỆ ............................................................................................................................. 108 4.2.1. Kiến trúc mô hình ....................................................................................... 108 4.2.2. Bộ mã hóa câu ............................................................................................ 110 4.2.3. Bộ tăng cường đầu vào ............................................................................... 110 4.2.4. Bộ giải mã .................................................................................................. 112 4.2.5. Bộ dự đoán ................................................................................................. 113 4.2.6. Huấn luyện trích xuất kết hợp .................................................................... 114 4.3. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ ............................................... 114 4.3.1. Thiết lập thực nghiệm................................................................................. 114 4.3.2. Các mô hình thực nghiệm .......................................................................... 115 4.3.3. Huấn luyện mạng ....................................................................................... 121 4.3.4. Kết quả thực nghiệm .................................................................................. 122 4.4. KẾT LUẬN CHƯƠNG 4.................................................................................. 127 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................................................... 129 DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ ............................................................. 132 TÀI LIỆU THAM KHẢO ................................................................................................ 133 vi DANH MỤC CÁC BẢNG Bảng 2.1. Thông tin thống kê trên hai tập dữ liệu .................................................... 58 Bảng 2.2. Loại khía cạnh và quan điểm tương ứng trên hai tập dữ liệu ................... 58 Bảng 2.3. Các mô hình thực nghiệm ......................................................................... 61 Bảng 2.4. Kết quả thực nghiệm trích xuất các loại khía cạnh với mô hình cơ sở .... 62 Bảng 2.5. Kết quả trích xuất các loại khía cạnh của các mô hình đề xuất (tính theo % độ đo F1) .................................................................................................................... 63 Bảng 2.6. Kết quả thực nghiệm phân loại quan điểm (với k=5 từ) ........................... 64 Bảng 2.7. Kết quả độ đo F1 (%) cho phân loại quan điểm (mỗi bộ phân loại cho một loại khía cạnh) với k=5 từ ......................................................................................... 66 Bảng 3.1. Thông tin thống kê về các loại thực thể tham chiếu và số lượng ............. 87 Bảng 3.2. Thông tin thống kê về các loại quan hệ và số lượng ................................ 88 Bảng 3.3. So sánh hiệu năng của các mô hình trích xuất thực thể tham chiếu ......... 91 Bảng 3.4. Hiệu năng của mô hình BiLSTM-CRF trên mỗi loại thực thể tham chiếu được trích xuất .......................................................................................................... 91 Bảng 3.5. Hiệu năng trên các loại thực thể lồng nhau .............................................. 92 Bảng 3.6. Thống kê lỗi nhiều nhất theo từng thực thể tham chiếu ........................... 93 Bảng 3.7. Một số trường hợp mô hình BiLSTM-CRF trích xuất được đúng trong khi mô hình CRF trích xuất sai ....................................................................................... 94 Bảng 3.8. Ví dụ trích chọn thông tin liên quan đến thực thể trong một đoạn văn bản ................................................................................................................................... 97 Bảng 3.9. Các phương pháp trích chọn thông tin liên quan đến thực thể ................. 98 Bảng 3.10. Kết quả phân loại quan hệ với các phương pháp trích chọn thông tin liên quan thực thể (tính theo % độ đo F1) ........................................................................ 98 Bảng 3.11. Kết quả phân loại quan hệ với các phương pháp trích chọn đặc trưng (%) ................................................................................................................................. 100 Bảng 3.12. Phân tích lỗi phân loại quan hệ ............................................................. 101 Bảng 3.13. Kết quả phân loại quan hệ với mô hình BiLSTM (%) ......................... 103 vii Bảng 4.1. Các siêu tham số của mô hình ................................................................ 122 Bảng 4.2. Kết quả thực nghiệm của các mô hình trích xuất thực thể tham chiếu và quan hệ .................................................................................................................... 123 Bảng 4.3. Số lượng tham số và thời gian huấn luyện của các mô hình trích xuất thực thể tham chiếu và quan hệ ....................................................................................... 124 Bảng 4.4. Hiệu năng của các mô hình trích xuất thực thể tham chiếu và quan hệ theo độ phức tạp của các câu văn bản pháp quy đầu vào tính theo độ đo F1 (%) .......... 125 Bảng 4.5. Tác dụng của bộ tăng cường đầu vào ..................................................... 126 Bảng 4.6. Ảnh hưởng của số lớp giải mã tới hiệu quả của mô hình đề xuất .......... 127 viii DANH MỤC CÁC HÌNH VẼ Hình 1.1. Các nhóm bài toán trích xuất thông tin ..................................................... 12 Hình 1.2. Trường ngẫu nhiên có điều kiện chuỗi tuyến tính .................................... 21 Hình 1.3. Minh họa một mạng nơ-ron hồi quy cơ bản ............................................. 24 Hình 1.4. Kiến trúc của mô hình Transformer [117] ................................................ 29 Hình 2.1. Trích xuất khía cạnh và phân loại quan điểm ........................................... 47 Hình 2.2. Phương pháp đề xuất cho trích xuất khía cạnh và phân loại quan điểm tiếng Việt ............................................................................................................................ 49 Hình 2.3. Một ví dụ của cây phụ thuộc ..................................................................... 54 Hình 2.4. Các câu trong một bài đánh giá được gán nhãn trong tập dữ liệu tiếng Việt ................................................................................................................................... 57 Hình 3.1. Ví dụ thực thể tham chiếu và mối quan hệ giữa các thực thể tham chiếu với văn bản pháp quy đang xem xét ................................................................................ 71 Hình 3.2. Ví dụ một câu trong văn bản pháp quy và chuỗi nhãn được gán tương ứng ................................................................................................................................... 75 Hình 3.3. Các mô hình BiLSTM và BiLSTM-CRF cho trích xuất thực thể tham chiếu ................................................................................................................................... 78 Hình 3.4. Sơ đồ các bước đề xuất giải quyết nhiệm vụ phân loại quan hệ giữa các thực thể trong văn bản pháp quy ............................................................................... 79 Hình 3.5. Mô hình BiLSTM cho phân loại quan hệ giữa các thực thể ..................... 84 Hình 3.6. Văn bản pháp quy được gán nhãn thực thể tham chiếu và quan hệ .......... 87 Hình 3.7. So sánh các bộ phân loại khác nhau .......................................................... 95 Hình 4.1. Minh họa kiến trúc của mô hình đề xuất ................................................. 109 Hình 4.2. Bộ tăng cường đầu vào............................................................................ 111 ix DANH MỤC CÁC TỪ VIẾT TẮT TỪ VIẾT TẮT DIỄN GIẢI TIẾNG ANH TIẾNG VIỆT BERT Bidirectional Encoder Representations from Transformers Biểu diễn thể hiện mã hóa hai chiều từ Transformer BiLSTM Bidirectional long short-term memory Mô hình mạng bộ nhớ dài ngắn hai chiều CNN Convolutional neural network Mạng nơ-ron tích chập CRF Conditional random field Trường ngẫu nhiên có điều điều kiện CRL Cross language FN False negative Âm tính giả (mẫu mang nhãn dương được phân lớp vào lớp âm) FNR False negative rate Tỉ lệ âm tính giả FP False positive Dương tính giả (mẫu mang nhãn âm được phân lớp vào lớp dương) FPR False positive rate Tỉ lệ dương tính giả HMM Hidden Markov model Mô hình Markov ẩn IE Information Extraction Trích xuất thông tin LSTM Long short-term memory Mô hình mạng bộ nhớ dài ngắn MEMM Maximum Entropy Markov model Mô hình Markov entropy cực đại x MLP Multilayer perceptron Mô hình Perceptron nhiều lớp NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NN Neural Network Mạng nơ-ron PhoBERT Pho Bidirectional Encoder Representations from Transformers Biểu diễn thể hiện mã hóa hai chiều từ Transformer cho tiếng Việt. RNN Recurrent Neural Networks Mạng nơ-ron hồi quy SPN Set Prediction Networks Mạng dự đoán theo tập hợp SVM Support Vector Machines Máy véc-tơ tựa TF-IDF Term Frequency - Inverse Document Frequency Tần số xuất hiện của một từ trong một văn bản - Tần số nghịch đảo của một từ trong tập văn bản TN True Negative Âm tính thật (mẫu mang nhãn âm được phân lớp đúng vào lớp âm) TP True Positive Dương tính thật (mẫu mang nhãn dương được phân lớp đúng vào lớp dương) VLSP Vietnamese Language and Speech Processing Hội nghị thường niên về Xử lý ngôn ngữ tự nhiên và tiếng nói cho tiếng Việt 1 PHẦN MỞ ĐẦU 1. TÍNH CẤP THIẾT CỦA LUẬN ÁN Ngày nay, dữ liệu được coi là một nguồn tài nguyên vô cùng quan trọng với sự gia tăng nhanh chóng theo thời gian. Một phần rất lớn dữ liệu thường được trình bày dưới các dạng văn bản, tài liệu không có cấu trúc hoặc bán cấu trúc và hoàn toàn miễn phí. Tuy nhiên, việc tìm kiếm và trích chọn ra được các thông tin người dùng cần từ những nguồn dữ liệu này là điều không dễ dàng. Việc này đã thúc đẩy những nghiên cứu về các phương pháp, kỹ thuật nhằm phân tích dữ liệu và trích xuất thông tin từ văn bản một cách hiệu quả. Trích xuất thông tin (Information Extraction) thực hiện trích xuất tự động những thông tin có cấu trúc như các thực thể, các ý kiến/quan điểm mô tả thực thể, mối quan hệ giữa các thực thể, hay các sự kiện từ các nguồn dữ liệu không có cấu trúc hoặc bán cấu trúc. Mục tiêu cuối cùng là chuyển thông tin trong văn bản sang một hình thức dễ tiếp cận (/truy xuất) hơn để có thể tiếp tục xử lý, nhằm hỗ trợ tốt hơn cho người dùng. Hiện tại trên thực tế có khá nhiều ứng dụng của trích xuất thông tin, từ các ứng dụng quản lý thông tin cá nhân, tới các ứng dụng trong doanh nghiệp (như theo dõi tin tức, chăm sóc khách hàng, làm sạch dữ liệu), đến các ứng dụng trong các lĩnh vực khoa học (ví dụ, tin sinh học), và đặc biệt là sự phát triển mạnh mẽ của các ứng dụng hướng web (như cơ sở dữ liệu trích dẫn, cơ sở dữ liệu ý kiến/quan điểm, các trang web cộng đồng, so sánh khi mua sắm) [40,101]. Có hai nhóm phương pháp tiếp cận chính được sử dụng để giải quyết các nhiệm vụ trích xuất thông tin là các phương pháp dựa trên luật (rule-based) và các phương pháp dựa trên học máy (learning-based). Các phương pháp dựa trên luật đòi hỏi người thực hiện phải là các chuyên gia có kiến thức sâu về các miền lĩnh vực và ngôn ngữ để có thể phát triển các luật trích xuất hiệu quả. Phương pháp này không 2 có khả năng tự động cập nhật các luật do nguồn dữ liệu đầu vào thường ở dạng không có cấu trúc và thường xuyên thay đổi, ngoài ra phương pháp cũng không có khả năng xử lý những thông tin tạm thời và không tường minh. Các phương pháp dựa trên học máy được thực hiện bằng cách sử dụng các

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_cac_phuong_phap_hoc_may_cho_trich_xuat_th.pdf
  • pdfLA_Nguyen Thi Thanh Thuy_TT.pdf
  • pdfNguyen Thi Thanh Thuy_E.pdf
  • pdfNguyen Thi Thanh Thuy_V.pdf
  • pdfQĐ_ Nguyễn Thị Thanh Thủy.pdf
Luận văn liên quan