Ngày nay, dữ liệu được coi là một nguồn tài nguyên vô cùng quan trọng với
sự gia tăng nhanh chóng theo thời gian. Một phần rất lớn dữ liệu thường được trình
bày dưới các dạng văn bản, tài liệu không có cấu trúc hoặc bán cấu trúc và hoàn toàn
miễn phí. Tuy nhiên, việc tìm kiếm và trích chọn ra được các thông tin người dùng
cần từ những nguồn dữ liệu này là điều không dễ dàng. Việc này đã thúc đẩy những
nghiên cứu về các phương pháp, kỹ thuật nhằm phân tích dữ liệu và trích xuất thông
tin từ văn bản một cách hiệu quả.
Trích xuất thông tin (Information Extraction) thực hiện trích xuất tự động
những thông tin có cấu trúc như các thực thể, các ý kiến/quan điểm mô tả thực thể,
mối quan hệ giữa các thực thể, hay các sự kiện từ các nguồn dữ liệu không có cấu
trúc hoặc bán cấu trúc. Mục tiêu cuối cùng là chuyển thông tin trong văn bản sang
một hình thức dễ tiếp cận (/truy xuất) hơn để có thể tiếp tục xử lý, nhằm hỗ trợ tốt
hơn cho người dùng.
Hiện tại trên thực tế có khá nhiều ứng dụng của trích xuất thông tin, từ các ứng
dụng quản lý thông tin cá nhân, tới các ứng dụng trong doanh nghiệp (như theo dõi
tin tức, chăm sóc khách hàng, làm sạch dữ liệu), đến các ứng dụng trong các lĩnh vực
khoa học (ví dụ, tin sinh học), và đặc biệt là sự phát triển mạnh mẽ của các ứng dụng
hướng web (như cơ sở dữ liệu trích dẫn, cơ sở dữ liệu ý kiến/quan điểm, các trang
web cộng đồng, so sánh khi mua sắm) [40,101].
158 trang |
Chia sẻ: Tài Chi | Ngày: 27/11/2023 | Lượt xem: 535 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN THỊ THANH THỦY
NGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY CHO
TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN
LUẬN ÁN TIẾN SĨ KỸ THUẬT
HÀ NỘI – 2023
BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN THỊ THANH THỦY
NGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY CHO
TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 9.48.01.04
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. GS.TS. TỪ MINH PHƯƠNG
2. PGS.TS. NGÔ XUÂN BÁCH
HÀ NỘI – 2023
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự hướng
dẫn của GS.TS. Từ Minh Phương và PGS.TS. Ngô Xuân Bách. Các kết quả được viết
chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào
luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong
các công trình nào khác.
Hà Nội, ngày . tháng . năm 2023
Nghiên cứu sinh
Nguyễn Thị Thanh Thủy
ii
LỜI CẢM ƠN
Trong quá trình học tập, nghiên cứu để hoàn thành đề tài luận án “Nghiên cứu
các phương pháp học máy cho trích xuất thông tin tự động từ văn bản”, ngoài sự nỗ
lực của cá nhân, tôi đã nhận được rất nhiều sự giúp đỡ, tạo điều kiện của các Thầy
hướng dẫn, nhà trường, các nhà khoa học, đơn vị công tác và gia đình. Tôi xin bày tỏ
lòng biết ơn chân thành về sự giúp đỡ đó.
Đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy GS.TS. Từ Minh Phương
và Thầy PGS.TS. Ngô Xuân Bách đã tận tình hướng dẫn, chỉ bảo, giúp đỡ và đồng
hành cùng tôi trong suốt quá trình thực hiện nghiên cứu và hoàn thành luận án.
Tôi xin trân trọng cảm ơn Lab Học máy và Ứng dụng, Khoa Quốc tế và Đào
tạo Sau Đại học và Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông đã tạo điều
kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án. Tôi xin cảm ơn các Thầy
Lãnh đạo và tập thể cán bộ, giảng viên Khoa Công nghệ thông tin 1, Học viện Công
nghệ Bưu chính Viễn thông đã luôn cổ vũ, động viên tôi trong quá trình nghiên cứu.
Tôi xin trân trọng cảm ơn Quỹ Đổi mới sáng tạo Vingroup (VINIF), Viện
nghiên cứu VINBIGDATA, Tập đoàn Vingroup đã trao học bổng học tập cho tôi
trong thời gian tôi làm nghiên cứu luận án.
Tôi xin gửi lời cảm ơn chân thành tới tất cả những người bạn luôn chia sẻ và
động viên tôi trong những lúc khó khăn. Cuối cùng, tôi xin bày tỏ lòng biết ơn đối
với gia đình đã luôn bên cạnh ủng hộ, động viên, tạo mọi điều kiện hỗ trợ tôi.
Hà Nội, ngày . tháng . năm 2023
Nghiên cứu sinh
iii
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................................. i
LỜI CẢM ƠN ...................................................................................................................... ii
MỤC LỤC ........................................................................................................................... iii
DANH MỤC CÁC BẢNG ................................................................................................ vi
DANH MỤC CÁC HÌNH VẼ ........................................................................................ viii
DANH MỤC CÁC TỪ VIẾT TẮT ................................................................................. ix
PHẦN MỞ ĐẦU ................................................................................................................. 1
1. TÍNH CẤP THIẾT CỦA LUẬN ÁN .................................................................. 1
2. MỤC TIÊU VÀ PHẠM VI NGHIÊN CỨU LUẬN ÁN .................................... 3
3. CÁC ĐÓNG GÓP CỦA LUẬN ÁN ................................................................... 6
4. BỐ CỤC CỦA LUẬN ÁN .................................................................................. 8
CHƯƠNG 1. TỔNG QUAN VỀ TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN
BẢN .................................................................................................................................... 10
1.1. GIỚI THIỆU VỀ TRÍCH XUẤT THÔNG TIN ........................................... 10
1.2. ỨNG DỤNG CỦA TRÍCH XUẤT THÔNG TIN ........................................ 13
1.3. CÁC PHƯƠNG PHÁP TIẾP CẬN ............................................................... 15
1.3.1. Phương pháp tiếp cận dựa trên phân loại ............................................... 16
1.3.2. Phương pháp tiếp cận dựa trên gán nhãn chuỗi ...................................... 19
1.3.3. Phương pháp tiếp cận dựa trên học sâu .................................................. 22
1.3.4. Phương pháp thực hiện thực nghiệm và đánh giá kết quả ...................... 31
1.4. KHẢO SÁT CÁC NGHIÊN CỨU LIÊN QUAN ......................................... 33
1.5. KẾT LUẬN CHƯƠNG 1 ............................................................................... 42
CHƯƠNG 2. TRÍCH XUẤT KHÍA CẠNH VÀ PHÂN LOẠI QUAN ĐIỂM CHO
TIẾNG VIỆT TẬN DỤNG NGUỒN DỮ LIỆU ĐÃ ĐƯỢC GÁN NHÃN TỪ NGÔN
NGỮ KHÁC ...................................................................................................................... 44
iv
2.1. ĐẶT VẤN ĐỀ ................................................................................................ 45
2.2. ĐỀ XUẤT PHƯƠNG PHÁP TRÍCH XUẤT KHÍA CẠNH VÀ PHÂN LOẠI
QUAN ĐIỂM CHO TIẾNG VIỆT ........................................................................ 49
2.2.1. Xây dựng dữ liệu huấn luyện ................................................................... 50
2.2.2. Trích chọn đặc trưng ................................................................................ 51
2.2.3. Các mô hình huấn luyện .......................................................................... 54
2.3. XÂY DỰNG TẬP DỮ LIỆU ......................................................................... 55
2.4. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ ............................................ 59
2.4.1. Thiết lập thực nghiệm .............................................................................. 59
2.4.2. Triển khai các mô hình thực nghiệm ....................................................... 60
2.4.3. Kết quả thực nghiệm và phân tích ........................................................... 61
2.5. KẾT LUẬN CHƯƠNG 2 ............................................................................... 66
CHƯƠNG 3. TRÍCH XUẤT THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN PHÁP
QUY TIẾNG VIỆT SỬ DỤNG HỌC MÁY TRUYỀN THỐNG VÀ HỌC SÂU ... 68
3.1. ĐẶT VẤN ĐỀ ................................................................................................ 70
3.2. ĐỀ XUẤT PHƯƠNG PHÁP TRÍCH XUẤT THỰC THỂ VÀ QUAN HỆ .. 74
3.2.1. Trích xuất thực thể tham chiếu ................................................................ 74
3.2.2. Phân loại quan hệ giữa các thực thể văn bản pháp quy ........................... 78
3.3. XÂY DỰNG TẬP DỮ LIỆU ......................................................................... 84
3.4. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ ............................................ 88
3.4.1. Thiết lập thực nghiệm .............................................................................. 88
3.4.2. Trích xuất thực thể tham chiếu ................................................................ 89
3.4.3. Phân loại quan hệ giữa các thực thể văn bản pháp quy ........................... 94
3.5. KẾT LUẬN CHƯƠNG 3 ............................................................................. 104
CHƯƠNG 4. TRÍCH XUẤT KẾT HỢP ĐỒNG THỜI THỰC THỂ VÀ QUAN HỆ
TRONG VĂN BẢN PHÁP QUY TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC
SÂU ................................................................................................................................... 105
4.1. ĐẶT VẤN ĐỀ .............................................................................................. 106
v
4.2. ĐỀ XUẤT MÔ HÌNH TRÍCH XUẤT KẾT HỢP THỰC THỂ VÀ QUAN HỆ
............................................................................................................................. 108
4.2.1. Kiến trúc mô hình ....................................................................................... 108
4.2.2. Bộ mã hóa câu ............................................................................................ 110
4.2.3. Bộ tăng cường đầu vào ............................................................................... 110
4.2.4. Bộ giải mã .................................................................................................. 112
4.2.5. Bộ dự đoán ................................................................................................. 113
4.2.6. Huấn luyện trích xuất kết hợp .................................................................... 114
4.3. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ ............................................... 114
4.3.1. Thiết lập thực nghiệm................................................................................. 114
4.3.2. Các mô hình thực nghiệm .......................................................................... 115
4.3.3. Huấn luyện mạng ....................................................................................... 121
4.3.4. Kết quả thực nghiệm .................................................................................. 122
4.4. KẾT LUẬN CHƯƠNG 4.................................................................................. 127
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................................................... 129
DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ ............................................................. 132
TÀI LIỆU THAM KHẢO ................................................................................................ 133
vi
DANH MỤC CÁC BẢNG
Bảng 2.1. Thông tin thống kê trên hai tập dữ liệu .................................................... 58
Bảng 2.2. Loại khía cạnh và quan điểm tương ứng trên hai tập dữ liệu ................... 58
Bảng 2.3. Các mô hình thực nghiệm ......................................................................... 61
Bảng 2.4. Kết quả thực nghiệm trích xuất các loại khía cạnh với mô hình cơ sở .... 62
Bảng 2.5. Kết quả trích xuất các loại khía cạnh của các mô hình đề xuất (tính theo %
độ đo F1) .................................................................................................................... 63
Bảng 2.6. Kết quả thực nghiệm phân loại quan điểm (với k=5 từ) ........................... 64
Bảng 2.7. Kết quả độ đo F1 (%) cho phân loại quan điểm (mỗi bộ phân loại cho một
loại khía cạnh) với k=5 từ ......................................................................................... 66
Bảng 3.1. Thông tin thống kê về các loại thực thể tham chiếu và số lượng ............. 87
Bảng 3.2. Thông tin thống kê về các loại quan hệ và số lượng ................................ 88
Bảng 3.3. So sánh hiệu năng của các mô hình trích xuất thực thể tham chiếu ......... 91
Bảng 3.4. Hiệu năng của mô hình BiLSTM-CRF trên mỗi loại thực thể tham chiếu
được trích xuất .......................................................................................................... 91
Bảng 3.5. Hiệu năng trên các loại thực thể lồng nhau .............................................. 92
Bảng 3.6. Thống kê lỗi nhiều nhất theo từng thực thể tham chiếu ........................... 93
Bảng 3.7. Một số trường hợp mô hình BiLSTM-CRF trích xuất được đúng trong khi
mô hình CRF trích xuất sai ....................................................................................... 94
Bảng 3.8. Ví dụ trích chọn thông tin liên quan đến thực thể trong một đoạn văn bản
................................................................................................................................... 97
Bảng 3.9. Các phương pháp trích chọn thông tin liên quan đến thực thể ................. 98
Bảng 3.10. Kết quả phân loại quan hệ với các phương pháp trích chọn thông tin liên
quan thực thể (tính theo % độ đo F1) ........................................................................ 98
Bảng 3.11. Kết quả phân loại quan hệ với các phương pháp trích chọn đặc trưng (%)
................................................................................................................................. 100
Bảng 3.12. Phân tích lỗi phân loại quan hệ ............................................................. 101
Bảng 3.13. Kết quả phân loại quan hệ với mô hình BiLSTM (%) ......................... 103
vii
Bảng 4.1. Các siêu tham số của mô hình ................................................................ 122
Bảng 4.2. Kết quả thực nghiệm của các mô hình trích xuất thực thể tham chiếu và
quan hệ .................................................................................................................... 123
Bảng 4.3. Số lượng tham số và thời gian huấn luyện của các mô hình trích xuất thực
thể tham chiếu và quan hệ ....................................................................................... 124
Bảng 4.4. Hiệu năng của các mô hình trích xuất thực thể tham chiếu và quan hệ theo
độ phức tạp của các câu văn bản pháp quy đầu vào tính theo độ đo F1 (%) .......... 125
Bảng 4.5. Tác dụng của bộ tăng cường đầu vào ..................................................... 126
Bảng 4.6. Ảnh hưởng của số lớp giải mã tới hiệu quả của mô hình đề xuất .......... 127
viii
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Các nhóm bài toán trích xuất thông tin ..................................................... 12
Hình 1.2. Trường ngẫu nhiên có điều kiện chuỗi tuyến tính .................................... 21
Hình 1.3. Minh họa một mạng nơ-ron hồi quy cơ bản ............................................. 24
Hình 1.4. Kiến trúc của mô hình Transformer [117] ................................................ 29
Hình 2.1. Trích xuất khía cạnh và phân loại quan điểm ........................................... 47
Hình 2.2. Phương pháp đề xuất cho trích xuất khía cạnh và phân loại quan điểm tiếng
Việt ............................................................................................................................ 49
Hình 2.3. Một ví dụ của cây phụ thuộc ..................................................................... 54
Hình 2.4. Các câu trong một bài đánh giá được gán nhãn trong tập dữ liệu tiếng Việt
................................................................................................................................... 57
Hình 3.1. Ví dụ thực thể tham chiếu và mối quan hệ giữa các thực thể tham chiếu với
văn bản pháp quy đang xem xét ................................................................................ 71
Hình 3.2. Ví dụ một câu trong văn bản pháp quy và chuỗi nhãn được gán tương ứng
................................................................................................................................... 75
Hình 3.3. Các mô hình BiLSTM và BiLSTM-CRF cho trích xuất thực thể tham chiếu
................................................................................................................................... 78
Hình 3.4. Sơ đồ các bước đề xuất giải quyết nhiệm vụ phân loại quan hệ giữa các
thực thể trong văn bản pháp quy ............................................................................... 79
Hình 3.5. Mô hình BiLSTM cho phân loại quan hệ giữa các thực thể ..................... 84
Hình 3.6. Văn bản pháp quy được gán nhãn thực thể tham chiếu và quan hệ .......... 87
Hình 3.7. So sánh các bộ phân loại khác nhau .......................................................... 95
Hình 4.1. Minh họa kiến trúc của mô hình đề xuất ................................................. 109
Hình 4.2. Bộ tăng cường đầu vào............................................................................ 111
ix
DANH MỤC CÁC TỪ VIẾT TẮT
TỪ VIẾT
TẮT
DIỄN GIẢI
TIẾNG ANH TIẾNG VIỆT
BERT Bidirectional Encoder
Representations from
Transformers
Biểu diễn thể hiện mã hóa hai
chiều từ Transformer
BiLSTM Bidirectional long short-term
memory
Mô hình mạng bộ nhớ dài ngắn hai
chiều
CNN Convolutional neural network Mạng nơ-ron tích chập
CRF Conditional random field Trường ngẫu nhiên có điều điều
kiện
CRL Cross language
FN False negative Âm tính giả (mẫu mang nhãn
dương được phân lớp vào lớp âm)
FNR False negative rate Tỉ lệ âm tính giả
FP False positive Dương tính giả (mẫu mang nhãn
âm được phân lớp vào lớp dương)
FPR False positive rate Tỉ lệ dương tính giả
HMM Hidden Markov model Mô hình Markov ẩn
IE Information Extraction Trích xuất thông tin
LSTM Long short-term memory Mô hình mạng bộ nhớ dài ngắn
MEMM Maximum Entropy Markov
model
Mô hình Markov entropy cực đại
x
MLP Multilayer perceptron Mô hình Perceptron nhiều lớp
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
NN Neural Network Mạng nơ-ron
PhoBERT Pho Bidirectional Encoder
Representations from
Transformers
Biểu diễn thể hiện mã hóa hai
chiều từ Transformer cho tiếng
Việt.
RNN Recurrent Neural Networks Mạng nơ-ron hồi quy
SPN Set Prediction Networks Mạng dự đoán theo tập hợp
SVM Support Vector Machines Máy véc-tơ tựa
TF-IDF Term Frequency - Inverse
Document Frequency
Tần số xuất hiện của một từ trong
một văn bản - Tần số nghịch đảo
của một từ trong tập văn bản
TN True Negative
Âm tính thật (mẫu mang nhãn âm
được phân lớp đúng vào lớp âm)
TP True Positive
Dương tính thật (mẫu mang nhãn
dương được phân lớp đúng vào lớp
dương)
VLSP Vietnamese Language and
Speech Processing
Hội nghị thường niên về Xử lý
ngôn ngữ tự nhiên và tiếng nói cho
tiếng Việt
1
PHẦN MỞ ĐẦU
1. TÍNH CẤP THIẾT CỦA LUẬN ÁN
Ngày nay, dữ liệu được coi là một nguồn tài nguyên vô cùng quan trọng với
sự gia tăng nhanh chóng theo thời gian. Một phần rất lớn dữ liệu thường được trình
bày dưới các dạng văn bản, tài liệu không có cấu trúc hoặc bán cấu trúc và hoàn toàn
miễn phí. Tuy nhiên, việc tìm kiếm và trích chọn ra được các thông tin người dùng
cần từ những nguồn dữ liệu này là điều không dễ dàng. Việc này đã thúc đẩy những
nghiên cứu về các phương pháp, kỹ thuật nhằm phân tích dữ liệu và trích xuất thông
tin từ văn bản một cách hiệu quả.
Trích xuất thông tin (Information Extraction) thực hiện trích xuất tự động
những thông tin có cấu trúc như các thực thể, các ý kiến/quan điểm mô tả thực thể,
mối quan hệ giữa các thực thể, hay các sự kiện từ các nguồn dữ liệu không có cấu
trúc hoặc bán cấu trúc. Mục tiêu cuối cùng là chuyển thông tin trong văn bản sang
một hình thức dễ tiếp cận (/truy xuất) hơn để có thể tiếp tục xử lý, nhằm hỗ trợ tốt
hơn cho người dùng.
Hiện tại trên thực tế có khá nhiều ứng dụng của trích xuất thông tin, từ các ứng
dụng quản lý thông tin cá nhân, tới các ứng dụng trong doanh nghiệp (như theo dõi
tin tức, chăm sóc khách hàng, làm sạch dữ liệu), đến các ứng dụng trong các lĩnh vực
khoa học (ví dụ, tin sinh học), và đặc biệt là sự phát triển mạnh mẽ của các ứng dụng
hướng web (như cơ sở dữ liệu trích dẫn, cơ sở dữ liệu ý kiến/quan điểm, các trang
web cộng đồng, so sánh khi mua sắm) [40,101].
Có hai nhóm phương pháp tiếp cận chính được sử dụng để giải quyết các
nhiệm vụ trích xuất thông tin là các phương pháp dựa trên luật (rule-based) và các
phương pháp dựa trên học máy (learning-based). Các phương pháp dựa trên luật đòi
hỏi người thực hiện phải là các chuyên gia có kiến thức sâu về các miền lĩnh vực và
ngôn ngữ để có thể phát triển các luật trích xuất hiệu quả. Phương pháp này không
2
có khả năng tự động cập nhật các luật do nguồn dữ liệu đầu vào thường ở dạng không
có cấu trúc và thường xuyên thay đổi, ngoài ra phương pháp cũng không có khả năng
xử lý những thông tin tạm thời và không tường minh. Các phương pháp dựa trên học
máy được thực hiện bằng cách sử dụng các