Thay vì trả về một danh sách các tài liệu liên quan chứa đựng các từ có trong câu hỏi
giống như các cỗ máy tìm kiếm, thì hệ thống hỏi đáp đưa ra câu trả lời chính xác đáp lại
mong muốn của người dùng. Phân tích câu hỏi là thành phần đầu tiên của bất kỳ một hệ
thống hỏi đáp nào. Mục tiêu của thành phần này là tạo ra một bộ biểu diễn trung gian để
sử dụng trong phần còn lại của hệ thống. Trong khóa luận này, chúng tôi xin giới thiệu
một phương pháp phân tích câu hỏi. Phương pháp của chúng tôi đem lại một kết quả
khả quan, góp phần xây dựng nên một hệ thống hỏi đáp tiếng Việt.
104 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2077 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Khóa luận Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
--------
Nguyễn Quốc Đạt
PHƢƠNG PHÁP PHÂN TÍCH CÂU HỎI
CHO HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
--------
Nguyễn Quốc Đạt
PHƢƠNG PHÁP PHÂN TÍCH CÂU HỎI
CHO HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Giảng viên hƣớng dẫn: TS. Phạm Bảo Sơn
HÀ NỘI – 2009
To My Family
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
i
Lời cảm ơn
Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn của tôi là tiến
sĩ Phạm Bảo Sơn. Thầy đã hướng dẫn, hỗ trợ cũng như truyền đạt những kinh nghiệm
quý báu giúp tôi hoàn thành khóa luận của mình.
Tôi xin chân thành cảm ơn tiến sĩ Bùi Thế Duy. Thầy đã giúp đỡ và tạo điều
kiện thuận lợi cho tôi trong quá trình thực hiện khóa luận.
Tôi xin chân thành cảm ơn các bạn: Nguyễn Quốc Đại, Nguyễn Bá Đạt, Phạm
Đức Đăng, Trần Bình Giang. Những người bạn cùng thực tập với tôi trong phòng thí
nghiệm. Các bạn đã đóng góp cho tôi nhiều ý kiến bổ ích.
Tôi xin chân thành cảm ơn hai bạn: Ngô Thị Thảo và Tạ Thị Bích Huyền đã
giúp đỡ tôi trong lúc tôi khó khăn.
Xin cám ơn những người bạn đã luôn ở bên cạnh đã quan tâm, động viên và
ủng hộ tôi.
Con cảm ơn bố mẹ đã sinh thành, nuôi dưỡng, chăm sóc và động viên con. Con
cảm ơn bố mẹ rất nhiều.
Hà Nội, ngày 23 tháng 5 năm 2009
Nguyễn Quốc Đạt
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
ii
Tóm tắt
Thay vì trả về một danh sách các tài liệu liên quan chứa đựng các từ có trong câu hỏi
giống như các cỗ máy tìm kiếm, thì hệ thống hỏi đáp đưa ra câu trả lời chính xác đáp lại
mong muốn của người dùng. Phân tích câu hỏi là thành phần đầu tiên của bất kỳ một hệ
thống hỏi đáp nào. Mục tiêu của thành phần này là tạo ra một bộ biểu diễn trung gian để
sử dụng trong phần còn lại của hệ thống. Trong khóa luận này, chúng tôi xin giới thiệu
một phương pháp phân tích câu hỏi. Phương pháp của chúng tôi đem lại một kết quả
khả quan, góp phần xây dựng nên một hệ thống hỏi đáp tiếng Việt.
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
iii
Mục lục
Lời cảm ơn ...................................................................................................................... i
Tóm tắt ........................................................................................................................... ii
Mục lục ......................................................................................................................... iii
Danh sách từ viết tắt ...................................................................................................... v
Danh sách hình vẽ ........................................................................................................ vi
Danh sách bảng .......................................................................................................... viii
Chƣơng 1. Giới thiệu ..................................................................................................... 1
Chƣơng 2. Phân tích câu hỏi trong các hệ thống hỏi đáp ......................................... 3
2.1. Phân loại câu hỏi .................................................................................................. 3
2.1.1. Sự phân loại câu hỏi ....................................................................................... 4
2.1.2. Phân loại câu hỏi dựa trên loại câu trả lời ...................................................... 5
2.1.3. Giới thiệu các phương pháp phân loại câu hỏi ............................................... 6
2.1.4. Phân loại câu hỏi sử dụng mô hình biểu thức chính quy ............................... 6
2.1.4.1. Giới thiệu về biểu thức chính quy ........................................................... 6
2.1.4.2. Phân loại câu hỏi sử dụng biểu thức chính quy ....................................... 9
2.1.5. Phân loại câu hỏi sử dụng mô hình ngôn ngữ .............................................. 10
2.1.5.1. Phân lớp câu hỏi sử dụng mô hình unigram .......................................... 11
2.1.5.2. Phân lớp câu hỏi sử dụng mô hình bigram ............................................ 13
2.1.5.3. Kết hợp hai mô hình unigram và bigram .............................................. 14
2.1.6. Kết hợp mô hình ngôn ngữ với mô hình biểu thức chính quy ..................... 15
2.1.7. Phân loại câu hỏi sử dụng các thuật toán học máy ...................................... 16
2.2. Phân tích câu hỏi trong các hệ thống hỏi đáp sử dụng cơ sở dữ liệu ................ 18
2.2.1. Các hệ thống so khớp mẫu ........................................................................... 18
2.2.2. Các hệ thống dựa trên cú pháp ..................................................................... 20
2.2.3. Các hệ thống sử dụng văn phạm ngữ nghĩa ................................................. 22
2.3. Chú giải ngữ nghĩa phục vụ phân tích câu hỏi trong các hệ thống hỏi đáp ...... 26
Chƣơng 3. GATE ......................................................................................................... 28
3.1. Giới thiệu GATE ................................................................................................. 28
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
iv
3.2. Trích chọn thông tin trong GATE ....................................................................... 31
3.3. JAPE ................................................................................................................... 33
3.3.1. Giới thiệu về JAPE ....................................................................................... 33
3.3.2. Thiết lập lựa chọn ......................................................................................... 33
3.3.3. Khớp mẫu ..................................................................................................... 34
3.3.3.1. Thành phần thay thế (Macro) ................................................................ 35
3.3.3.2. Ngữ cảnh trong văn phạm ..................................................................... 36
3.3.4. Một ví dụ đơn giản về JAPE ........................................................................ 36
3.3.5. Sử dụng độ ưu tiên ....................................................................................... 37
3.3.6. Sử dụng Java cho JAPE ............................................................................... 37
Chƣơng 4. Phƣơng pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt ....... 38
4.1. Kiến trúc hệ thống ............................................................................................... 38
4.2. Tiền xử lý ............................................................................................................. 42
4.2.1. Xác định cụm từ để hỏi chuẩn trong câu hỏi ngôn ngữ tự nhiên ................. 43
4.2.2. Tạo chú giải ngữ nghĩa cho các từ đặc biệt .................................................. 47
4.3. Phân tích cú pháp ............................................................................................... 49
4.3.1. Xác định cụm danh từ trong câu hỏi ............................................................ 49
4.3.2. Mối quan hệ .................................................................................................. 54
4.4. Phân tích ngữ nghĩa ............................................................................................ 58
4.4.1. Phân loại câu hỏi .......................................................................................... 58
4.4.2. So khớp mẫu ................................................................................................. 63
4.4.2.1. Cấu tạo của câu hỏi ............................................................................... 65
4.4.2.2. Bộ biểu diễn trung gian của câu hỏi ...................................................... 71
Chƣơng 5. Kết quả thực nghiệm ................................................................................ 76
Chƣơng 6. Kết luận và hƣớng phát triển .................................................................. 80
Phụ lục A. Chƣơng trình nhúng Java vào JAPE ...................................................... 82
Phụ lục B. Bảng nhãn từ loại tiếng Việt ................................................................... 84
Phụ lục C. Danh sách câu hỏi thực nghiệm ............................................................... 86
Tài liệu tham khảo ....................................................................................................... 90
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
v
Danh sách từ viết tắt
ANNIE
API
GATE
IE
JAPE
NER
A New-Nearly Information Extraction
Application Program Interface
General Architecture for Text Engineering
Information Extraction
Java Annotations Pattern Engine
Named Entity Recognitioin
SRW Sematically Related Words
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
vi
Danh sách hình vẽ
Hình 2-1: Văn phạm mô tả cấu trúc cú pháp câu .......................................................... 20
Hình 2-2: Cây cú pháp trong một hệ thống dựa trên cú pháp ....................................... 20
Hình 2-3: Một văn phạm ngữ nghĩa .............................................................................. 22
Hình 2-4: Cây cú pháp-ngữ nghĩa trong một văn phạm ngữ nghĩa ............................... 23
Hình 2-5: Cây cú pháp ngữ nghĩa của câu hỏi: “Tìm các sinh viên học ít nhất 2 môn do
giáo viên A dạy?” .......................................................................................................... 25
Hình 2-6: Kiến trúc của Aqualog ................................................................................... 27
Hình 3-1: Kiến trúc của GATE ...................................................................................... 28
Hình 3-2: Chú giải ngữ nghĩa trong GATE ................................................................... 30
Hình 4-1: Kiến trúc chung của một hệ thống trả lời ngôn ngữ tự nhiên ....................... 38
Hình 4-2: Các module của thành phần xử lý câu hỏi ngôn ngữ tự nhiên ...................... 39
Hình 4-3: Đầu ra của module phân tích câu hỏi tiếng Việt ........................................... 41
Hình 4-4: Giao diện GATE khi sử dụng Coltech.NLP.Tokenizer ................................. 42
Hình 4-5: Một số từ để hỏi đã được xác định lại bằng cách sử dụng JAPE .................. 44
Hình 4-6: Kiểu chú giải TokenVn cho những từ đặc biệt .............................................. 47
Hình 4-7: Kiểu chú giải TokenVn sau khi đã thay đổi giá trị của đặc trưng category .. 48
Hình 4-8: Cụm danh từ trong một số câu hỏi tiếng Việt ............................................... 49
Hình 4-9: Từ mang ý nghĩa so sánh trong câu hỏi tiếng Việt ....................................... 52
Hình 4-10: Một ví dụ về kiểu chú giải Danhngu........................................................... 53
Hình 4-11: Ví dụ về “mối quan hệ” .............................................................................. 54
Hình 4-12: Tách từ trong câu hỏi: “Nguyễn Quốc Đạt và Nguyễn Quốc Đại có quê ở
Hà Tây phải không?” .................................................................................................... 55
Hình 4-13: Kiểu chú giải Moiquanhe ............................................................................ 57
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
vii
Hình 4-14: Một ví dụ về kiểu chú giải Tudehoi ............................................................ 58
Hình 4-15: Ví dụ về bộ biểu diễn trung gian của câu hỏi ............................................. 64
Hình 4-16: Một ví dụ về kiểu chú giải Maucauhoi ....................................................... 72
Hình 4-17: Đầu ra của một câu hỏi có cấu tạo dạng Unknterm ................................... 73
Hình 4-18: Đầu ra của một câu hỏi có cấu tạo dạng And .............................................. 74
Hình 4-19: Đầu ra của một câu hỏi có cấu tạo dạng AffirmNeg_3Term ....................... 75
Hình 5-1: Ví dụ về một phần câu hỏi được khớp mẫu .................................................. 77
Hình 5-2: Kết quả phân tích đúng - câu hỏi thỏa mãn tiêu chí 2 ................................... 78
Hình 5-3: Ví dụ về câu hỏi thỏa mãn tiêu chí 3 ............................................................ 78
Hình 5-4: Một ví dụ về phân tích sai – câu hỏi thỏa mãn tiêu chí 1 nhưng không thỏa
mãn tiêu chí 2 ................................................................................................................ 79
Hình A-1: Chương trình nhúng Java vào JAPE ............................................................ 83
Hình B-1: Nhãn từ loại trong tiếng Việt được dùng trong bộ tách từ trong
Coltech.NLP.Tokenizer ................................................................................................. 85
Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt
viii
Danh sách bảng
Bảng 4-1: Cấu tạo của cụm danh từ trong câu hỏi tiếng Việt ....................................... 50
Bảng 4-2: Cấu trúc cụm danh từ được mô tả trong văn phạm JAPE ............................ 51
Bảng 5-1: Kết quả đánh giá ........................................................................................... 77
Chương 1. Giới thiệu Nguyễn Quốc Đạt
1
Chƣơng 1. Giới thiệu
Những cỗ máy tìm kiếm hiện nay trả về một danh sách gồm rất nhiều các tài liệu liên
quan tới câu hỏi của người sử dụng. Nó yêu cầu người sử dụng phải lướt qua các tài
liệu này để tìm kiếm thông tin cần thiết. Điều này gây ra sự không hài lòng của người
dùng khi thời gian dành cho việc tìm kiếm là không nhiều.
Các hệ thống hỏi đáp được tạo ra để giải quyết vấn đề nêu trên. Hệ thống hỏi
đáp đưa ra một câu trả lời chính xác đáp ứng mong muốn của người sử dụng. Thành
phần xử lý câu hỏi là thành phần đầu tiên trong bất cứ một hệ thống hỏi đáp nào.
Nhiệm vụ của thành phần này là tạo ra một biểu diễn trung gian của câu hỏi để dùng
trong các thành phần còn lại của hệ thống.
Những nghiên cứu về hệ thống hỏi đáp trên thế giới đã phát triển, được ứng
dụng từ lâu và đem lại nhiều lợi ích. Nhưng tại Việt Nam, chưa có nhiều nghiên cứu
về hệ thống hỏi đáp. Bởi vậy, trong khóa luận này, chúng tôi giới thiệu: “Phương
pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt” nhằm mục đích góp phần
tạo ra một hệ thống hỏi đáp tiếng Việt.
Trong khóa luận của mình, chúng tôi đề xuất một phương pháp phân tích câu
hỏi tiếng Việt dựa trên các chú giải ngữ nghĩa. Phương pháp của chúng tôi tạo ra một
biểu diễn trung gian của mỗi câu hỏi đầu vào thông qua một loạt các quá trình xử lý
như: tiền xử lý, phân tích cú pháp, phân tích ngữ nghĩa, phân loại câu hỏi. Mỗi bộ biểu
diễn trung gian của câu hỏi chứa đựng: dạng (nguyên tắc) cấu tạo của câu hỏi, phân
lớp của câu hỏi, các từ khóa có trong câu hỏi cũng như những ràng buộc ngữ nghĩa
giữa các từ khóa đó.
Phương pháp của chúng tôi đem lại một kết quả khả quan trong việc phân tích
các câu hỏi ngôn ngữ tự nhiên. Ngoài phương pháp của mình, chúng tôi còn nghiên cứu
và tìm hiểu những lý thuyết liên quan đến phân tích câu hỏi trong các hệ thống hỏi đáp.
Chương 1. Giới thiệu Nguyễn Quốc Đạt
2
Phần còn lại của khóa luận được trình bày như sau: tại chương 2 chúng tôi giới
thiệu về một số phương pháp phân loại câu hỏi và các kỹ thuật phân tích câu hỏi ngôn
ngữ tự nhiên trong một số hệ thống hỏi đáp đã có. Tiếp theo, chúng tôi giới thiệu về
GATE (General Architecture Text Engine) [45][40] là một hệ thống chú giải ngữ
nghĩa được ứng dụng rất nhiều trong xử lý ngôn ngữ tự nhiên ở chương 3. Sau đó, tại
chương 4, chúng tôi trình bày về phương pháp của mình. Cuối cùng, chúng tôi đưa ra
một số kết quả thực nghiệm ở chương 5 và kết luận ở chương 6.
Chương 2. Phân tích câu hỏi trong các hệ thông hỏi đáp Nguyễn Quốc Đạt
3
Chƣơng 2. Phân tích câu hỏi
trong các hệ thống hỏi đáp
Phân tích câu hỏi là thành phần đầu tiên cho một hệ thống hỏi đáp. Nó sinh ra một biểu
diễn của câu hỏi để dùng trong phần còn lại của hệ thống. Phân tích câu hỏi ở mức độ
đơn giản nhất chính là phân loại câu hỏi. Sau đó, những kỹ thuật xử lý ngôn ngữ tự
nhiên được sử dụng để nhận biết chính xác các từ khóa cũng như các ràng buộc ngữ
nghĩa trong câu hỏi nhằm mục tiêu đưa ra câu trả lời chính xác nhất.
2.1. Phân loại câu hỏi
Vấn đề xử lý câu hỏi ngôn ngữ tự nhiên trong hệ thống hỏi đáp có thể trở nên dễ dàng
hơn bằng cách thực hiện phân loại [30]. Điều này có nghĩa là, quá trình tìm ra sự khác
nhau hoặc giống nhau giữa các câu hỏi là cơ sở cho sự tổng quát sau đó [8].
Chúng ta định nghĩa phân loại câu hỏi là nhiệm vụ ánh xạ một câu hỏi cho
trước vào một trong lớp. Nghĩa là với một câu hỏi đầu vào, quá trình phân loại sẽ
đưa ra lớp tương ứng của câu hỏi, các lớp này cung cấp những ràng buộc ngữ nghĩa
dựa trên câu trả lời mong muốn.
Sự kết hợp của các từ nhằm tạo ra một câu hỏi dường như là vô tận. Phương
pháp trả lời tất cả các câu hỏi, mà hệ thống hỏi đáp có thể bắt gặp, nằm ngoài khả năng
tính toán hiện nay. Một hướng tiếp cận, cố gắng làm cho vấn đề này trở nên dàng hơn,
là khái quát hóa các câu hỏi thành một số lượng hữu hạn các lớp câu hỏi. Với cách làm
như vậy, vấn đề sẽ bớt phức tạp hơn. Tính phức tạp được giảm đi bao nhiêu còn phụ
thuộc vào phương pháp phân loại được sử dụng để làm đơn giản hóa vấn đề. Nhưng có
một mặt không tốt của việc phân loại câu hỏi đó là luôn luôn mất một vài thông tin
trong câu hỏi, điều này dẫn đến một hệ thống trả lời câu hỏi có thể đưa ra câu trả lời
sai hoặc không đưa ra bất kỳ một câu trả lời nào.
Chương 2. Phân tích câu hỏi trong các hệ thông hỏi đáp Nguyễn Quốc Đạt
4
2.1.1. Sự phân loại câu hỏi
Hầu hết các cách phân loại hiện nay phân loại câu hỏi dựa trên các từ để hỏi và/hoặc
một số từ khóa trong các câu hỏi dựa trên cơ sở tri thức hiện có. Phân loại dựa trên từ
để hỏi chuẩn (trong tiếng Anh là: who, what, when, where, why, how) không cho biết
bất cứ thông tin về câu hỏi ngoại trừ loại câu trả lời mong muốn. Trong khi câu hỏi
còn cho biết nhiều thông tin liên quan đến cơ sở tri thức và các thông tin này vô cùng
có ích để tìm câu trả lời cho câu hỏi, thì cách phân loại dựa trên từ để hỏi chuẩn không
đưa ra bất cứ mối quan hệ ngữ nghĩa nào giữa các câu hỏi và cơ sở tri thức.
Sử dụng các từ khóa với mục đích phân loại câu hỏi làm tăng sự phức tạp cho
hệ thống. Hầu hết các hệ thống sử dụng hướng tiếp cận này thực hiện tốt trong một
miền mà có không nhiều sự phức tạp. Tuy nhiên, đây không phải là một phương pháp
tồi. Trong thực tế, nhiều hệ thống đã đưa ra những kết quả tốt với cách phân loại dựa
trên từ khóa nhưng không hệ thống nào hoàn thành việc hiểu đúng ngữ nghĩa của câu
hỏi được hỏi.
Hệ thống phân loại các câu hỏi cần dựa trên các kiểu thông tin có trong câu hỏi
và loại câu trả lời mong muốn. Hơn nữa, hệ thống cần thực hiện phân loại một cách
hoàn toàn độc lập với cơ sở tri thức. Hướng phân loại dựa hoàn toàn vào cơ sở tri thức
đáng lẽ rất quan trọng, bởi vì một câu hỏi được hỏi sẽ được phân loại theo cùng một
cách dù tri thức mà hệ thống có là gì đi chăng nữa. Điều đó không có nghĩa là một câu
hỏi sẽ có nhiều nghĩa khác nhau, do đó nó có nhiều câu trả lời khác nhau phụ thuộc
vào ngữ cảnh của câu hỏi. Tuy nhiên, chúng ta có thể thấy rằng đó chỉ là một kết quả
của một cách mà cơ sở tri thức hiểu câu hỏi. Và những câu trả l