Luận văn Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách Tiếng Việt

Nhờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet một cách hiệu quả và dễ dàng, hệ thống hỏi đáp nói chung đ ã được quan tâm nghiên cứu từ khá lâu, tuy nhiên các dạng hệ thống hỏi đáp đặc biệt, trong đó có hệ thống hỏi đáp danh sách vẫn còn đang ở bước đầu phát triển. Hệ thống hỏi đáp danh sách là h ệ thống hỏi đáp, nh ận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả lời dưới dạng một danh sách. Tại Việt Nam, các nghiên cứu về hệ thống hỏi đáp nói chung, cũng như về hệ thống hỏi đáp danh sách nói riêng tập trung cho miền dữ liệu tiếng Việt còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học, Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho h ệ thống hỏi đáp danh sách tiếng Việt tập trung nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp danh sách đã được áp dụng trên thế giới cũng như một số phương pháp nâng cao chất lư ợng kết quả trả lời cho dạng hệ thống hỏi đáp này. Trên cơ sở các nghiên cứu nói trên, kết hợp với việc khảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt sử dụng lu ật Wrapper và luật ngữ nghĩa. Thực nghiệm mô hình cho kết quả khá khả quan, đạt độ chính xác cho câu trả lời chứa 5 kết quả là 93.87% so với độ chính xác 82.11% của pha hỏi đáp danh sách, đồng thời hứa hẹn nhiều tiềm năng nghiên cứu mới.

62 trang | Chia sẻ: lvbuiluyen | Lượt xem: 2198 | Lượt tải: 2Free

Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thanh Sơn PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thanh Sơn PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ HÀ NỘI - 2010 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ và Cử nhân Lê Hoàng Quỳnh – những người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu. Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Nguyễn Thanh Sơn Tóm tắt Nhờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet một cách hiệu quả và dễ dàng, hệ thống hỏi đáp nói chung đã được quan tâm nghiên cứu từ khá lâu, tuy nhiên các dạng hệ thống hỏi đáp đặc biệt, trong đó có hệ thống hỏi đáp danh sách vẫn còn đang ở bước đầu phát triển. Hệ thống hỏi đáp danh sách là hệ thống hỏi đáp, nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả lời dưới dạng một danh sách. Tại Việt Nam, các nghiên cứu về hệ thống hỏi đáp nói chung, cũng như về hệ thống hỏi đáp danh sách nói riêng tập trung cho miền dữ liệu tiếng Việt còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học, … Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt tập trung nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp danh sách đã được áp dụng trên thế giới cũng như một số phương pháp nâng cao chất lượng kết quả trả lời cho dạng hệ thống hỏi đáp này. Trên cơ sở các nghiên cứu nói trên, kết hợp với việc khảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt sử dụng luật Wrapper và luật ngữ nghĩa. Thực nghiệm mô hình cho kết quả khá khả quan, đạt độ chính xác cho câu trả lời chứa 5 kết quả là 93.87% so với độ chính xác 82.11% của pha hỏi đáp danh sách, đồng thời hứa hẹn nhiều tiềm năng nghiên cứu mới. Mục lục Lời mở đầu .................................................................................................................. 1 Chương 1. Giới thiệu hệ thống hỏi đáp danh sách ........................................................ 3 1.1. Hệ thống hỏi đáp ............................................................................................... 3 1.1.1. Giới thiệu chung .......................................................................................... 3 1.1.2. Một số vấn đề cần quan tâm ........................................................................ 4 1.1.3. Các bước xử lý chung .................................................................................. 5 1.1.4. Tiêu chuẩn đánh giá..................................................................................... 6 1.1.5. Phân loại...................................................................................................... 7 1.2. Hệ thống hỏi đáp danh sách ............................................................................. 10 1.2.1. Giới thiệu .................................................................................................. 10 1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách..................... 10 1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách ............... 11 Chương 2. Các nghiên cứu liên quan ......................................................................... 13 2.1. Một số hệ thống hỏi đáp danh sách điển hình ................................................... 13 2.1.1. Hệ thống hỏi đáp danh sách FADA ........................................................... 16 2.1.2. Hệ thống hỏi đáp Ephyra ........................................................................... 20 2.2. Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách ............................ 23 Chương 3: Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt ........................................................................................................... 28 3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt ........................................................................................................................ 28 3.2. Pha 1: Hỏi đáp danh sách tiếng Việt ................................................................ 29 3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh ................. 29 3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách .............................................. 30 3.3. Pha 2: Mở rộng thực thể .................................................................................. 32 3.3.1. Xây dựng các luật Wrapper ...................................................................... 33 3.3.2. Các phương pháp xếp hạng được sử dụng .................................................. 35 3.3.3. Mô hình pha 2: mở rộng thực thể ............................................................... 35 Chương 4. Thực nghiệm và đánh giá ......................................................................... 39 4.1. Thực nghiệm pha hỏi đáp danh sách ................................................................ 39 4.1.1. Dữ liệu thực nghiệm .................................................................................. 39 4.1.2. Kết quả thực nghiệm.................................................................................. 40 4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng việt .......................................................................... 42 Kết luận ..................................................................................................................... 47 Phụ lục....................................................................................................................... 49 Tài liệu tham khảo ..................................................................................................... 51 Danh sách các bảng Bảng 1. 5 kết quả cao nhất tại TREC-12 (Voorhees, 2003) ........................................ 13 Bảng 2. Các lớp trang web ......................................................................................... 17 Bảng 3. Hiệu suất của tập kiểm thử trong TREC-12 ................................................... 20 Bảng 4. Cây kế thừa thực thể tên và các mẫu loại ...................................................... 22 Bảng 5. Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác nhau ........................................................................................................................... 25 Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng ....................... 26 Bảng 7. Độ chính xác trung bình của Ephyra ............................................................. 27 Bảng 8. Độ đo trung bình F1 của Ephyra .................................................................... 27 Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt. ............. 30 Bảng 10. Ví dụ về câu hỏi danh sách và từ khóa tương ứng ....................................... 39 Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt ............................... 40 Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi .................. 42 Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi .................. 43 Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào ....................... 44 Danh sách các hình Hình 1. Các bước chung của hệ thống hỏi đáp ............................................................ 5 Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp ............................................. 8 Hình 3. Ví dụ về một Snippet trả về từ máy tìm kiếm ................................................ 22 Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong .................... 28 Hình 5. Ví dụ về quan hệ thượng hạ danh. ................................................................. 29 Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt ............................................... 30 Hình 7. Ví dụ cấu trúc web ........................................................................................ 33 Hình 8.Ví dụ văn bản bán cấu trúc ............................................................................. 34 Hình 9. Mô hình pha 2 - Mở rộng thực thể ................................................................ 36 Danh sách các biểu đồ Biểu đồ 1. Kết quả của mỗi loại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007 ..... 15 Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kết quả ... 40 Biểu đồ 3. Độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp danh sách tiếng Việt ................................................................................................................... 41 Biểu đồ 4. So sánh độ chính xác câu trả lời ................................................................ 44 Biểu đồ 5.Khả năng đáp ứng từ khóa của hệ thống trong các trường hợp ................... 45 1 Lời mở đầu Internet ngày nay, một mặt đã trở thành kho tài nguyên thông tin khổng lồ và phong phú, nhưng mặt khác, việc thông tin được tổ chức dưới dạng không cấu trúc hoặc bán cấu trúc cũng khiến cho việc nắm bắt thông tin trở nên khó khăn. Máy tìm kiếm đã hỗ trợ khá đắc lực cho người dùng, tuy nhiên, để có thông tin mong muốn, người dùng phải tự tìm trong các trang web mà máy tìm kiếm trả về. Đây là một công việc tốn rất nhiều thời gian và công sức bởi số lượng các trang web được trả về bởi máy tìm kiếm thường là rất lớn. Chính vì vậy hệ thống hỏi đáp đã ra đời, nhằm mục đích tìm kiếm câu trả lời ngắn gọn và chính xác nhất cho người dùng thay vì trả về các văn bản. Các câu hỏi của người dùng thường rất đa dạng và yêu cầu các loại câu trả lời cũng khác nhau. Một trong những hướng nghiên cứu mới và đang được chú ý hiện nay chính là về hệ thống hỏi đáp danh sách. Thay vì chỉ có một kết quả trong câu trả lời, hệ thống hỏi đáp danh sách thường phải trả về câu trả lời là một danh sách các kết quả. Đây chính là đặc điểm khác biệt nhất giữa hệ thống hỏi đáp danh sách và các hệ thống hỏi đáp khác. Trả về câu trả lời chứa đầy đủ và chính xác các kết quả chính là một trong những mục tiêu được chú trọng nhất được hướng đến khi xây dựng hệ thống hỏi đáp danh sách. Tuy nhiên, đó cũng chính thách thức lớn nhất mà các nhà nghiên cứu gặp phải. Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt thực hiện việc khảo sát, nghiên cứu một số phương pháp đã được sử dụng trong một số hệ thống hỏi đáp danh sách, cũng như tìm hiểu một vài nghiên cứu về việc nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách, từ đó đưa ra phương pháp phù hợp để giải quyết bài toán này cho miền dữ liệu tiếng Việt. Khóa luận đề xuất một mô hình giải quyết bài toán gồm 2 pha chính: (1) Pha hỏi đáp danh sách, tìm câu trả lời dựa vào các luật thượng hạ danh (hyponym). (2) Pha nâng cao chất lượng cho câu trả lời của pha hỏi đáp danh sách dựa vào các phương pháp mở rộng thực thể. Nội dung của khóa luận bao gồm các chương sau: Chương 1. Giới thiệu hệ thống hỏi đáp danh sách. Chương 1 trình bày những nội dung cơ bản về hệ thống hỏi đáp nói chung và hệ thống hỏi đáp danh sách nói riêng. Chương 2. Các nghiên cứu liên quan. Chương 2 điểm qua một số các nghiên cứu liên quan trên thế giới cũng như tại Việt Nam về hệ thống hỏi đáp nói chung, cũng 2 như hệ thống hỏi đáp danh sách nói riêng và bài toán mở rộng thực thể. Khóa luận tập trung tìm hiểu các phương pháp được áp dụng trong hai hệ thống hỏi đáp danh sách tiêu biểu là FADA và Ephyra. Cùng với đó, chương này cũng giới thiệu về các nghiên cứu đã có để nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách, trong đó tập trung cho hướng nâng cao bằng mở rộng thực thể. Chương 3. Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt. Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ thống hỏi đáp danh sách tiếng Việt mà khoá luận đề xuất. Mô hình này gồm 2 pha chính là pha hỏi đáp danh sách và pha mở rộng thực thể. Chương 4. Thực nghiệm và đánh giá. Tiến hành thực nghiệm để kiểm tra chất lượng của phương pháp đã đề xuất bằng cách thực nghiệm riêng pha hỏi đáp danh sách và thực nghiệm có sử dụng bước nâng cao kết quả trong mô hình, từ đó đưa ra đánh giá. Kết luận và hướng phát triển khóa luận: Tóm lược những nội dung chính của khóa luận.Đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới dựa vào các định hướng khắc phục một vài hạn chế vẫn còn tồn tại. 3 Chương 1. Giới thiệu hệ thống hỏi đáp danh sách 1.1. Hệ thống hỏi đáp 1.1.1. Giới thiệu chung Sự phát triển ngày càng mạnh mẽ của World Wide Web đã đưa ra thách thức khai phá các thông tin trên web một cách hiệu quả hơn. Tuy kết quả trả về của các máy tìm kiếm ngày càng được nâng cao chất lượng nhưng kết quả vẫn là danh sách các tài liệu có chứa câu truy vấn. Người dùng muốn có thông tin thì phải tự tìm trong các trang web đó. Đây là một công việc tốn rất nhiều thời gian và công sức bởi số lượng các trang web được trả về bởi máy tìm kiếm thường là rất lớn. Chính vì vậy hệ thống hỏi đáp đã ra đời, nhằm mục đích tìm kiếm câu trả lời ngắn gọn và chính xác nhất cho người dùng thay vì trả về các văn bản. Khái niệm hệ thống hỏi đáp: Hệ thống hỏi đáp là hệ thống đuợc xây dựng để thực hiện việc tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào một cách chính xác và ngắn gọn [30]. Nhiệm vụ của hệ hỏi đáp là tự động tìm ra câu trả lời cho câu hỏi dưới dạng ngôn ngữ tự nhiên. Để tìm được câu trả lời, hệ hỏi đáp phải sử dụng các nguồn dữ liệu có cấu trúc như cơ sở dữ liệu hoặc một tập các văn bản không có cấu trúc. Tuy nhiên, như đã biết, ngôn ngữ tự nhiên chứa các yếu tố nhập nhằng, đa nghĩa, việc xác định được ngữ nghĩa của câu hỏi cũng như tìm ra câu trả lời là một thách thức không nhỏ. Không những vậy, giữa câu hỏi và câu trả lời còn tồn tại các quan hệ “ngầm” hay phụ thuộc ngữ cảnh. Ví dụ câu hỏi “Ai là tác giả của Dế mèn phiêu lưu ký?” Một câu trả lời là: “Tô Hoài đã viết tác phẩm văn xuôi Dế mèn phiêu lưu ký”. Hoặc câu hỏi là “Beethoven sinh năm nào?” Thì một câu trả lời là “Ludwig van Beethoven (1770-1827)” Để tìm được câu trả lời cho câu hỏi “Ai là tác giả của Dế mèn phiêu lưu ký?”, hệ thống cần có cơ chế để biết được rằng “tác giả của một tác phẩm là người viết tác phẩm đó” hoặc cần học được các mẫu thường gặp của câu trả lời (các mẫu về ngày tháng năm sinh, về thời gian, địa chỉ….) tương ứng với từng loại câu hỏi. Các hệ thống 4 hỏi đáp hiện nay sử dụng các công cụ xử lý ngôn ngữ tự nhiên như bộ gán nhãn từ loại (POS Tagger), bộ nhận dạng thực thể định danh (Named Entity Recognizer), bộ phân tích ngữ pháp (Parser)… và các tài nguyên ngôn ngữ như Wordnet [11], ontology [23] để phân tích câu hỏi và trích xuất câu trả lời. Hệ thống hỏi đáp đang nhận được rất nhiều sự quan tâm của các nhà nghiên cứu và các doanh nghiệp công nghệ thông tin, có ý nghĩa cả về khoa học lẫn thực tiễn. Rất nhiều hội nghị thường niên về trích chọn thông tin và khai phá dữ liệu dành một chủ đề riêng cho các nghiên cứu về hệ thống hỏi đáp TREC1, CLEF2. Hiện đã có một số hệ thống hỏi đáp ra đời. Một số hệ thống hỏi đáp tiêu biểu được biết đến như: Answer.com3, START4, Ask Jeeves5, Webclopedia [9], FADA [14], Ephyra [22],... trong đó, FADA, Ephyra là các hệ thống hỏi đáp danh sách sẽ được giới thiệu chi tiết hơn ở chương 2. 1.1.2. Một số vấn đề cần quan tâm Năm 2002, John Burger và cộng sự [7] đã đưa ra một số vấn đề cần quan tâm khi xây dựng một hệ thống hỏi đáp như sau:  Loại câu hỏi: Đầu vào của hệ thống hỏi đáp là câu hỏi của người dùng dưới dạng ngôn ngữ tự nhiên. Câu hỏi trong ngôn ngữ tự nhiên rất đa dạng, nhiều ẩn ý, nhiều nhập nhằng và phụ thuộc vào ngữ cảnh hỏi. Một số loại câu hỏi đang được quan tâm trong hệ hống hỏi đáp như câu hỏi về sự vật, sự kiện, định nghĩa, danh sách, quá trình, cách thức, lý do… Mỗi loại câu hỏi có những đặc trưng và khó khăn riêng, đòi hỏi phải có các chiến lược để trả lời chúng.  Xử lý câu hỏi: Một câu hỏi có thể được diễn đạt bằng nhiều cách khác nhau. Vì thế, việc xử lý câu hỏi là xác định được các câu hỏi tương tự, các quan hệ ngữ pháp, loại câu hỏi, đồng thời có thể chuyển một câu hỏi phức tạp thành chuỗi các câu hỏi đơn giản hơn.  Ngữ cảnh: Câu hỏi thường được gắn với ngữ cảnh và câu trả lời cũng được đưa ra trong một ngữ cảnh xác định. Việc sử dụng các thông tin về ngữ cảnh 1TREC: Text REtrieval Conference. 2 CLEF: The Cross-Language Evaluation Forum. 3 4 5 5 giúp hệ thống hỏi đáp hiểu câu hỏi một cách rõ ràng, loại bỏ được các nhặp nhằng và tăng tính chính xác khi trả lời câu hỏi.  Nguồn dữ liệu: một hệ thống hỏi đáp cho dù có hoạt động thông minh đến đâu cũng không thể tìm được chính xác câu trả lời nếu như câu trả lời đó không nằm trong tập dữ liệu. Chính vì thế, hệ thống hỏi đáp cần phải có nguồn dữ liệu phong phú, có thể là sách, báo chí hay các trang web. Tuy nhiên cần đảm bảo nguồn dữ liệu có độ tin cậy và thông tin chính xác cao.  Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp của câu hỏi, loại câu hỏi có được từ quá trình xử lý câu hỏi, dữ liệu chứa câu trả lời, phương pháp tìm kiếm và ngữ cảnh,... Câu trả lời cho người dùng cần phải đảm bảo chính xác và đầy đủ. 1.1.3. Các bước xử lý chung Các hệ thống hỏi đáp hiện nay có kiến trúc khác nhau tùy thuộc vào loại hệ thống hỏi đáp. Tuy nhiên các hệ thống hỏi đáp đều bao gồm ba bước cơ bản như hình 1 [5]. Sự khác nhau giữa các hệ thống hỏi đáp là ở quá trình xử lý trong từng bước, đặc biệt là ở cách tiếp cận trong việc xác định câu trả lời. Bước1 - Phân tích câu hỏi: Đây là bước đầu tiên của hệ hỏi đáp. Đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên. Tại bước này, hệ thống phân tích câu hỏi để tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời Bước2 - Thu thập tài liệu: Bước này sử dụng câu truy vấn được tạo ra ở bước phân tích câu hỏi, truy vấn trên các công cụ tìm kiếm để tìm các tài liệu phục vụ cho việc tìm kiếm câu trả lời. Bước3 - Trích xuất câu trả lời: Bước này phân tích tập tài liệu đã thu thập được ở bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để tìm kiếm, trích chọn và đưa ra câu trả lời chính xác nhất cho câu hỏi của người dùng. Phân tích câu hỏi Thu thập tài liệu Trích xuất câu trả lời Câu hỏi Câu trả lời Hình 1. Các bước chung của hệ