Phân tích câu hỏi trong hệ thống hỏi đáp Tiếng Việt

Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ liệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc “understanding text” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê. Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm. Tuy nhiên các nghiên cứu về xây dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học (Wordnet [28], ontology [30] ). Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các pha sau (trích chọn tài liệu, trích xuất câu trả lời, ). Vì vậy phân tích câu hỏi có vai trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu trả lời.

pdf26 trang | Chia sẻ: lvbuiluyen | Lượt xem: 3269 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Phân tích câu hỏi trong hệ thống hỏi đáp Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Nguyễn Duy Long BÁO CÁO THỰC TẬP TỐT NGHIỆP PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Trương Anh Hoàng Nơi thực tập: Công ty Nhất Thái Dương iSolar Hà Nội, tháng 9/2012 Lời cảm ơn Lời đầu tiên em xin chân thành cảm ơn đến quý Thầy, Cô trường ĐH Công Nghệ - ĐH Quốc Gia Hà Nội, những người đã trực tiếp giảng dạy, truyền đạt những kiễn thức bổ ích cho em, đó chính là những nền tảng cơ bản, là những hành trang vô cùng quý giá, là buốc đầu tiên cho em bước vào sự nghiệp sau này trong tương lai. Đặc biệt là Tiến sĩ Trương Anh Hoàng người đã tận tình, quan tâm giúp đỡ em trong suốt quá trình em tham gia thực tập. Thầy đã giải đáp những thắc mắc khó khăn mà em đã gặp phải. Nhờ đó, em mới có thể hoàn thành được báo cáo thực tập chuyên ngành này. Bên cạnh đó, em cũng xin được gởi lời cảm ơn chân thành tới Giám đốc, các anh chị trong Công ty Nhất Thái Dương iSolar đã tạo cơ hội giúp em có thể tìm hiểu rõ về môi trường làm việc thực thế của một doanh nghiệp mà ngồi trên ghế nhà trường em chưa được biết. Em xin chân thành cảm ơn anh Vũ Tất Thắng giám đốc của công ty, mặc dù rất bận rộn với công việc nhưng vẫn dành thời gian chỉ bảo, hướng dẫn, tạo mọi điều kiện thuận lợi nhất để em có thể tìm hiểu và thu thập thông tin phục vụ cho báo cáo này. Trong quá trình thực tập và làm báo cáo, vì kinh nghiệm thực tế chưa có, chỉ dựa vào lý thuyết cùng với thời gian hạn hẹp nên báo cáo này không thể tránh những sai sót. Kính mong nhận được sự góp ý, nhận xét từ phía quý Thầy, Cô cũng như các anh chị trong Công ty để kiến thức của em càng hoàn thiện hơn và rút ra được những kinh nghiệm bổ ích để có thể áp dụng vào thực tiễn một cách hiệu quả nhất trong tương lai. Em xin chân thành cảm ơn! Sinh viên Nguyễn Duy Long Lời mở đầu Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ liệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc “understanding text” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê. Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm. Tuy nhiên các nghiên cứu về xây dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học (Wordnet [28], ontology [30]…). Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các pha sau (trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phân tích câu hỏi có vai trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu trả lời. Trong bài viết báo cáo thực tập em đã thực hiện nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp và phân tích câu hỏi đang được quan tâm hiện nay, từ đó đưa ra phương pháp phân tích câu hỏi phù hợp nhất (trên cơ sở các nguồn tài nguyên ngôn ngữ sẵn có) cho hệ thống hỏi đáp tiếng Việt. Những nghiên cứu này có thể coi là tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho tiếng Việt. CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP 1 Giới thiệu. Thực tập tốt nghiệp là một giai đoạn quan trọng đối viên sinh viên năm cuối, đặc biệt là sinh viên công nghệ thông tin. Thực tế công việc, cùng với những kinh nghiệm và kỹ năng học tập được trong giai đoạn này, sẽ giúp cho sinh viên vững vàng hơn khi đi vào công việc thực tế đầy áp lực. Với ý nghĩa thực tiễn đó, được sự cho phép của nhà trường, tôi đã may mắn được là sinh viên thực tập tại Công ty Nhất Thái Dương iSolar, một công ty chuyên gia công phần mềm cho ngành giáo dục. Với thời gian thực tập khoảng 2 tháng, nhưng nó đã đem lại cho tôi nhiều kinh nghiệm và kỹ năng trong công việc, cũng như nghiên cứu. Tôi được tham gia làm nghiên cứu về vấn đề xử lý ngôn ngữ tự nhiên Natural Language Processing. Cùng với những sinh viên thực tập khác và với sự hướng dẫn tận tình của TS. Vũ Tất Thắng, phần nghiên cứu NLP hiện nay đã khá hoàn chỉnh như những mục tiêu đề ra. Tên công ty thực tập Nhất Thái Dương iSolar Địa chỉ Phòng 1504, 671 đường Hoàng Hoa Thám Thời gian 01/07/2012 – 01/09/2012 Cán bộ trực tiếp quản lý TS. Vũ Tất Thắng Đề tài nghiên cứu Natural Language Processing Vị trí thực tập Research 2 Công ty Nhất Thái Dương iSolar. Được sự thông qua của Hội đồng Khoa học Ban Quản lý Khu Công nghệ cao Hoà Lạc, ngày 31/05/2011, nhóm Giải pháp sáng tạo và Nghiên cứu tiên tiến Nhất Thái Dương (iSolar) đã chính thức tham gia vào hoạt động ươm tạo tại Trung tâm Ươm tạo doanh nghiệp công nghệ cao. Nhóm ISOLAR do TS Vũ Tất Thắng,Viện CNTT-Viện KHCN Việt Nam làm trưởng nhóm, hoạt động trong lĩnh vực công nghệ thông tin với sản phẩm đang nghiên cứu triển khai là hệ thống Speech translation. Hiện nay nhóm ISOLAR đã phát triển thành Công ty Nhất Thái Dương iSolar với mục tiêu tạo ra các sản phẩm chuyên nghiệp cho ngành giáo dục Việt Nam. Đây là một trong những môi trường rất tốt dành cho sinh viên công nghệ thông tin để học hỏi và làm việc trong tương lại. Mục tiêu của công ty là cung cấp cho nhân viên một môi trường làm việc năng động, thử thách, vui nhộn, để mỗi nhân viên thật sự là một “tài sản” quý nhất của công ty, của khách hàng. 3 Đặt vấn đề Xử lý ngôn ngữ tự nhiên hiện đang là một lĩnh vực rất được quan tâm trong các hướng nghiên cứu và phát triển, không chỉ ở khía cạnh giao tiếp của con người mà ở một vài khía cạnh khác, nó còn là một phần trong các thể hiện hiểu biết và tri thức của con người. Xử lý ngôn ngữ tự nhiên là hướng tiếp cận máy tính hóa nhằm phân tích văn bản dựa trên cả lý thuyết và công nghệ. Có thể định nghĩa: “xử lý ngôn ngữ tự nhiên là học thuyết thúc đẩy sự phát triển các công nghệ tính toán khác nhau phục vụ cho việc phân tích và biểu diễn các văn bản. Việc phân tích và biểu diễn văn bản có thể được thực hiện ở một hoặc một vài mức độ khác nhau nhằm xử lý ngôn ngữ của con người từ dạng tự nhiên thành các định dạng nhất định cho từng công việc hoặc ứng dụng cụ thể”. 4 Mục tiêu. Mục tiêu của đề tài nghiên cứu là hiểu được các cách thức xử lý ngôn ngữ tự nhiên nói chung trong các ngôn ngữ. Đặc biệt xử lý đối với tiếng Việt và nghiên cứu sâu về phần phân tích câu hỏi trong hệ thống hỏi đáp đối với một miền đóng. 4.1 Phạm vi nghiên cứu. Đối tượng rút trích metadata của đề tài là những bài báo khoa học và có định dạng là tập tin PDF. Đề tài thực tập tập trung nghiên cứu cách rút trích thông tin metadata, còn việc tổ chức dữ liệu thư viện số và làm giàu ontology là hướng đi kế tiếp cho đề tài, trong lần nghiên cứu này chúng tôi chưa đi sâu vào vấn đề đó. 4.2 Kết quả dự kiến.  Xây dựng thành công một hệ thống quy mô nhỏ có khả năng hỏi và trả lời tự động theo phương thức Client-Server.  Kết quả chính xác phải từ 80% trở lên. 4.1 Mục tiêu, thời gian và kế hoạch thực tập. Các mục tiêu phải đạt được trong quá trình thực tập:  Tìm hiểu thực tế môi trường công việc trong một công ty phần mềm.  Quan sát học tập các kỹ năng mềm còn yếu và thiếu như: kỹ năng xử lý vấn đề, kỹ năng giao tiếp, kỹ năng đặt câu hỏi v.v…  Nâng cao kỹ năng lập trình.  Nâng cao khả năng học hỏi, sáng tạo trong xử lý vấn đề chuyên môn cũng như trong giao tiếp. 4.4 Thời gian và kế hoạch thực tập Những công việc cụ thể trong giai đoạn này là: o Tìm hiểu xử lý ngôn ngữ tự nhiên NLP và phân tích câu hỏi trong hệ thống hỏi đáp cho tiếng Việt o Tìm hiểu về mã nguồn mở OpenNLP và ngôn ngữ lập trình Python o Phân tích, thiết kế hệ thống và code demo o Kiểm tra độ chính xác của hệ thống và viết báo cáo thu hoạch. Thời gian Nội dung 2 tuần Tìm hiểu về lý thuyết xử lý ngôn ngữ tự nhiên. 1 tuần Tìm hiểu về phân tích những câu hỏi trong hệ thống trả lời tự động của Tiếng Việt 3 tuần Tìm hiểu về mã nguồn mở OpenNLP và ngôn ngữ lập trình Python.và ngôn ngữ lập trình Python. Tiến hành phân tích hệ thống hỏi đáp trên thực tế. 2 tuần Thu thập dữ liệu về các địa điểm, tên người để phục vụ cho việc code demon hệ thống 5 Bố cục báo cáo. Phần 1: Tổng quan của quá trình thực tập tốt nghiệp: thực tập ở công ty nào, thời gian thực tập ra sao, tham gia những dự án gì… Ngoài ra trong Chương 1 cũng giới thiệu khái quát về công ty thực tập, đề tài thực tập, mục tiêu và kế hoạch của đợt thực tập này. Phần 2: Giới thiệu về hệ thống hỏi đáp tự động. Phần 3: Phân tích câu hỏi trong hệ thống hỏi đáp. Phần 4: Xây dựng hệ thống trả lời tiếng Việt tự động và sử dụng mã nguồn mở OpenNLP và Java. Phần kết luận sẽ tổng hợp những nội dung kiến thức đã được tiếp cận, những kỹ năng lập trình đã được học hỏi, kinh nghiệm thực tiễn đã tích lũy, những điều làm được và chưa được trong nghiên cứu xử lý ngôn ngữ tự nhiên NLP và phương hướng sắp tới. Chương 2: Giới thiệu về hệ thống hỏi đáp tự động 1 Hệ thống hỏi đáp tự động Hệ thống hỏi đáp tự động có thể coi như một lựa chọn thứ hai bên cạnh hệ thống trích chọn thông tin khi người dùng muốn tìm kiếm thông tin họ cần. Hệ thống trích chọn thông tin nhận đầu vào là các từ khóa và trả về tập các tài liệu liên quan (có chứa các từ khóa đó). Kết quả mà hệ thống trích chọn thông tin (máy tìm kiếm) trả lại cho người dùng là rất lớn, có thể lên đến hàng nghìn trang web mà phần nhiều không chứa thông tin người dùng mong muốn. Trong khi đó, hệ thống hỏi đáp nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, trả lại các đoạn văn bản ngắn chứa câu trả lời trực tiếp cho câu hỏi. Nghiên cứu về hệ thống hỏi đáp tự động hiện đang thu hút sự quan tâm của rất nhiều các nhà nghiên cứu từ các trường đại học, các viện nghiên cứu và cả các doanh nghiệp lớn trong ngành công nghệ thông tin, có ý nghĩa khoa học lẫn ý nghĩa thực tế. Rất nhiều các hội nghị thường niên về khai phá dữ liệu, trích chọn thông tin dành một chủ đề riêng cho các nghiên cứu về hệ thống hỏi đáp như TREC1, CLEF2, vv. Bài toán xây dựng hệ thống hỏi đáp là một bài toán khó thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing). Chúng ta biết rằng ngôn ngữ tự nhiên vốn nhập nhằng, đa nghĩa, việc xác định được ngữ nghĩa của câu hỏi cũng như phát hiện ra câu trả lời là một thách thức không nhỏ. Không những vậy, giữa câu hỏi và câu trả lời còn tồn tại các quan hệ “ngầm” hay phụ thuộc vào ngữ cảnh. Ví dụ câu hỏi: Một người đang đi trên đường với một chiếc điện thoại di động có kết nối internet. Người này muốn tìm đường từ Kim Mã tới Xuân Thủy. Người này đặt ra câu hỏi. “Tôi muốn tìm đường từ Kim Mã tới Cầu Giấy” Câu trả lời trên một ứng dụng điện thoại, chỉ đường trên GoogleMap. Một câu hỏi khác: “ Bill Gates sinh năm nào ?” và câu trả lời “….Bill Gates sinh ngày 28, tháng 10, năm…”. Để tìm được câu trả lời trên cho câu hỏi, hệ thống cần có cơ chế để biết được rằng Kim Mã và Xuân Thủy là tên của 2 địa điểm hoặc cần học được các mẫu thường gặp của câu trả lời (các mẫu về ngày tháng năm sinh, về thời gian, địa chỉ….) tương ứng với từng loại câu hỏi. Các hệ thống Q&A trên thế giới hiện nay sử dụng rất nhiều các công cụ xử lý ngôn ngữ như: Bộ gán nhãn từ loại (POS Tagger), bộ nhận dạng tên thực thể (Named Entity Recognizer), bộ phân tích ngữ pháp (Parser)… và các tài nguyên ngôn ngữ để phân tích câu hỏi và trích xuất câu trả lời. Một hệ thống hỏi đáp được người dùng đánh giá là hữu ích nếu đáp ứng được các tiêu chuẩn: Tính hợp lý về thời gian (Timeliness): Câu trả lời phải được đưa ra trong thời gian ngắn, ngay cả khi có hàng ngàn người dùng cùng truy nhập hệ thống một lúc. Các nguồn dữ liệu mới cần phải được tích hợp vào hệ thống ngay khi chúng sẵn sàng để có thế cung cấp cho người dùng câu trả lời cho những câu hỏi về các sự kiện có tính thời sự. Tính chính xác: Tính chính xác của hệ thống hỏi đáp tự động là cực kì quan trọng bởi việc đưa ra câu trả lời sai còn tai hại hơn nhiều là không đưa ra câu trả lời. Nghiên cứu về Q&A cần tập trung vào việc đánh giá tính đúng đắn của câu trả lời đưa ra, bao gồm cả phương thức để phát hiện các trường hợp mà dữ liệu hiện thời không chứa câu trả lời cho câu hỏi. Các thông tin mâu thuẫn trong dữ liệu cũng cần được tìm ra và các thông tin này cần được xử lý theo một cách phù hợp, nhất quán. Để đạt được sự chính xác, hệ thống Q&A cần được tích hợp các nguồn tri thức (world knowledge ) và cơ chế “bắt chước” việc suy luận thông thường (việc bắt chước có thể hiểu như là một quá trình học). Tính khả dụng: Hệ thống Q&A cần đáp ứng được các yêu cầu cụ thể của một người dùng. Các ontology trên từng miền cụ thể và ontology trên miền mở cần được tích hợp trong hệ thống. Hệ thống Q&A cần có khả năng khai phá câu trả lờitừ bất kì dạng dữ liệu gì (văn bản, web, cơ sở dữ liệu, …) và đưa ra câu trả lời dưới định dạng mà người dùng mong muốn, cho phép người dùng miêu tả ngữ cảnh của câu hỏi và cung cấp các thông tin giải thích, trích dẫn nguồn cho câu trả lời. Tính hoàn chỉnh: Câu trả lời hoàn chỉnh cho câu hỏi của người dùng là điều mà các hệ thống Q&A hướng tới. Trong nhiều trường hợp (câu hỏi về danh sách, nguyên nhân, cách thức…), các phần của câu trả lời nằm rải rác trong một văn bản, thậm chí trong nhiều văn bản. Vì vậy cần phải hợp nhất các phần này dựa trên các thông tin liên kết để tạo ra câu trả lời hoàn chỉnh. Tính thích hợp của câu trả lời: Trong ngôn ngữ tự nhiên, câu hỏi đưa ra luôn gắn với ngữ cảnh nào đó và câu trả lời cũng nằm trong một ngữ cảnh nhất định. Câu trả lời mà hệ thống Q&A đưa ra phải phù hợp ngữ cảnh với câu hỏi. Một hệ thống Q&A có khả năng giao tiếp (interactive Q&A) là cần thiết trong nhiều trường hợp bởi chuỗi các câu hỏi liên quan đến một vấn đề sẽ giúp làm sáng tỏ thông tin mà người dùng đang hỏi. Việc đánh giá một hệ thống Q&A cần hướng người dùng bởi ý kiến người dùng là đánh giá tốt nhất cho tính thích hợp của câu trả lời. Các tiêu chuẩn trên được đặt ra với mong muốn xây dựng được một hệ thống Q&A hoàn chỉnh. Tuy nhiên, không phải hệ thống nào cũng có khả năng thông minh và hoàn thiện như thế. Các nghiên cứu về Q&A hiện nay đang tập trung vào xây dựng hệ thống hỏi đáp có tính chính xác cao và có khả năng sử dụng nguồn dữ liệu web khổng lồ trên Internet. 2 Phân loại hệ thống hỏi đáp tự động Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau như: phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp cận giải quyết bài toán… 2.1 Phân loại theo miền ứng dụng (domain) Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả lời bất kỳ câu hỏi nào được đưa vào. Khó khăn cho hệ thống miền mở đó chính là việc xây dựng các tri thức nên cho việc trả lời cũng như phân tích câu hỏi, các phương pháp hiện nay thường sử dụng một số các ontology khái quát hay các mạng tri thức như: wikipedia, bách khoa từ điển... Tuy nhiên, dữ liệu cho việc trích rút câu trả lời là phong phú, dễ thu thập. Hệ thống hỏi đáp miền đóng (close domain Question answering): Hệ thống tập trung vào trả lời các câu hỏi liên quan đến một miền cụ thể (giáo dục, y tế, thể thao, du lịch, tìm đường...). Xây dựng hệ thống hỏi đáp miền đóng được coi là bài toán dễ hơn so với xây dựng hệ thống hỏi đáp miền mở vì có thể sử dụng các tri thức miền (thường là ontology của miền cụ thể). Các nghiên cứu hiện nay về Q&A đang tập trung vào xây dựng hệ thống hỏi đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu trúc (kho văn bản lớn hay dữ liệu Miền đóng Miền mở Hệ thống hỏi đáp Dữ liệu có cấu trúc Dữ liệu phi cấu trúc (text) web) để tìm câu trả lời. Các nghiên cứu mới và cải tiến những phương pháp cũ để có thể áp dụng cho nguồn dữ liệu web vốn đa dạng, nhiều “nhiễu” và trùng lặp đang rất được quan tâm. 2.2 Phân loại theo khả năng trả lời câu hỏi Hệ thống có khả năng trả lời các câu hỏi liên quan đến sự vật, hiện tượng,... dựa trên việc trích ra câu trả lời có sẵn trong tập tài liệu. Câu trả lời là các chuỗi ký tự trong một tài liệu. Kỹ thuật chính được sử dụng là xử lý chuỗi và từ khóa. Hệ thống có cơ chế lập luận đơn giản: Trích xuất các câu trả lời có sẵn trong tập tài liệu sau đó sử dụng các suy luận để tìm mối liên kết giữa câu trả lời và câu hỏi. Hệ thống sử dụng các nguồn tri thức như ontology về từng miền cụ thể và ontology chung. Hệ thống trả lời các câu hỏi yêu cầu khả năng tổng hợp: Các phần của câu trả lời được trích rút từ nhiều tài liệu sau đó được tổng hợp lại thành câu trả lời hoàn chỉnh. Câu hỏi thường là về danh sách, về cách thức, nguyên nhân... Hệ thống có khả năng giao tiếp với người dùng: Trả lời chuỗi các câu hỏi của người dùng về cùng một vấn đề. Ví dụ các câu hỏi của người dùng như: “Tôi đang đứng ở đâu? Tôi muốn đến Hàng Bông? Nói với vợ tôi rằng tối nay anh không về”. Hoặc câu hỏi như: “Giáo sư Nguyễn Văn Hiệu sinh ra ở đâu?” Hệ thống có khả năng lập luận tương tự: Có thể trả lời các câu hỏi có tính chất suy đoán, câu trả lời ẩn trong tập tài liệu. Hệ thống cần trích ra các luận chứng và sử dụng lập luận tương tự để tìm ra câu trả lời. 2.3 Các bước chung của hệ thống hỏi đáp tự động Một hệ thống hỏi đáp tự động thường gồm 3 bước chung sau: Bước1-Phân tích câu hỏi: Bước phân tích câu hỏi tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời. Bước2-Trích chọn tài liệu liên quan: Bước này sử dụng câu truy vấn được tạo ra ở bước phân tích câu hỏi để tìm các tài liệu liên quan đến câu hỏi. Bước3-Trích xuất câu trả lời: Bước này phân tích tập tài liệu trả về từ bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để đưa ra câu trả lời chính xác nhất. Các hệ thống hỏi đáp tự động hiện nay có kiến trúc rất đa dạng, tuy nhiên chúng đều bao gồm ba phần cơ bản như trên. Sự khác nhau chính giữa các hệ thống là ở quá trình xử lý trong từng bước, đặc biệt là ở cách tiếp cận trong việc xác định câu trả lời. Cách tiếp cận theo trích chọn thông tin thuần túy (pure IR) là: chia nhỏ một tài liệu trong tập dữ liệu thành chuỗi các tài liệu con, trích chọn các tài liệu con có độ tương đồng lớn nhất với câu truy vấn (do bước phân tích câu hỏi tạo ra) và trả lại chúng cho người dùng.Thách thức lớn nhất ở đây là làm sao chia nhỏ được tài liệu thành các phần với kích cỡ tương ứng với kích cỡ của câu trả lời mà vẫn đủ lớn để có thể đánh chỉ mục được (nếu chia quá nhỏ thì số lượng tài liệu để đánh chỉ mục sẽ rất lớn, gây gánh nặng cho hệ thống trích chọn thông tin). Cách tiếp cận theo xử lý ngôn ngữ tự nhiên (pure NLP) là: so khớp giữa biểu diễn ngữ pháp và (hoặc) biểu diễn ngữ nghĩa của câu hỏi với dạng biểu diễn ngữ pháp, ngữ nghĩa của các câu trong các tài liệu liên quan trả về. Khó khăn của cách tiếp cận này là hệ thống phải thực hiện việc phân tích ngữ pháp, ngữ nghĩa và so khớp đủ Câu hỏi Phân tích câu hỏi và trích xuất câu trả lời Câu trả lời DATA SET Trích xuất mẫu tổng quát nhanh để đưa ra câu trả lời trong thời gian chấp nhận được, bởi số lượng các tài liệu cần xử lý là rất lớn trong khi các bước phân tích trên lại phức tạp và tốn nhiều thời gian. Sự khác nhau trong cách trích xuất câu trả lời dẫn đến việc phân tích câu hỏi cũng trở nên đa dạng. Trong hướng tiếp cận theo trích xuất thông tin thuần túy, phân tích câu hỏi chỉ cần làm tốt việc tạo truy vấn, trong khi vớ