Luận văn Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa

Với sựphát triển nhanh chóng của công nghệtin học, khối lượng thông tin được lưu trữtrên máy tính ngày càng nhiều. Vì vậy cần có các hệthống tìmkiếm thông tin (Information Retrieval) cho phépngười dùng tìm kiếm một cách chính xác và nhanh nhất các thông tin mà họcần trên kho tưliệu khổng lồnày. Hơn nữa, trong xu thếtoàn cầu hóa nhưhiện nay,rất nhiều các tổchức, các công ty quốc tếhình thành, lại xuất hiện một nhu cầu mớitrong việc tìm kiếmthông tin đó là tìm kiếm thông tin đa ngữ để người dùng có thểkhai thác một cách hiệu quảnhất kho tài liệu đa ngữmà họcó. Một ví dụcụthểvềkho tưliệu đa ngữlà Internet. Các trang Web bằng nhiều ngôn ngữ khác nhau xuất hiện ngày càng nhiều, trong khi các công cụtìm kiếm đơn ngữ(search engine) chỉcó thểtrảvềcác tài liệu được viết cùng ngôn ngữvới ngôn ngữcủa câu truy vấn (query). Do đó vấn đề đặt ra là liệu có thểxây dựng một hệtìm kiếmthông tin mà thông tin trảvềlà tất cảcác tài liệu ởcác ngôn ngữkhác nhau trong kho tưliệu có liên quan đến câu truy vấn (không phụthuộc vào ngôn ngữcủa câutruyvấn). Đây chính là bài toán đặt ra cho việc nghiêncứu các hệtìm kiếm đa ngữ/ xuyên ngữ (multilanguage IR/ cross languageIR). Mục tiêu của các hệthống tìm kiếmxuyên ngữlà cung cấp công cụcho người dùng để có thểmôtảnhu cầu tìm kiếm thông tin ởngôn ngữmàmình diễn đạt giỏi nhất (thường là tiếng mẹ đẻ), hệthống sẽphải trảvềtất cảcác tài liệu ởtất cảcác ngôn ngữ có trong kho tưliệu đang tìmkiếmcó liên quan đến nhu cầu thông tin của người dùng. Trên đâylà nhu cầu chung của hầu hết các ngôn ngữvà tiếng Việt của chúng ta cũng không phải là ngoại lệ. Khác với các ngôn ngữkhác,tiếng Việt cónhiều đặc điểm riêng biệt và rất khó xửlý bằng máy tính, nên các đềtài nghiêncứu hay cácchương trình ứng dụng liên quan đến các hệthống tìmkiếm bằng tiếng Việt còn rất ít. Mà nhu cầu tìmkiếm tài liệu trên kho tàng kiến thức của thếgiới của người Việt là rất lớn. Với mong muốn phát triển nhiều hơn nữa các hệthống tìmkiếmxuyên ngôn ngữbằng tiếng Việt, chúng tôi xây dựng “Hệthống tìm kiếmthông tin xuyên ngôn ngữViệt – Hệthống tìm kiếmthông tin xuyên ngôn ngữViệt – Anh – Hoa Anh – Hoa”cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trảvềcác tài liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn ngữbiến hình và đơn lập. Từ đó cho thấy rằng hệthống tìm kiếmthông tin xuyên ngữ có thểthực thi trên hai loại hình ngôn ngữkhác nhau. Bốcục của luận văn gồm các chương sau: • Chương 1 – TỔNG QUAN : giới thiệu tổng quan vềhệthống tìm kiếm (IR), hệthống tìm kiếmthông tin xuyên ngôn ngữ(CLIR), các hướng tiếp cận và các vấn đềcần giải quyết của hệthống. • Chương 2 – CƠSỞLÝ THUYẾT: trình bày cơsởlý thuyết và các phương pháp đã nghiên cứu trong luận văn. • Chương 3 – PHÂNTÍCH VÀ THIẾT KẾ:phân tích và thiết kếhệ thống. • Chương 4 – CÀI ĐẶT VÀKIỂM TRA: cài đặt, kiểm thửchương trình. • Chương 5 – KẾT LUẬN và HƯỚNG PHÁTTRIỂN: trình bày các kết quả đạt được, các đánh giá vềhệthống và hướng phát triển trong tương lai. • Phần TÀI LIỆU THAM KHẢO và PHỤLỤC: trình bày các thông tin có liên quan được sửdụng trong luận văn.

pdf133 trang | Chia sẻ: tuandn | Ngày: 20/05/2013 | Lượt xem: 1698 | Lượt tải: 3download
Bạn đang xem nội dung tài liệu Luận văn Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa MỤC LỤC MỤC LỤC............................................................................................................ 1 MỞ ĐẦU .............................................................................................................. 3 Chương 1: TỔNG QUAN................................................................................... 5 1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5 1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):...............................9 1.2.1 Khái niệm:................................................................................................9 1.2.2 Các vấn đề của CLIR:...........................................................................10 1.3 Các hướng tiếp cận:......................................................................................11 1.3.1 Dịch máy (Machine Translation for Text Translation):....................11 1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):.............................14 1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):...................................22 1.4 Một số công trình nghiên cứu trong và ngoài nước: .................................30 1.4.1 Ở Việt Nam: ...........................................................................................30 1.4.2 Trên thế giới: .........................................................................................31 1.5 Kết luận: ........................................................................................................32 Chương 2: CƠ SỞ LÝ THUYẾT..................................................................... 35 2.1 Giới thiệu về MRD (Machine Readable Dictionary).................................35 2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: ....................................35 2.1.2 Vai trò và cấu trúc của MRD:..............................................................39 2.1.3 Khai thác tài nguyên từ điển:...............................................................41 2.1.4 Xây dựng từ điển tự động:....................................................................42 2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD:........................................43 2.1.6 Một số từ điển MRD: ............................................................................43 2.2 Các phương pháp tách từ: ...........................................................................51 2.2.1 Mô hình WFST:.....................................................................................51 2.2.2 Mô hình MMSEG: ................................................................................57 2.3 Các phương pháp khử nhập nhằng: ...........................................................64 2.3.1 Giới thiệu: ..............................................................................................64 2.3.2 Khử nhập nhằng:...................................................................................65 2.4 Kết luận: ........................................................................................................70 Chương 3: PHÂN TÍCH và THIẾT KẾ ......................................................... 72 3.1 Tổng quan hệ thống:.....................................................................................72 3.1.1 Phát biểu bài toán: ................................................................................72 3.1.2 Mô hình hệ thống: .................................................................................72 3.1.3 Phát sinh quản lý:..................................................................................73 3.2 Phân tích – thiết kế hệ thống: ......................................................................76 3.2.1 Mô hình Usecase:...................................................................................76 3.2.2 Đặc tả usecase: .......................................................................................77 3.2.3 Sơ đồ tuần tự: ........................................................................................78 3.2.4 Thiết kế lớp: ...........................................................................................81 3.2.5 Thiết kế giao diện: .................................................................................94 GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 1 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 3.3 Xây dựng hệ thống: ......................................................................................97 3.3.1 Tổ chức các MRD:.................................................................................97 3.3.2 Phương pháp tìm kiếm dựa trên MRD:............................................106 3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:.........................................110 CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM ............................................... 112 4.1 Cài đặt:.........................................................................................................112 4.1.1 Tiền xử lý: ............................................................................................112 4.1.2 Cấu trúc dữ liệu:..................................................................................112 4.1.3 Dịch từ từ điển:....................................................................................113 4.1.4 Khử nhập nhằng :................................................................................113 4.1.5 Tìm kiếm: .............................................................................................116 4.2 Thử nghiệm: ................................................................................................117 4.2.1 Module dịch và khử nhập nhằng: ......................................................117 4.2.2 Chương trình demo trên web:............................................................117 4.3 Đánh giá :.....................................................................................................119 4.3.1 Module dịch và khử nhập nhằng: ......................................................119 4.3.2 Chương trình tìm kiểm trên Web:.....................................................120 Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN ................................... 122 5.1 Kết luận: ......................................................................................................122 5.2 Huớng phát triển: .......................................................................................122 5.2.1 Đối với từ điển và ngữ liệu: ................................................................122 5.2.2 Đối với IR Engine:...............................................................................123 5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống: ......................................124 PHỤ LỤC ......................................................................................................... 125 TÀI LIỆU THAM KHẢO .............................................................................. 132 GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa MỞ ĐẦU Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin (Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìm kiếm thông tin mà thông tin trả về là tất cả các tài liệu ở các ngôn ngữ khác nhau trong kho tư liệu có liên quan đến câu truy vấn (không phụ thuộc vào ngôn ngữ của câu truy vấn). Đây chính là bài toán đặt ra cho việc nghiên cứu các hệ tìm kiếm đa ngữ/ xuyên ngữ (multilanguage IR/ cross language IR). Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người dùng để có thể mô tả nhu cầu tìm kiếm thông tin ở ngôn ngữ mà mình diễn đạt giỏi nhất (thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các ngôn ngữ có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của người dùng. Trên đây là nhu cầu chung của hầu hết các ngôn ngữ và tiếng Việt của chúng ta cũng không phải là ngoại lệ. Khác với các ngôn ngữ khác, tiếng Việt có nhiều đặc điểm riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương trình ứng dụng liên quan đến các hệ thống tìm kiếm bằng tiếng Việt còn rất ít. Mà nhu cầu tìm kiếm tài liệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với mong muốn phát triển nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng tiếng Việt, chúng tôi xây dựng “Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 3 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thống tìm kiếm thông tin xuyên ngữ có thể thực thi trên hai loại hình ngôn ngữ khác nhau. Bố cục của luận văn gồm các chương sau: • Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm (IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận và các vấn đề cần giải quyết của hệ thống. • Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các phương pháp đã nghiên cứu trong luận văn. • Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ thống. • Chương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình. • Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai. • Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có liên quan được sử dụng trong luận văn. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 4 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Chương 1: TỔNG QUAN Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm (Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho hệ thống của mình. Nội dung trình bày bao gồm: 9 Giới thiệu mô hình tìm kiếm thông tin. 9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ. 9 Một số công trình nghiên cứu trong và ngoài nước. 9 Kết luận. 1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval - CLIR) có liên hệ rất mật thiết với hệ thống tìm kiếm thông tin (Information Retrieval - IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thống tìm kiếm thông tin như sau: • Người dùng muốn xem những tài liệu liên quan đến một chủ đề nào đó. • Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn. • Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục. • Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục của các tài liệu đã được xử lý trước đó. • Những tài liệu nào có mức độ liên quan cao nhất sẽ được trả về cho người dùng. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 5 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Mục đích của IR là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu của họ. Chúng ta định nghĩa chính xác cho thông tin cần thiết là “câu truy vấn”(query), và các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu. Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà người dùng đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu chứa thông tin mà họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về diễn giải). Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó. d Hàm biểu diễn câu truy vấn Không gian biểu diễn R [0,1] Xử lý của con người j Hàm biểu diễn tài liệu Câu truy vấn Biểu diễn 2 Tài liệu c Hàm so sánh q Biểu diễn 1 [0,1] Không gian tài liệu D Không gian câu truy vấn Q GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 6 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Hình 1.1: Mô hình hệ thống tìm kiếm thông tin Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị của nó là R2 . Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là [0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lí tưởng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, khi j: Q x D --> [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2 thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự giống nhau về nội dung hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này. Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa trên so khớp chính xác và dựa trên sắp xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển sang nhị phân để quyết định liệu 1 tài liệu có thỏa biểu thức bool được xác định bởi câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở phần sau. Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo thứ tự giảm dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là [0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval status value”): • Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 7 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa • Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool. • Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm kiếm được tính bằng cách tính mức độ giống nhau của nội dung thông tin. Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho trước. Nói cách khác, ta giả sử rằng các tài liệu hoặc có hoặc không có liên quan đến câu truy vấn, và độ liên quan giữa tài liệu và câu truy vấn do con người xác định là chính xác. Theo giả định này, tính hiệu quả của các hệ thống tìm kiếm dựa trên so khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác” (precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tài liệu được chọn, các tài liệu thực sự liên quan đến các thông tin mà người dùng cần, độ bao phủ là tỉ lệ tài liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thống tìm kiếm. Nói cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ đo mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này. Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed alarmFalseFound Foundecision +=Pr MissedFound Foundcall +=Re GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 8 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn. Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”. Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị bao phủ giữa 0 và 1. Phương pháp thường được sử dụng là phương pháp tính dựa trên 5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở rộng để tăng độ bao phủ. 1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR): 1.2.1 Khái niệm: Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ (CLIR) là: • Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó. • Những người gặp khó khăn khi đọc/ tìm kiếm các tài liệu tiếng nước ngoài nhưng lại cần một số lượng giới hạn các tài liệu được tìm kiếm bằng CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ tập hợp các tài liệu. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa