Ngày nay lĩnh vực tin học ngày càng phát triển, vìvậy thông tin được lưu trữ
trên máy tính ngày càng nhiều. Do đó dẫn đến nhu cầu cần có các hệ tìm kiếm
thông tin (Information Retrieval) để giúp cho con người có thể truy xuất được các
thông tin mà họ cần một cách nhanh chóng và chính xác. Ngoài ra, với sự xuất hiện
ngày càng nhiều các công ty quốc tế cũng như sự phát triển bùng nổ của các trang
Web (không chỉ với tiếng Anh mà còn với nhiều ngôn ngữ khác như Pháp, Hoa,
Nga ) hình thành nên một nhu cầu tìm kiếm khác đó là tìm kiếm thông tin đa ngữ.
Vấn đề được đặt ra là liệu có thể xây dựng được một hệ thống tìm kiếm thông tin
mà thông tin trả về là tất cả các ngôn ngữ không phụ thuộc vào ngôn ngữ của câu
truy vấn. Đây là vấn đề chính của việc nghiên cứu các hệ tìm kiếm thông tin đa ngữ
hay xuyên ngữ.
Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người
dùng để có thể mô tả nhu cầu tìm kiếm thông tin ở ngôn ngữ mà mình diễn đạt giỏi
nhất (thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các
ngôn ngữ có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của
người dùng.
Đó là nhu cầu chung của tất cả các ngôn ngữ không riêng gì tiếng Việt. Tuy
nhiên hiện nay, việc xử lý hiệu quả cho ngôn ngữ tiếng Việt tương đối khó khăn và
phức tạp nên dẫn đếncác hệ thống tìm kiếm xuyên ngữ cho ngôn ngữ tiếng Việt
cũng tương đối ít. Với mong muốn xây dựng được hệ thống tìm kiếm xuyên ngữ
cho tiếng Việt, luận văn nghiên cứu và xây dựng “Hệ thống tìm kiếm thông tin
xuyên ngữ Việt-Anh” cho phép người sử dụng nhậpvào câu truy vấn tiếng Việt và
tìm kiếm các kết quả bằng tiếng Anh.
Luận văn bao gồm các chương như sau:
Chương 1: Giới thiệu tổng quan
Chương 2: Trình bày các cơ sở lý thuyết của luận văn
Chương 3: Các kỹ thuật liên quan được sử dụng trong luận văn
Chương 4: Trình bày về chương trình và các thử nghiệm
Chương 5: Đánh giávà hướng phát triển của luận văn.
23 trang |
Chia sẻ: tuandn | Lượt xem: 2032 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM
Chương 4 giới thiệu vệ hệ thống mà luận văn đã xây dựng được, bên cạnh đó còn trình
bày về các cách thử nghiệm cũng như kết quả của thử nghiệm. Từ các kết quả này ta sẽ
tiến hành đánh giá những kết quả đạt được của hệ thống cũng như những hạn chế mà
phương pháp sử dụng trong luận văn gặp phải. Nội dung gồm các phần sau:
Giới thiệu về hệ thống.
Cách khai thác ngữ liệu song song.
Trình bày về việc thử nghiệm hệ thống.
Đánh giá các kết quả đạt được.
4.1 Kiến trúc hệ thống
Hệ thống tìm kiếm xuyên ngữ Việt-Anh được xây dựng để thực hiện những công
việc sau:
Cho phép người dùng nhập vào câu truy vấn bằng tiếng Việt.
Hệ thống tự động tách từ và chuyển ngữ các từ tiếng Việt sang tiếng Anh.
Trong quá trình dịch dùng từ điển kết quả sẽ có thể có nhiều bản dịch của
một từ tiếng Việt, do đó hệ thống cũng cần phải khử nhập nhằng các từ này.
Phương pháp khử nhập nhằng được sử dụng ở đây là sử dụng xác suất dịch
để chọn ra bản dịch tiếng Anh của từ tiếng Việt. Bản dịch nào có xác suất
cao nhất sẽ được chọn, nếu có nhiều bản dịch có cùng xác suất dịch thì tất cả
các bản dịch đó sẽ được chọn.
Sau quá trình dịch các câu truy vấn sẽ được gửi cho hệ thống tìm kiếm thông
tin đơn ngữ thực hiện việc tìm kiếm và trả kết quả ra cho người dùng.
Hệ thống có thể được trình bày như mô hình sau:
40
Hình 4.1 Mô hình hệ thống chương trình
4.1.1 Từ điển
Từ điển được sử dụng để dịch câu truy vấn nhập từ người dùng là từ điển Việt
Anh bao gồm 15000 từ tiếng Việt được tổ chức lại theo cấu trúc XML như sau:
từ tiếng Việt
từ loại
nghĩa tiếng Anh
lĩnh vực
Người dùng
Câu truy vấn
tiếng Việt
Câu truy vấn
tiếng Anh
Hệ tìm kiếm thông tin đơn ngữ
Các tài liệu
liên quan đến
câu truy vấn
bằng tiếng
Anh, tiếng
Việt
Thống kê
từ ngữ liệu
Dịch
Khử nhập
nhằng
Từ điển
Chuyển ngữ
41
từ tham chiếu tiếng Việt
từ đồng nghĩa tiếng Anh
Ví dụ:
ác khẩu
a
ác miệng
ác miệng
a
foul-mouthed
Quá trình dịch câu truy vấn bằng tiếng Việt được diễn ra như sau:
Hệ thống thực hiện tách từ dựa vào các từ điển đơn ngữ tiếng Việt (bao
gồm từ điển từ ghép gồm 63251 từ, từ điển tiếng Việt gồm 56317 từ và từ
điển danh từ tiếng Việt gồm 909 từ)
Thực hiện dịch các từ tiếng Việt có được từ quá trình tách từ bằng các so
khớp với các từ tiếng Việt có trong từ điển, nếu từ đó có từ đồng nghĩ thì từ
đồng nghĩa cũng được chọn. Nếu từ tiếng Việt có trong từ điển mà chỉ có
từ tham chiếu thì sẽ tìm bản dịch tiếng Anh ở từ tham chiếu. Tuy nhiên,
vẫn có trường hợp từ tiếng Việt không có trong từ điển. Khi đó chương
trình sẽ trả về chính từ đó.
4.1.2 Thống kê từ ngữ liệu
Kết quả thống kê từ ngữ liệu có được khi sử dụng GIZA++ để khai thác ngữ liệu
song song (được mô tả ở phần sau). Kết quả thống kê được lưu trữ trong tập tin
vn_en.snt (kết quả khi sử dụng công cụ GIZA++ khai thác ngữ liệu song song) theo
cấu trúc như sau:
Ví dụ:
4827 120 0.472075 có nghĩa là xác suất dịch từ từ nguồn có ID 4827 ra từ đích
có ID 120 là 0.472075
42
Do bảng thống kê được lưu trữ theo ID của từ nên ta sử dụng thêm các tập tin từ
vựng cho mỗi ngôn ngữ tiếng Việt (VnCorpus.vcb) và tiếng Anh (EnCorpus.vcb)
(các tập tin này được tạo ra nhờ công cụ GIZA++ khi phân tích ngữ liệu song song,
được mô tả ở phần sau).
Các tập tin này sẽ được chương trình đọc lên để khởi tạo bộ dữ liệu thống kê để
chương trình thực hiện việc so sánh xác suất dịch của từ tiếng Việt ra các bản dịch
tiếng Anh được tìm thấy trong từ điển. Bộ dữ liệu thống kê được lưu trữ trong bảng
Hash theo cấu trúc sau:
Ta sử dụng từ tiếng Việt được tách từ câu truy vấn để tìm các bản dịch và xác
suất dịch ra các bản dịch này (được khai thác từ ngữ liệu song song) để chọn bản
dịch có xác suất dịch cao nhất trong các bản dịch có được sau khi dùng từ điển để
dịch. Khi sử dụng xác suất dịch để khử nhập nhằng ta cần giải quyết các vấn đề sau:
Bản dịch được tìm thấy trong từ điển nhưng không có trong bộ dữ liệu thống
kê.
Có nhiều bản dịch có cùng xác suất dịch trong bộ dữ liệu thống kê.
Hệ thống chương trình chọn cách giải quyết các vấn đề trên như sau:
Khi bản dịch có trong từ điển mà không có trong bộ dữ liệu thống kê, khi đó
ta sẽ xem như xác suất dịch của bản dịch này bằng 0.
Có nhiều bản dịch có cùng xác suất dịch, chương trình sẽ chọn tất cả các bản
dịch này để đưa vào câu truy vấn đã được chuyển ngữ (câu truy vấn tiếng
Anh được dịch từ câu tiếng Việt nhập bởi người sử dụng).
4.1.3 Chương trình thử nghiệm
Chương trình thử nghiệm được xây dựng là một trang web có giao diện như sau:
43
Hình 4.2 Giao diện chương trình
Dòng sự kiện của chương trình:
Người sử dụng nhập câu truy vấn bằng tiếng Việt (yêu cầu đúng chính
tả).
Hệ thống sẽ thực hiện việc dịch bằng từ điển và khử nhập nhằng bằng xác
suất dịch của từ tiếng Việt trong bảng xác suất dịch có được từ việc khai
thác ngữ liệu song song.
Người sử dụng chọn tìm kiếm, chương trình sử dụng câu truy vấn tiếng
Việt (nhập bởi người sử dụng) và câu truy vấn tiếng Anh (được chuyển
ngữ từ câu tiếng Việt trong hệ thống) để tìm kiếm thông qua Google. Sau
khi tìm kiếm với Google, hệ thống nhận kết quả trả về từ Google và hiển
thị kết quả lên cho người sử dụng.
Người sử dụng có thể chọn kết quả hiển thị chỉ là tiếng Anh hay vừa
tiếng Anh vừa tiếng Việt. Nếu kết quả hiển thị được chọn là tiếng Anh thì
chỉ có các kết quả tìm kiếm từ câu truy vấn chuyển ngữ tiếng Anh được
trả về. Nếu kết quả hiển thị được chọn là tiếng Anh và tiếng Việt, thì kết
quả tìm kiếm từ câu chuyển ngữ tiếng Anh và câu truy vấn tiếng Việt
44
được trả về và được sắp xếp theo thứ tự một kết quả tiếng Anh đến một
kết quả tiếng Việt.
Sử dụng hệ thống với lựa chọn chỉ hiển thị kết quả tiếng Anh:
Hình 4.3 Chương tình hiển thị kết quả tiếng Anh
Hệ thống thực hiện tìm kiếm với kết quả hiển thị là tiếng Việt và tiếng Anh:
45
Hình 4.4 Chương trình hiển thị kết quả bằng tiếng Việt và tiếng Anh
4.2 Khai thác ngữ liệu song song
Ngữ liệu song song là một tập văn bản gồm 2500 câu tiếng Việt và tiếng Anh
được sắp xếp theo thứ tự các dòng tương ứng là bản dịch của nhau. Ngữ liệu song
song được lưu trữ trong hai tập tin riêng biệt nhưng vẫn đảm bảo các dòng tương
ứng liên quan với nhau.
46
Bảng 4.1 Bảng ngữ liệu song song
Ngữ liệu tiếng Việt Ngữ liệu tiếng Anh
* Bạn đã từng xem một cảnh kỳ thú trên
phim hay đã từng xem một bức tranh mà
trông như thật đến nỗi bạn nghĩ là một
bức ảnh chưa ?
* Và bạn có ngỡ ngàng khi học được
cách làm những điều đó trên máy tính
không ?
* Nếu có , thì chắc chắn chẳng phải
mình bạn đâu
* Chúng ta sẽ không hết ngạc nhiên vì
những kết quả hoàn hảo nhờ sự giúp đỡ
của máy tính và chúng ta sẽ thú vị bởi sự
phức tạp của nó
* Vì lý do này , nhiều người cho rằng
máy tính thật khó hiểu và khó sử dụng
* Tuy nhiên , hầu hết chúng ta không
hiểu rằng , cơ bản máy tính là một
thiết bị đơn giản và tất cả các máy tính
đều có một sự đồng nhất
* Hầu hết các máy tính từ lớn nhất cho
đến nhỏ nhất đều thao tác dựa vào các
qui tắc căn bản như nhau
* Tất cả đều được xây dựng trên các
kiểu bộ phận cấu thành như nhau và đều
* Have you ever watched an
incredible scene in a movie , or seen
a drawing that looked so realistic
you thought it was a photograph ?
* Afterward , were you amazed to
learn that it was done on a computer
?
* If so , you are certainly not alone .
* We are endlessly surprised by the
feats accomplished with the help of
computers , and we marvel at their
complexity .
* For this reason , many people
assume that computers must be
difficult to understand and difficult to
use .
* Most of us do not realize ,
however , that computers are
basically simple devices , and all
computers have a great deal in
common .
* Most computers from the biggest to
the smallest operate on the same
fundamental principles .
* They are all fabricated from the
same basic types of components ,
47
cần phải có các chỉ dẫn để điều khiển
chúng hoạt động
* Là bước đầu tiên để hiểu và học cách
sử dụng máy tính , bài học này cung
cấp cho bạn một cái nhìn cơ bản về loại
máy hấp dẫn này
* Chúng ta sẽ học các kiểu phần cứng
mà tất cả các máy tính đều sử dụng ,
và các kiểu phần mềm vận hành chúng
* Chúng ta cũng sẽ thấy rằng nếu không
có người sử dụng - người nào đó như
bạn - thì một hệ thống máy tính sẽ
thực sự không đầy đủ
* Liệt kê bốn phần của một hệ thống
máy tính
* Xác định bốn kiểu phần cứng máy tính
…………
and they all need instructions to
make them run .
* As a first step toward understanding
and learning to use computers , this
lesson gives you a peek at these
fascinating machines .
* You will learn about the types of
hardware that all computer systems
use , and the types of software that
make them run .
* Yours truly, will also see that
without a user - someone like you -
a computer system is not really
complete .
* List the four parts of a computer
system .
* Identify four types of computer
hardware .
…………
Để xây dựng thông tin thống kê từ ngữ liệu song song luận văn sử dụng công cụ
GIZA++ phiên bản 1.03 (xem thêm phần 3.2) để khai thác ngữ liệu song song. Ngữ
liệu song song được sử dụng là ngữ liệu song song mô tả ở trên.
Tiền xử lý ngữ liệu song song
48
Do công cụ GIZA++ chỉ hỗ trợ tốt cho các ngôn ngữ như là tiếng Anh, đó là các
ngôn ngữ mà từng từ có thể được phân biệt dựa vào việc phân cách từ (bằng khoảng
trắng, các dấu câu...). Đối với ngôn ngữ tiếng Việt, việc phân biệt các từ dựa vào
các dấu hiệu phân cách như vậy sẽ cho ta một kết quả không chính xác. Do đó ta
cần xử lý ngữ liệu tiếng Việt trước khi sử dụng công cụ GIZA++ để khai thác thông
tin thống kê của ngữ liệu. Việc tách từ tiếng được dựa vào các từ điển đơn ngữ cho
tiếng Việt, các từ được nhận diện sẽ được kết nối với nhau bằng dấu gạch dưới ( _ )
để tạo thành một từ duy nhất. Việc tạo liên kết như vậy sẽ giúp cho việc tách từ
bằng các dấu phân cách câu được thực hiện dễ dàng hơn, giống như việc tách từ cho
tiếng Anh. Khi đó, sẽ giúp cho GIZA++ tách từ một cách chính xác và có thể khai
thác ngữ liệu để có được các thống kê về ngữ liệu.
Ngữ liệu tiếng Việt trước khi xử lý:
* Bạn đã từng xem một cảnh kỳ thú trên phim hay đã từng xem một bức tranh mà trông
như thật đến nỗi bạn nghĩ là một bức ảnh chưa ?
* Và bạn có ngỡ ngàng khi học được cách làm những điều đó trên máy tính không ?
* Nếu có , thì chắc chắn chẳng phải mình bạn đâu
* Chúng ta sẽ không hết ngạc nhiên vì những kết quả hoàn hảo nhờ sự giúp đỡ của máy
tính và chúng ta sẽ thú vị bởi sự phức tạp của nó
* Vì lý do này , nhiều người cho rằng máy tính thật khó hiểu và khó sử dụng
* Tuy nhiên , hầu hết chúng ta không hiểu rằng , cơ bản máy tính là một thiết bị đơn
giản và tất cả các máy tính đều có một sự đồng nhất
* Hầu hết các máy tính từ lớn nhất cho đến nhỏ nhất đều thao tác dựa vào các qui tắc căn
bản như nhau
............
Ngữ liệu tiếng Việt sau khi thực hiện xử lý các từ:
* Bạn đã từng xem một cảnh kỳ_thú trên phim hay đã từng xem một bức tranh mà trông
như thật đến_nỗi bạn nghĩ là một bức ảnh chưa ?
* Và bạn có ngỡ_ngàng khi học được cách_làm những điều_đó trên máy_tính không ?
* Nếu có , thì chắc_chắn chẳng phải mình bạn đâu
49
* Chúng_ta sẽ không hết ngạc_nhiên vì những kết_quả hoàn_hảo nhờ sự giúp_đỡ của
máy_tính và chúng_ta sẽ thú_vị bởi sự phức_tạp của_nó
* Vì lý_do này , nhiều người_cho rằng máy_tính thật khó_hiểu và khó_sử_dụng
* Tuy_nhiên , hầu hết chúng_ta không hiểu rằng , cơ_bản máy_tính là một_thiết_bị
đơn_giản và tất_cả các máy tính_đều có một sự đồng_nhất
* Hầu hết các máy tính_từ lớn_nhất cho_đến nhỏ_nhất đều thao_tác dựa vào các qui tắc
căn_bản như nhau
............
Sau khi thực hiện việc tách từ cho ngữ liệu tiếng Việt thì ngữ liệu tiếng Việt bây
giờ có thể được xử lý như tiếng Anh (có thể tách từ bằng cách dựa vào các dấu phân
cách trong câu). Sau đó ta sử dụng công cụ được cung cấp trong GIZA++
plain2snt.out để tạo các tập tin đầu vào sử dụng cho các mô hình dịch. Thực hiện câu lệnh
sau:
plain2snt.out corpus.vn corpus.en
Ta sẽ có được các tập tin đầu vào: corpus.vn.vcb, corpus.en.vcb, và
corpus.vn_corpus.en.snt (cấu trúc các tập tin này được mô tả ở phần 3.2).
Sau đó thực hiện quá trình huấn luyện cho mô hình dịch sử dụng GIZA++ bằng
cách thực hiện câu lệnh sau trên môi trường Linux:
corpus.vn.vcb
2 Bạn 62
3 đã 346
4 từng 24
5 xem 59
6 một 772
7 cảnh 3
8 kỳ_thú 2
9 trên 245
10 phim 10
corpus.en.vcb
2 Have 4
3 you 326
4 ever 11
5 watched 2
6 an 174
7 incredible 4
8 scene 2
9 in 705
10 a 1089
corpus.vn_corpus.en.snt
1
2 3 4 5 6 7 8 9 10 11 3 4 5 6 12 13 14 15
16 17 18 19 20 21 6 12 22 23 24
2 3 4 5 6 7 8 9 10 11 12 13 14 10 15 16
17 18 19 3 20 21 22 10 23 24
1
25 19 26 27 28 29 30 31 32 33 9 34 35 24
25 12 26 3 27 28 29 16 21 22 30 31 10 32
24
50
trainGIZA++.sh corpus.vn.vcb corpus.en.vcb corpus.vn_corpus.en.snt
Ta có được các bảng xác suất (bảng xác suất dịch t, bảng xác suất đảo từ...)
tương ứng với các từ trong ngữ liệu. Trong luận văn chỉ sử dụng bảng xác suất dịch
để xác định xác suất dịch của một từ tiếng Việt ra các từ tiếng Anh. Bảng xác suất
dịch sau khi sử dụng GIZA++ khai thác ngữ liệu song song ở trên được lưu trong
tập tin GIZA++.t3.final có nội dung như trong Bảng 4.2 (xem thêm về cấu trúc tập
tin này ở phần 3.2).
Bảng 4.2 Bảng kết quả xác suất dịch
GIZA++.t3.final
5337 16 0.124912
3649 4971 0.999298
1779 421 0.399748
3479 4825 0.16655
3479 4826 0.16655
3479 4827 0.16655
680 2273 0.0742019
680 2310 0.148404
680 2328 0.074202
5167 29 0.166531
510 2017 0.000216541
510 2020 0.0626402
850 3072 0.138092
5167 305 0.1666
1439 10 0.106795
5088 4784 0.124912
1439 38 0.0017997
5507 1247 0.100051
3388 461 3.32089e-05
3139 4457 0.166119
51
3139 4458 0.166119
3388 484 0.249807
2459 2723 0.166593
2969 4044 0.249625
4997 9 0.199886
1439 161 0.369527
4068 2297 0.332014
4997 75 0.199895
3218 134 0.108627
850 3338 0.137919
5088 4996 0.124913
2289 2446 0.505259
3218 211 0.109524
4997 182 0.199895
3218 299 0.10862
3218 318 0.129501
1269 10 0.199496
4.3 Kết quả thử nghiệm
Để đánh giá hệ thống có thực hiện tốt hay không ta dựa trên độ chính xác của hệ
tìm kiếm thông tin. Ở đây do hệ thống sử dụng Google như công cụ tìm kiếm cho
các câu truy vấn ở cả hai ngôn ngữ tiếng Việt và tiếng Anh nên ta không thể tính
được độ chính xác trên toàn bộ các tập tài liệu. Vì vậy ta sử dụng độ chính xác top-
k. Ta sẽ thử nghiệm với k = 50, có nghĩa là ta tính độ chính xác dựa trên 50 kết quả
đầu tiên trả về từ hệ tìm kiếm Google.
Việc thử nghiệm được tiến hành trên một tập 50 câu truy vấn tiếng Việt và 50
bản dịch tiếng Anh của các câu truy vấn này. Các câu truy vấn này không thuộc
2500 cặp câu trong ngữ liệu song song dùng để khai thác các kết quả thống kê từ
52
mô hình dịch sử dụng công cụ GIZA++ đã nêu ở trên. Tập câu hỏi gồm 50 câu tiếng
Việt này được xây dựng dựa trên các tiêu chí như sau:
Những câu hỏi gồm 1 từ hoặc 2 từ như: cối xay gió, tôn giáo…
Những câu hỏi gồm nhiều từ riêng rẽ (không có cấu trúc) như: cây rừng
không khí…
Những câu hỏi gồm các từ đơn giản, phổ biến như: ô nhiễm môi trường,
khủng hoảng kinh tế…
Câu hỏi gồm những từ đặc biệt như: thời đại trung cổ, cúm gia cầm…
Câu hỏi là các câu có cấu trúc như: hướng dẫn cách làm bánh, thay đổi về
chính sách tiền tệ…
Danh sách các câu hỏi được liệt kê trong Bảng 4.3.
Bảng 4.3 Bảng câu hỏi thử nghiệm
Thứ
tự Câu hỏi tiếng Việt Câu hỏi tiếng Anh Tiêu chí
1 lạm phát inflation 1 từ hoặc 2 từ
2 cối xay gió windmill
3 giáo dục education
4 tôn giáo religion
5 nhà hàng restaurant
6 tên lửa missile
7 phân tích thiết kế cơ sở dữ liệu database design and analysis
8 du lịch bằng xe lửa máy bay travel by train or airplane Nhiều từ riêng rẽ
9 cây rừng không khí tree forest air
10 sông hồ nước ngọt river lake water
11 khủng bố cao ốc máy bay terrorism building airplane
12 thị trường địa ốc real estate market
13 hội nghị thượng đỉnh summit meeting
14 trang trí nội thất inhouse decoration
15 thị trường chứng khoán toàn cầu global stock market
Những từ đơn giản
phổ biến
16 giàn khoan dầu oil rig
17 khủng hoảng kinh tế economic crisis
18 ô nhiễm môi trường air pollution
19 rượu vang đỏ red wine
20 trận động đất earthquake
21 phương pháp điện phân electrolysis Những từ đặc biệt
22 thời đại trung cổ medieval time
23 mã não tourmaline
24 vũ khí hạt nhân nuclear weapon
25 bùng nổ dân số population explosion
26 thông tin đội đặc nhiệm
Information of Special
Detachment
53
27 nhà chọc trời skycraper
28 trung tâm mua sắm shopping mall
29 cúm gia cầm bird flu
30 mạng không dây wireless network
31 kiêu hãnh và thành kiến pride and prejudice
32 chế độ dân chủ democracy
33 giao dịch trái phiếu bond trade
34 ma cà rồng vampire
35 khủng hoảng tài chính toàn cầu global financial crisis Câu có cấu trúc
36 hệ thống giáo dục tại Hoa Kỳ education system in US
37 du lịch bằng kinh khí cầu travelling by airship
38 lãi suất của ngân hàng bank interest
39 trang phục mùa hè summer costume
40 trang trí phòng tắm hiện đại decorade modern bath room
41 hướng dẫn cách làm bánh cake making intruction
42 làm gì khi bị say xe
what should do when having car
sick
43 địa điểm đi du lịch vào mùa hè place to travel in summer
44 dự báo thời tiết hôm nay weather forecase for today
45
di chuyển bằng xe máy trong thành
phố travelling by motorbike in the city
46 thay đổi về chính sách tiền tệ change for monetary policy
47
lợi ích của việc di chuyển bằng xe
buýt advantage of travelling by bus
48 kiểu nhà trong thành phố house model in the city
49 ngành nông nghiệp lúa nước rice agriculture
50 tuổi thọ của chó dog's age
Việc xây dựng tập câu hỏi bao gồm nhiều tiêu chí như trên để đảm bảo việc thử
nghiệm được trải rộng trên nhiều trường hợp khác nhau nhằm mục đích đánh giá hệ
thống một cách đầy đủ hơn. Tập câu hỏi bao gồm 50 câu hỏi tiếng Việt sau khi
được xây dựng theo các tiêu chí trên sẽ được dịch sang tiếng Anh. Việc dịch sang
tiếng Anh này do người có trình độ tiếng Anh tốt dịch nhằm đảm bảo tính đúng đắn
khi dịch.
Việc thử nghiệm được tiến hành bằng cách tìm kiếm xuyên ngữ bằng nhiều
phương pháp khác nhau nhằm mục đích so sánh giữa các phương pháp tìm kiếm
xuyên ngữ (trong đó bao gồm cả cách tiếp cận của luận văn). Bên cạnh đó, việc tìm
kiếm đơn ngữ trên tập câu hỏi tiếng Anh cũng được thực hiện để có thể so sánh kết
quả đạt được của tìm kiếm xuyên ngữ với kết quả tìm kiếm đơn ngữ.
54
Với mỗi câu truy vấn tiếng Việt, hệ thống thực hiện chuyển ngữ và tìm kiếm
thông qua Google với câu truy vấn là câu chuyển ngữ tiếng Anh (tìm kiếm xuyên
ngữ). Việc chuyển ngữ được thực hiện theo ba cách nhằm mục đích so sánh: chỉ sử
dụng từ điển để chuyển ngữ, sử dụng kết quả thống kê để chuyển ngữ, và kết hợp
việc sử dụng từ điển và kết quả thống kê có được bằng cách sử dụng GIZA++ khai
thác ngữ liệu song song (đây là hướng tiếp cận của luận văn). Bên cạnh đó, việc tìm
kiếm xuyên ngữ còn được thực hiện bằng cách tách từ câu truy vấn tiếng Việt dựa
vào các khoảng trắng trong câu và thực hiện chuyển ngữ bằng việc sử dụng kết quả
thống kê do sử GIZA++ khai thác ngữ liệu song song mà trong đó ngữ liệu tiếng
Việt không qua bước tiền xử lý tách từ tiếng Việt (như đã nêu trong phần 4.2 ở
trên).
Ngoài ra, nhằm mục đích so sánh giữa các cách chuyển ngữ, việc thử nghiệm
còn sử dụng Google Translator để dịch các câu truy vấn tiếng Việt sang tiếng Anh
và ti