Hiện nay, dịch tự động hay dịch máy đã được sử dụng phổ biến
trong cuộc sống, thậm chí có thể trợ giúp một cách hiệu quả cho quá
trình dịch thuật. Các hệ thống dịch tự động trực tuyến có thể dịch giữa
hàng trăm cặp ngôn ngữ khác nhau, đồng thời tích hợp trong nhiều
ứng dụng khác như chat song ngữ, dịch từ hình ảnh, dịch tiếng nói
Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang
lại hiệu quả với chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài
liệu lớn thuộc các lĩnh vực chuyên môn khác nhau. Khi đó các hệ dịch
máy sẽ trở thành công cụ giúp con người tiếp cận kho tri thức khổng
lồ viết bằng các ngôn ngữ khác.
Chính vì vậy, khi sử dụng một hệ thống dịch tự động, người
dùng quan tâm đến chất lượng của bản dịch. Tuy nhiên hiện nay chất
lượng dịch tự động giữa tiếng Việt với các ngôn ngữ khác khá thấp
[24] nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản.
Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội
dung một phần hoặc toàn bộ nội dung chính của văn bản.
Đánh giá chất lượng hệ thống dịch máy là một lĩnh vực nghiên
cứu quan trọng nhằm xác định mức độ hoàn thiện của bản dịch do máy
tính đưa ra, từ đó có thể:
- Xác định mức độ chính xác của các bản dịch do hệ thống dịch
máy tạo ra, từ đó tư vấn và khuyến cáo người dùng khi sử dụng hệ
thống dịch, xác định những lĩnh vực nào mà một hệ thống dịch có thể
mang lại kết quả tốt nhất.
- So sánh chất lượng dịch giữa các hệ thống dịch tự động, đồng
thời làm căn cứ so sánh tính hiệu quả của các mô hình dịch khác nhau
khi đánh giá trên cùng tập dữ liệu.
29 trang |
Chia sẻ: Trịnh Thiết | Ngày: 06/04/2024 | Lượt xem: 353 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Báo cáo Tóm tắt Nghiên cứu giải pháp đánh giá chất lượng dịch tự động Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ
NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
Mã số: B2016-DNA-48-TT
Chủ nhiệm đề tài: ThS. Nguyễn Văn Bình
ĐÀ NẴNG - 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ
Mã số: B2016-DNA-48-TT
ĐỀ TÀI
NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
Chủ nhiệm đề tài: ThS. Nguyễn Văn Bình
Cán bộ tham gia : PGS.TS. Huỳnh Công Pháp
KS. Võ Văn Nam
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
Nguyễn Văn Bình
ĐÀ NẴNG - 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
DANH SÁCH THÀNH VIÊN THAM GIA
- Tên đề tài: NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT
LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
- Mã số : B2016-DNA-48-TT
STT Họ và tên Trách nhiệm
1 ThS. Nguyễn Văn Bình Chủ nhiệm đề tài
2 PGS.TS. Huỳnh Công Pháp Thành viên
3 KS. Võ Văn Nam Thành viên
MỤC LỤC
MỞ ĐẦU ........................................................................................ 1
Chương 1. NGHIÊN CỨU TỔNG QUAN .................................... 3
1.1. Tổng quan hệ thống dịch tự động ........................................... 3
1.2. Các phương pháp đánh giá chất lượng hệ thống dịch ........... 3
1.2.1. Phương pháp đánh giá chủ quan ................................... 3
1.2.2. Phương pháp đánh giá khách quan (đánh giá tự động)... 5
1.3. Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự
động tiếng Việt ............................................................................... 7
Chương 2. TỔ CHỨC ĐÁNH GIÁ CHẤT LƯỢNG CÁC HỆ
THỐNG DỊCH TỰ ĐỘNG TIẾNG VIỆT .................................... 8
2.1. Các hệ thống dịch .................................................................... 8
2.2. Tổ chức đánh giá ..................................................................... 8
2.3. Nhận xét, đánh giá ................................................................ 10
Chương 3. ..................................................................................... 11
ĐỀ XUẤT GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG ................ 11
3.1. Một số tồn tại ......................................................................... 11
3.2. Đề xuất giải pháp đánh giá kết hợp quá trình hiệu đính bản
dịch ............................................................................................... 11
3.2.1. Vấn đề xây dựng kho ngữ liệu phục vụ đánh giá ......... 11
3.2.2. Giải pháp đánh giá chất lượng dịch ............................. 11
3.2.3. Giải pháp kết hợp hiệu đính bản dịch máy và đánh giá
chất lượng 13
3.2.4. Thực nghiệm .............................................................. 13
Kết luận ........................................................................................ 16
DANH MỤC BẢNG BIỂU
Bảng 1.1. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi
chảy ................................................................................................ 4
Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá ............................. 8
Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt ......... 9
Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh ......... 9
Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan ................10
Bảng 3.1. Trung bình các chỉ số trên 5 bộ dữ liệu ...........................14
Bảng 3.2. Kết quả sau khi hiệu chỉnh bản dịch ...............................14
DANH MỤC HÌNH
Hình 1.1. Cấu trúc mô hình dịch tự động ......................................... 3
Hình 2.2. Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống
....................................................................................................... 9
Hình 3.1. Chương trình tính chỉ số Tpe và Ope thông qua quá trình
hiệu đính........................................................................................13
Hình 3.2. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng
hệ thống dịch .................................................................................13
Hình 3.3. Sự tương đồng giữa Tpe, Ope và ED, WER ....................15
Hình 3.4. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh .............15
DANH MỤC CÁC TỪ VIẾT TẮT
Thuật ngữ Tiếng Anh Tiếng Việt
ALPAC
Automatic Language Processing
Advisory Committee
Ủy ban cố vấn xử lý ngôn
ngữ tự động
BLEU
BiLingual Evaluation
Understudy
Chỉ số đánh giá chất lượng
bản dịch BLEU
HTER Human Translation Error Rate
Chỉ số lỗi khi dịch bởi con
người
NIST
National Institute of Standards
and Technology
Chỉ số đánh giá chất lượng
bản dịch NIST
TER Translation Edit Rate Chỉ số đo lỗi bản dịch
WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ
WMT
Workshop on Statistical
Machine Translation
Hội thảo về dịch máy thống
kê
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
- Tên đề tài: NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT
LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
- Mã số : B2016-DNA-48-TT
- Chủ nhiệm: ThS. Nguyễn Văn Bình
- Thành viên tham gia: PGS.TS. Huỳnh Công Pháp, KS. Võ Văn
Nam
- Cơ quan chủ trì: Đại học Đà Nẵng
- Thời gian thực hiện: 24 tháng
2. Mục tiêu:
Mục tiêu chính của đề tài nhằm tổ chức đánh giá chất lượng của
các hệ thống dịch tự động đang được sử dụng phổ biến hiện nay.
Mục tiêu cụ thể:
Xây dựng công cụ hỗ trợ đánh giá chất lượng dịch tự động
tiếng Việt để giúp quá trình đánh giá được nhanh chóng và khách quan.
Tổ chức đánh giá và phân tích kết quả nhằm nêu lên hạn chế
của các hệ thống dịch đang hoạt động.
3. Tính mới và sáng tạo:
Đề tài đã có một số đóng góp đáng kể trong lĩnh vực nghiên cứu
xử lý ngôn ngữ tự nhiên và dịch máy, đã có một số tính mới và sáng
tạo, cụ thể:
Đánh giá được tổng quan chất lượng của các hệ thống dịch tự
động hiện nay và đưa ra một số đề xuất chung nhằm cải tiến chất lượng
hệ thống dịch.
Đề xuất một số chỉ số để đánh giá chất lượng hệ thống dịch
trên cơ sở thừa kế quá trình hiệu đính bản dịch, đồng thời tạo kho ngữ
liệu phục vụ cho hệ thống dịch.
Xây dựng công cụ hỗ trợ đánh giá chất lượng dịch tự động
tiếng Việt để giúp quá trình đánh giá được nhanh chóng và khách quan.
4. Tóm tắt kết quả nghiên cứu:
Kết quả đạt được đã đạt đăng ký so với nội dung trong thuyết
minh, cụ thể trong khuôn khổ đề tài đã có tổng cộng 01 bài báo khoa
học được công bố; hỗ trợ thực hiện đề tài của 01 nghiên cứu sinh và
01 học viên cao học bảo vệ thành công; xây dựng được công cụ hỗ trợ
đánh trích rút dữ liệu các hệ thống dịch và hỗ trợ đánh giá chất lượng;
đề xuất quy trình đánh giá chất lượng của các hệ thống dịch tự động;
đề xuất các chỉ số đánh giá chất lượng hệ thống dịch kết hợp quá trình
hiệu đính bản dịch máy.
5. Tên sản phẩm:
Sản phẩm khoa học:
1 Bài báo: “Cải tiến chất lượng dịch máy kết hợp giải pháp xây
dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch
tự động tiếng Việt”
Tác giả: Huỳnh Công Pháp; Nguyễn Văn Bình.
Tạp chí: Khoa học và Công nghệ Đại học Đà Nẵng, ISSN: 1859-
1531, số 05(114)/2017, trang 46-51.
2 Quy trình đánh giá chất lượng dịch tự động tiếng Việt sang một
ngôn ngữ khác (Phụ lục đính kèm)
Sản phẩm đào tạo:
- Hỗ trợ thực hiện 01 đề tài nghiên cứu sinh (Nguyễn Văn Bình)
- Hướng dẫn thành công 01 Thạc sỹ (Nguyễn Đình Quang
Minh, Khóa K34 Khoa học máy tính tại Trường Đại học Bách khoa -
ĐHĐN).
Sản phẩm ứng dụng:
- Công cụ phần mềm hỗ trợ đánh giá chất lượng dịch tự động
tiếng Việt sang một ngôn ngữ khác.
Sản phẩm khác:
- Báo cáo tổng kết.
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu
và khả năng áp dụng:
Đề tài có ý nghĩa khoa học và có tính ứng dụng cao trong lĩnh
vực dịch tự động tiếng Việt. Kết quả đề tài có thể được ứng dụng trong
thực tiễn và trong lĩnh vực nghiên cứu dịch tự động.
Ngày 20 tháng 03 năm 2019
Cơ quan Chủ trì
Chủ nhiệm đề tài
Nguyễn Văn Bình
INFORMATION ON RESEARCH RESULTS
1. General information:
Project title: RESEARCH ON METHODS TO IMPROVE
QUALITY OF VIETNAMESE-RELATED MACHINE
TRANSLATION
Code number: B2016-DNA-48-TT
Project Leader: Nguyễn Văn Bình
Coordinator: Huỳnh Công Pháp, Võ Văn Nam
Implementing institution: The University of Danang
Duration: 24 months
2. Objectives:
The main objective of this project is to research on methods to improve
quality of machine translation of translation systems that are in
common use today. Namely, this project focuses on 2 aspects as
follows:
• Develop a tool to support the evaluation process of Vietnamese-
related automated translation quality to help this process be quick and
objective.
• Organize the evaluation campaign and analysis results to address the
limitations of current machine translation systems.
3. Creativeness and innovativeness:
Some research results of this project importantly contribute to
the development of the natural language processing domain and
machine translation domain with the creativeness and innovativeness
as follows:
• Evaluating the quality of current machine translation systems
and provide some general suggestions to improve the quality of
machine translation system.
• Proposing new indicators and solutions to combine improving
quality of machine translation and solutions of creating corpora for
machine translation evaluation in Vietnamese.
• Develop a tool to support evaluation process of machine
translation quality related to Vietnamese to help this process be quick
and objective.
4. Research results:
The obtained results well match with the project proposal,
namely in the framework of this project there have been: 01 scientific
papers published; 01 PhD candidate participating in this project and
01 masters’ thesises defended; a build system of supporting extract
data on translation systems and evaluation process of machine
translation quality; proposing new indicators and solutions of
evaluation machine translation systems; proposing quality assessment
for evaluation machine translation for Vietnamese-related systems.
5. Products:
Research products:
- 01 paper:
o Nguyen Van Binh, Huynh Cong Phap (2017), Cải tiến chất
lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục
vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt. Tạp
chí Khoa học và Công nghệ Đại học Đà Nẵng, ISSN: 1859-
1531, 05(114)/2017, pp 46-51.
Training products:
o 01 PhD’s and 01 masters’ thesises sucessfully defended
(Nguyễn Văn Bình, Nguyễn Đình Quang Minh).
Applications:
o A system for evaluation of machine translation.
Other products:
o Quality assessment for evaluation machine translation for
Vietnamese-related systems.
o A final report.
6. Effects, transfer alternatives of reserach results and
applicability:
This research project has good scientific significants and
applicabilities in the natural language processing and machine
translation domain.
1
MỞ ĐẦU
Hiện nay, dịch tự động hay dịch máy đã được sử dụng phổ biến
trong cuộc sống, thậm chí có thể trợ giúp một cách hiệu quả cho quá
trình dịch thuật. Các hệ thống dịch tự động trực tuyến có thể dịch giữa
hàng trăm cặp ngôn ngữ khác nhau, đồng thời tích hợp trong nhiều
ứng dụng khác như chat song ngữ, dịch từ hình ảnh, dịch tiếng nói
Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang
lại hiệu quả với chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài
liệu lớn thuộc các lĩnh vực chuyên môn khác nhau. Khi đó các hệ dịch
máy sẽ trở thành công cụ giúp con người tiếp cận kho tri thức khổng
lồ viết bằng các ngôn ngữ khác.
Chính vì vậy, khi sử dụng một hệ thống dịch tự động, người
dùng quan tâm đến chất lượng của bản dịch. Tuy nhiên hiện nay chất
lượng dịch tự động giữa tiếng Việt với các ngôn ngữ khác khá thấp
[24] nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản.
Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội
dung một phần hoặc toàn bộ nội dung chính của văn bản.
Đánh giá chất lượng hệ thống dịch máy là một lĩnh vực nghiên
cứu quan trọng nhằm xác định mức độ hoàn thiện của bản dịch do máy
tính đưa ra, từ đó có thể:
- Xác định mức độ chính xác của các bản dịch do hệ thống dịch
máy tạo ra, từ đó tư vấn và khuyến cáo người dùng khi sử dụng hệ
thống dịch, xác định những lĩnh vực nào mà một hệ thống dịch có thể
mang lại kết quả tốt nhất.
- So sánh chất lượng dịch giữa các hệ thống dịch tự động, đồng
thời làm căn cứ so sánh tính hiệu quả của các mô hình dịch khác nhau
khi đánh giá trên cùng tập dữ liệu.
2
- Làm căn cứ để đánh giá chính hệ thống dịch và đưa ra những
giải pháp nhằm nâng cao chất lượng của hệ thống dịch.
Hiện nay, có nhiều phương pháp và độ đo khác nhau để đánh
giá chất lượng dịch tự động, có thể nhóm thành hai loại chính là đánh
giá chủ quan (subjective evaluation) và đánh giá khách quan (objective
evaluation).
Đánh giá chủ quan do con người trực tiếp thực hiện, dựa trên
việc đánh giá thang điểm cho các tiêu chí được xây dựng sẵn: đánh giá
tính chính xác, đầy đủ thông tin và đánh giá sự trôi chảy của câu dịch.
Cách đánh giá chủ quan cho kết quả tin cậy nhưng tốn nhiều thời gian
và chi phí, có phụ thuộc vào khả năng của người đánh giá.
Đánh giá khách quan là sử dụng các chương trình thay cho con
người để đánh giá. Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của
kết quả từ hệ thống dịch với câu dịch tham khảo đã có sẵn, sử dụng
các thang đo như BLEU, NIST, WER, TER
Nội dung nghiên cứu của đề tài này tập trung ba phần chính:
- Nghiên cứu các phương pháp đánh giá chất lượng hệ thống
dịch tự động phổ biến hiện nay
- Xây dựng chiến dịch đánh giá chất lượng một số hệ thống dịch
Anh – Việt phổ biến hiện nay và thực hiện đánh giá, phân tích kết quả
- Đề xuất giải pháp kết hợp đánh giá chất lượng các hệ thống
dịch tự động với quá trình cải tiến chất lượng bản dịch máy và xây
dựng kho ngữ liệu phục vụ đánh giá chất lượng các hệ thống dịch tự
động tiếng Anh – tiếng Việt hiện nay
3
CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN
1.1. Tổng quan hệ thống dịch tự động
Một hệ dịch tự động (hay còn gọi là dịch máy) là một hệ thống
sử dụng máy tính để chuyển đổi văn bản được viết trong ngôn ngữ tự
nhiên này thành bản dịch tương đương trong ngôn ngữ khác.
Hình 1.1. Cấu trúc mô hình dịch tự động
Hiện nay đã có nhiều phương pháp dịch được nghiên cứu và
ứng dụng ở các hệ thống dịch để dịch giữa hàng trăm ngôn ngữ khác
nhau. Những mô hình dịch mang lại hiệu quả cao có thể kể đến là
phương pháp dịch dựa trên ví dụ, phương pháp dịch dựa trên luật,
phương pháp dịch thống kê và phương pháp dịch sử dụng mạng rơ
ron.
1.2. Các phương pháp đánh giá chất lượng hệ thống dịch
1.2.1. Phương pháp đánh giá chủ quan
a. Đánh giá tính trôi chảy và tính đầy đủ sử dụng thang điểm
Hai trong số các thông số đánh giá thông dụng bằng phương
pháp chủ quan do con người thực hiện là tính trôi chảy (fluency) và
tính đầy đủ (adequacy). Đánh giá tính trôi chảy yêu cầu người đánh
giá phải là một người nói thông thạo ngôn ngữ cần đánh giá, thực hiện
4
việc đánh giá xem kết quả của bản dịch có trôi chảy hay không, bất kể
kết quả này có chính xác với câu nguồn hoặc không.
Kịch bản đơn giản để thực hiện một bản đánh giá chất lượng
bản dịch máy như sau:
Dữ liệu đầu vào:
- Bản dịch do máy tính tạo ra
- Văn bản ở ngôn ngữ nguồn (source language)
- Bản dịch chính xác dùng để tham khảo (reference translation)
Nhiệm vụ:
- Đánh giá chất lượng của bản dịch do máy tính tạo ra
Để cụ thể hóa việc đánh giá chất lượng theo phương pháp chủ
quan, thông thường người ta sử dụng các thang đo đối với tính đầy đủ
và tính trôi chảy.
Bảng 1.1. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy
Adequacy
(Tính đầy đủ thông tin)
Fluency (Tính trôi chảy)
5 all meaning 5 flawless English
4 most meaning 4 good English
3 much meaning 3 non-native English
2 little meaning 2 disfluent English
1 none 1 incomprehensible
b. Đánh giá bằng hình thức xếp hạng
Phương pháp đánh giá bằng hình thức xếp hạng được giới thiệu
tại WMT 2007 nhằm khắc phục một số hạn chế khi đánh giá bởi chỉ
số tính đầy đủ và tính trôi chảy. Phương pháp này thay thế các thang
điểm bằng sự đánh giá tương quan giữa các bản dịch thông qua việc
xếp hạng. Đối với phương pháp này, người đánh giá nhận được một
bản dịch tham chiếu chính xác (reference translation) và các bản dịch
máy cần đánh giá. Người đánh giá thực hiện việc xếp hạng các bản
5
dịch từ tốt nhất đến tệ nhất.
c. Đánh giá thông qua hiệu đính bản dịch
Hiệu đính bản dịch là quá trình chỉnh sửa bản dịch máy thành
một bản dịch chính xác. Thay vì trực tiếp đánh giá các chỉ số chất
lượng một cách tương đối hay tuyệt đối, phương pháp đánh giá thông
qua hiệu đính bản dịch thực hiện đo đạc số lượng tối thiểu công việc
cần thiết để chỉnh sửa một bản dịch máy thành bản dịch chính xác.
Một trong các chỉ số thông dụng nhất khi áp dụng phương pháp này là
HTER (human-targeted translation edit rate), đây cũng là phương
pháp đánh giá bán tự động khi vừa dựa trên sử chỉnh sửa chủ quan của
con người, vừa sử dụng các công thức để tính toán tự động.
Phương pháp đánh giá chủ quan có những nhược điểm như sau:
- Chi phí cao
- Không thể tái sử dụng
- Tốc độ chậm
- Kết quả mang tính chủ quan
1.2.2. Phương pháp đánh giá khách quan (đánh giá tự động)
Các chỉ số đánh giá tự động như BLEU, NIST, METEOR,
WER, PER, GTM, TER, CDER đã được nghiên cứu và phát triển
để cải thiện những nhược điểm của phương pháp đánh giá chủ quan
như chi phí cao, không thể tái sử dụng, kết quả mang tính chủ quan,
tốc độ thực hiện chậm, đồng thời hướng đến quá trình tự động điều
chỉnh các tham số đánh giá phù hợp. Những chỉ số này được đề xuất
dựa trên quá trình tự động so sánh giữa kết quả bản dịch với bản dịch
tham chiếu do chuyên gia thực hiện, thông thường bằng cách xem xét
sự trùng khớp thông qua n-gram.
a. Chỉ số WER (Word Error Rate)
b. Chỉ số MWER (Multi-Reference WER)
c. Chỉ số PER (Position-independent Error Rate)
d. Chỉ số TER (Translation Error Rate)
6
e. Chỉ số BLEU
BLEU là một phương pháp dùng để đánh giá chất lượng bản
dịch được đề xuất bới IBM tại hội nghị ACL ở Philadelphie vào tháng
7-2001. Ý tưởng chính của phương pháp là so sánh kết quả bản dịch
tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu.
Việc so sánh được thực hiện thông qua việc thống kê sự trùng khớp
của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu
(phương pháp n-grams theo từ) [11].
Công thức để tính điểm BLEU như sau [22]:
Trong đó, pn là điểm số “Precision” phản ánh tỷ lệ trùng khớp
của các n-gram của các bản dịch so với bản tham chiếu.
wn là trọng số tương ứng với chiều dài của n-gram
BP (brevity penalty) là trọng số xác định bởi chiều dài của bản
dịch và chiều dài của bản tham chiếu.
f. Chỉ số NIST
Phương pháp NIST [29] là sự phát triển trên phương pháp
BLEU nhưng có một khác biệt về quan điểm đánh giá là việc chọn lựa
n-grams và thông tin trên mỗi n-gram sẽ được sử dụng để phục vụ việc
đánh giá.
Công thức để tính điểm của NIST như sau [12]:
7
N
i ref
tra
Dww
i
ww
n
L
L
p
ww
score
tran
n
1
2
...
...
1
1,minlogexp.)log(
)...inf(
1
1
Những trọng số thông tin là được sử dụng để tính toán trên các n-
grams trong tập tất cả các các bản dịch tham khảo theo phương trình sau:
2
1
21 log)...inf( N
Nww n
N1 = số lượng các tương ứng của các từ w1wn-1
N2 = số lượng các tương ứng của các từ w1wn
là hệ số được chọn bằng 0.5 khi số lượng các từ trong bản
dịch máy nhỏ hơ