Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát vềhệthống UNL và
đềxuất giải pháp xây dựng từ điển UNL – tiếng Việt phục vụcho hệthống dịch đa ngữUNL.
UNL (Universal Networking Language) là ngôn ngữmáy tính nhằm mục đích xửlý thông tin và
tri thức mà không bịcản trởbởi rào cản ngôn ngữ. Đây là ngôn ngữnhân tạo cho phép đặc tả
ngôn ngữtựnhiên theo cách truyền thông của con người. Mục đích cuối cùng là cho phép con
người diễn đạt ngôn ngữtựnhiên thông qua ngôn ngữnày. Nó cũng cho phép các máy tính
liên lạc được với nhau nhờcác tính năng gửi, nhận và hiểu được thông tin đa ngữ. Chúng tôi
sẽtập trung trình bày những nghiên cứu vềcấu trúc từ điển UNL, từ điển UNL- Tiếng Pháp, từ
điển Anh - Việt và trên cơsở đó đềxuất giải pháp xây dựng từ điển UNL – tiếng Việt.
9 trang |
Chia sẻ: superlens | Lượt xem: 1612 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Nghiên cứu xây dựng từ điển cho hệ thống dịch tự động UNL - Tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
208
NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN
CHO HỆ THỐNG DỊCH TỰ ĐỘNG UNL – TIẾNG VIỆT
A CASE STUDY ON THE BUILDING OF A DICTIONARY FOR MACHINE
TRANSLATION USING UNL - VIETNAMESE
Nguyễn Hữu Siêu
Trường THPT chuyên
Lê Quý Đôn – Đà Nẵng
Lâm Tùng Giang
Trung tâm Tin học –
Văn phòng UBND
Thành phố Đà Nẵng
Võ Trung Hùng
Trường Đại học Bách khoa,
Đại học Đà Nẵng
TÓM TẮT
Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát về hệ thống UNL và
đề xuất giải pháp xây dựng từ điển UNL – tiếng Việt phục vụ cho hệ thống dịch đa ngữ UNL.
UNL (Universal Networking Language) là ngôn ngữ máy tính nhằm mục đích xử lý thông tin và
tri thức mà không bị cản trở bởi rào cản ngôn ngữ. Đây là ngôn ngữ nhân tạo cho phép đặc tả
ngôn ngữ tự nhiên theo cách truyền thông của con người. Mục đích cuối cùng là cho phép con
người diễn đạt ngôn ngữ tự nhiên thông qua ngôn ngữ này. Nó cũng cho phép các máy tính
liên lạc được với nhau nhờ các tính năng gửi, nhận và hiểu được thông tin đa ngữ. Chúng tôi
sẽ tập trung trình bày những nghiên cứu về cấu trúc từ điển UNL, từ điển UNL- Tiếng Pháp, từ
điển Anh - Việt và trên cơ sở đó đề xuất giải pháp xây dựng từ điển UNL – tiếng Việt.
ABSTRACT
In this paper, we introduce general information about Universal Networking Language
(UNL) and propose solution to build the UNL – Vietnamese dictionary for the UNL multilingual
translation system. UNL is a computer language that enables computers to process information
and knowledge across language barriers. It is an artificial language that replicates, in the cyber
world, the functions of natural languages in human communication. As a result, it enables
people to express their ideas through natural languages. It also enables computers to
intercommunicate; thus, providing people with a linguistic infrastructure for distributing, receiving
and understanding multilingual information. Here, we focus on our research on structure of the
UNL dictionary, the UNL-French dictionary, English – Vietnamese dictionary and our suggestion
towards building the UNL – Vietnamese dictionary.
1. Giới thiệu
Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu
lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội... Cùng với sự phát triển
này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đó chúng
ta có thể tìm thấy thông qua hệ thống mạng Internet. Tuy nhiên, lượng thông tin trên
mạng Internet vẫn chưa được khai thác hết bởi nhiều lý do và một trong những lý do quan
trọng nhất là rào cản về ngôn ngữ. Giải pháp quan trọng nhằm phá bỏ rào cản ngôn ngữ là
phát triển các hệ thống dịch tự động. Đến nay, nhiều hệ thống dịch tự động đã được phát
triển và đưa vào sử dụng rộng rãi như Systran, IBM Translator, Reverso,
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
209
Tuy nhiên, những hệ thống này đang phải đối mặt với rất nhiều vấn đề như sự đa
nghĩa của từ, sự nhập nhằng về ngữ nghĩa, sự phụ thuộc vào ngữ cảnh và sự khác biệt
về giải thích các khái niệm. UNL đề xuất một cách tiếp cận mới về dịch tự động thông
qua ngôn ngữ trung gian (ví dụ, thay vì dịch trực tiếp từ tiếng Anh sang tiếng Pháp, ta
dịch từ tiếng Anh sang UNL và sau đó từ UNL sang tiếng Pháp). Ngôn ngữ trung gian
này được xem như một ngôn ngữ “nhân tạo” và có thể biểu đạt được ý nghĩa của một
nội dung bất kỳ nào trên máy tính dưới dạng ngôn ngữ. UNL có ý nghĩa quan trọng
trong việc đơn giản hóa việc phát triển các hệ thống dịch tự động. Ví dụ cho trường hợp
tiếng Việt, thay vì phải phát triển các hệ thống dịch tự động cho các cặp tiếng Việt –
Nga, Việt – Anh, Việt – Pháp, ta chỉ cần phát triển một cặp Việt – UNL để có thể
dịch sang tất cả các ngôn ngữ khác đã được hỗ trợ bởi UNL (Nga, Anh, Pháp,).
Trong bài báo này, chúng tôi sẽ giới thiệu kiến trúc hệ thống và cấu trúc từ điển của
UNL, sau đó đề xuất giải pháp tự động xây dựng từ điển UNL – tiếng Việt dựa trên từ
điển UNL – Pháp và từ điển Anh – Việt theo Dict Format (tiêu chuẩn định dạng từ điển
đề xuất bởi DICT Development Group và được sử dụng rộng rãi cho các từ điển mã
nguồn mở).
2. Giới thiệu về hệ thống UNL
UNL là ngôn ngữ nhân tạo nhằm mục đích mô tả ý nghĩa của các câu thông qua
khái niệm lược đồ của mạng ngữ nghĩa. Nó cho phép biểu diễn tất cả các câu viết trong
các ngôn ngữ tự nhiên theo cùng cách thức thông qua việc sử dụng một đồ thị ngữ nghĩa
đơn. Khi một đồ thị kiểu này được xây dựng, nó có thể được chuyển đến bất kỳ một
ngôn ngữ nào khác. Hệ thống UNL cho phép viết lại một câu trong bất kỳ ngôn ngữ nào
trên Internet đến định dạng của UNL trước khi dịch nó sang một một ngôn ngữ khác.
Nó là cơ sở để xử lý ngữ nghĩa của ngôn ngữ tự nhiên bằng máy tính và ý nghĩa của nó
không chỉ phục vụ việc dịch tự động mà còn hỗ trợ nhiều hoạt động xử lý ngôn ngữ
khác từ những ứng dụng e-learning cho đến quản trị những tài liệu đa ngữ.
UNL là một ngôn ngữ độc lập, nó cung cấp những nền tảng và công cụ để làm
việc ở mức độ ngữ nghĩa, nó cho phép sử dụng lược đồ của cấu trúc mạng ngữ nghĩa
tương đương, trong đó các nút là các từ và các cung là quan hệ ngữ nghĩa giữa các từ
này. Nó là một ngôn ngữ trung gian dành cho dịch tự động [8].
Ví dụ, câu “John, who is the chairman of the company, has arranged a meeting at
his residence” sẽ được viết trong ngôn ngữ UNL như sau:
[S]
mod(chairman(icl>post).@present.@def,company(icl>institution).@def)
aoj(chairman(icl>post).@present.@def, John(icl>person))
agt(arrange(icl>do).@entry.@present.@complete.@pred,John(icl>person))
pos(residence(icl>shelter), John(icl>person))
obj(arrange(icl>do).@entry.@present.@complete.@pred,meeting(icl>conference).@i
ndef)
plc(arrange(icl>do).@entry.@present.@complete.@pred,residence(icl>shelter))
[/S]
Hoặc được biểu diễn lại dưới dạng đồ thị :
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
210
Hình 1. Biễu diễn một câu dưới dạng đồ thị theo UNL
Kiến trúc hệ thống UNL dựa trên hai tiến trình chính là chuyển văn bản từ ngôn ngữ
tự nhiên sang ngôn ngữ trung gian UNL (EnConverter) và chuyển từ UNL về ngôn ngữ
tự nhiên (DeConverter) như sau:
Hình 2. Qui trình dịch tự động trong UNL
Ngoài ra, cần có các dữ liệu về ngôn ngữ như từ điển, qui tắc ngữ pháp
và mỗi một ngôn ngữ được nhúng vào hệ thống chung theo sơ đồ hoạt động như hình
sau :
Hình 3. Qui trình chi tiết dịch tự động trong UNL
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
211
3. Cấu trúc từ vựng UNL
Một từ vựng UNL không chỉ là một đơn vị của cú pháp và ngữ nghĩa của UNL
để diễn tả khái niệm mà còn là yếu tố cơ bản của UNL để diễn tả một câu hoặc một khái
niệm phức tạp.
Về mặt cấu trúc, mỗi UW (Universal Word) là một chuỗi các ký tự với các ràng
buộc:
::= []
::=
::= “(“ [ “,” ] “)”
::= { “>” | “ [] |
{ “>” | “ []
[ { “>” | “ [] ]
::= “agt” | and” | “aoj” | “obj” | “icl” | ...
::= “A” | ... | “Z” | “a” | ... | “z” | 0 | 1 | 2 | ... | 9 | “_”
| ” “ | “#” | “!” | “$” | “%” | “=” | “^” |
“~” | “|” | “@” | “+” | “-“ | “” | “?”
Trong đó, headword (từ mục) là một từ đơn/từ ghép/câu/cụm từ tiếng Anh mà
nó được xem như là nhãn của một tập các khái niệm, là tập được tạo nên các khái niệm
tương tự với nhau trong tiếng Anh. Từ vựng mở rộng chỉ các khái niệm mới mà nó
không có trong tiếng Anh. Vì thế từ mục giúp tổ chức các khái niệm một cách có hệ
thống và dễ nhớ hơn.
Các constraint (ràng buộc) là sự giải nghĩa của từ vựng thành các tập con hoặc
là các khái niệm đặc biệt chứa trong từ vựng cơ bản tạo thành “từ vựng ràng buộc”. Ví
dụ : từ vựng cơ bản “drink” không có ràng buộc bao gồm các khái niệm “cho chất lỏng
vào miệng”, “chất lỏng được cho vào miệng”, “chất lỏng với cồn”, “hút”, Từ vựng
ràng buộc “drink (agt>thing, obj>liquid)” chỉ tập con của các khái niệm “cho chất
lỏng vào miệng” và nó phù hợp với động từ “uống (drink)”, “nuốt (gulp)”, “slurp”,
“chug” trong tiếng Anh.
Ràng buộc của từ vựng được tạo nên bởi cặp các quan hệ và từ vựng được định
nghĩa (còn gọi là thành phần biểu diễn của từ vựng). Nếu có nhiều ràng buộc thì các
ràng buộc phân cách nhau bởi dấu phẩy. Một từ vựng ràng buộc được định nghĩa thông
qua Master Definition. Trong Master Definition, nghĩa đầy đủ của từ vựng được định
nghĩa phải được miêu tả trong ràng buộc.
Các relation label (nhãn quan hệ) sử dụng trong danh sách ràng buộc phải được
định nghĩa trong UNL specifition và nên được sắp xếp theo thứ tự ABC nếu có nhiều
hơn một ràng buộc được định nghĩa. Để định nghĩa nghĩa của từ vựng một cách chính
xác hơn chẳng hạn, tập con khái niệm của từ vựng luôn được định nghĩa ở bên trong của
từ vựng cấp cao hơn và có nghĩa tổng quát hơn. Việc định nghĩa liên kết của từ vựng
thông qua quan hệ “icl”.
4. Từ điển UNL – FR
Hiện nay đã có nhiều nghiên cứu về hệ thống UNL, trong phần minh họa của bài
báo chúng tôi sử dụng từ điển UNL-FR (hơn 39.000 từ) do nhóm GETA (Groupe
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
212
d’Etudes pour la Traduction Automatique) xây dựng. Cấu trúc chung một mục từ trong
từ điển UNL-FR như sau:
[mục từ tiếng Pháp] {các thuộc tính } "headword_tiếng Anh(các giới hạn ngữ
nghĩa)";
Do từ điển UNL-FR được xây dựng từ từ điển UNL-English nên mục từ tiếng
Anh của từ điển UNL-English được thay bằng mục từ tiếng Pháp, tất cả những thông tin
còn lại được giữ nguyên theo từ điển UNL – English.
Ví dụ: Cấu trúc một mục từ “avoir” trong từ điển UNL-FR:
Hình 4. Mục từ “avoir”trong từ điển UNL-FR
Nội dung nằm trong dấu ngoặc vuông [] chứa mục từ tiếng Pháp và sau đó
headword tương ứng tiếng Anh (ở đây avoir = have). Chúng tôi sử dụng trường
headword_tiếng Anh này để liên kết với headword mục từ tương ứng trong từ điển
Anh – Việt .
Nằm giữa dấu ngoặc kép {} là các thuộc tính của từ tiếng Pháp như CATV =
động từ, CATN = danh từ, CATADV= phó từ, CATADJ = tính từ, Chúng ta sử dụng
các thuộc tính này để liên kết với từ loại trong từ điển Anh – Việt.
5. Từ điển Anh – Việt
Hiện nay, www.dict.org đã xây dựng một định dạng từ điển rất dễ sử dụng, định
dạng này đã được một số cá nhân sử dụng để xây dựng những bộ từ điển khá lớn. Có
nhiều bộ từ điển thông dụng đã được cộng đồng phát triển. Trong các nghiên cứu của
mình, chúng tôi sử dụng bộ từ điển Anh – Việt của tác giả Hồ Ngọc Đức
( để trích phần nội dung tiếng Việt. Về
chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính tả như trong từ điển Hoàng
Phê. Về mã tiếng Việt, tác giả sử dụng bộ mã Unicode.
Định dạng Dict được mô tả như sau: toàn bộ cơ sở dữ liệu được chứa trong 2 tập
tin, một tập tin chứa nghĩa của từ và một tập tin index (chỉ mục). Tập tin index bao gồm
tên từ, vị trí nghĩa của từ bắt đầu trong tập tin chứa nghĩa và độ dài của nghĩa.
Cấu trúc tổng quát của file chứa nghĩa gồm các phần như sau:
@headword
* tu loai (noun, verb...)
- dinh nghia 1
= cau vi du cho dinh nghia 1 + nghia cua cau do
- dinh nghia 2
= cau vi du cho dinh nghia 2 + nghia cua cau do
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
213
* tu loai
- dinh nghia 3
Ví dụ cấu trúc mục từ “abalone” như sau:
Hình 5. Chi tiết mục từ “abalone” trong từ điển Anh – Việt
Chúng tôi sử dụng trường headword nằm sau ký tự @ để so sánh với
headword_tiếng Anh của mục từ tiếng Pháp trong từ điển UNL-FR.
6. Giải pháp đề xuất
Qua nghiên cứu cấu trúc từ điển UNL-FR và từ điển Anh-Việt theo chuẩn Dict,
chúng tôi đề xuất các bước xây dựng tự động dữ liệu từ vựng UNL - tiếng Việt như sau:
Bước 1 : Trích một mục từ tiếng Pháp trong từ điển UNL-FR
Bước 2 : Trích headword_tiếng Anh và các thuộc tính đi cùng như CATV,CATN,
CATADJ
Bước 3 : Trích một mục từ trong từ điển Anh – Việt
Bước 4 : Trích headword và các thông tin từ loại như động từ, danh từ,
Bước 5 : So sánh 2 headword vừa lấy từ 2 từ điển (bước 2 và bước 4)
Nếu giống nhau thì tùy theo từ loại là danh từ, động từ, tính từ,
sẽ gán nghĩa tiếng Việt vào nội dung mục từ tiếng Pháp tương ứng
Æ được 1 mục từ UNL – tiếng Việt
Æ lưu mục từ vừa tạo vào cơ sở dữ liệu từ điển UNL - tiếng Việt.
Bước 6 : Quá trình sẽ lặp lại cho đến khi hết các mục từ trong từ điển UNL-FR.
Minh họa cách tạo một mục từ UNL – tiếng Việt dựa vào mục từ tiếng Pháp là
“affecter” của UNL-FR kết hợp với từ điển Anh-Việt như sau:
• Trích nội dung mục từ “affecter” trong từ điển UNL-FR ta được:
[affecter]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
• Trích headword_tiếng Anh là động từ “assign” (vì CATV = động từ)
• Trích headword là “assign” trong từ điển Anh – Việt
@assign
* danh từ
- (pháp lý) người được quyền thừa hưởng (tài sản, quyền lợi)
* động từ
- phân việc, phân công
=to be assigned to do something+ được giao việc gì
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
214
- ấn định, định
=to assign the day for a journey+ ấn định ngày cho cuộc hành trình
=to assign a limit+ định giới hạn
- chia phần (cái gì, cho ai)
- cho là, quy cho
=to assign reason to (for) something+ cho cái gì là có lý do; đưa ra lý do để
giải thích cái gì
- (pháp lý) nhượng lại
=to assign one's property to somebody+ nhượng lại tài sản cho ai
• Vì CATV tương ứng với động từ nên hệ thống tự động trích lấy nội dung các động
từ tiếng Việt tương ứng là: phân việc, phân công, ấn định, định, chia phần, cho là,
quy cho, nhượng lại.
• Kết quả các mục từ UNL – tiếng Việt do hệ thống tự động tạo ra:
[phân_việc]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[phân_công]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[ấn_định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[chia_phần]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[cho_là]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[quy_cho]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[nhượng_lại]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
Với các bước tiến hành như trên, chúng tôi đề nghị mô hình hệ thống tự động
xây dựng từ điển UNL – Việt như sau:
Hình 6. Mô hình hệ thống
(2)
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
215
(1) Cơ sở dữ liệu từ điển UNL – tiếng Việt đã được cập nhật, bổ sung nhờ các chuyên
gia ngôn ngữ hoặc các thành viên tham gia.
(2) Cơ sở dữ liệu cần bổ sung bao gồm nhưng mục từ trong UNL-FR không tìm thấy
trong từ điển Anh – Việt. Đây là nhiệm vụ cần nghiên cứu trong tương lai để
hoàn chỉnh hơn nữa từ điển UNL – tiếng Việt
7. Thử nghiệm
Với mô hình hệ thống như trên, chúng tôi đã xây dựng một hệ thống tự động tạo
từ điển UNL – tiếng Việt. Hệ thống đã được thử nghiệm với từ điển UNL – FR (khoảng
39.000 từ) và từ điển Anh – Việt của Hồ Ngọc Đức (khoảng 110.000 từ).
Một số thông tin thống kê:
Headword của UNL-FR không tìm được trong từ điển Anh – Việt 14.517 36.85%
Headword của UNL-FR tìm thấy trong từ điển Anh – Việt 24.872 63.14%
Bảng 1. Kết quả so sánh headword từ điển UNL-FR và Anh – Việt
Kết quả tạo ra được từ điển UNL-Việt như sau:
Danh từ Tính từ Trạng từ Động từ
UNL-Việt
95.921 33.304 23.871 94.667
Tổng cộng 247.763 từ
Bảng 2. Kết quả các từ loại trong từ điển UNL - tiếngViệt
Từ kết quả ở hai bảng trên, ta dễ dàng nhận thấy việc xây dựng từ điển UNL –
tiếng Việt bằng phương pháp so sánh các headword dựa vào từ điển UNL-FR và Anh –
Việt đã tạo được một số lượng khá lớn từ vựng (247.763 từ). Những headword trong từ
điển UNL-FR không tìm thấy trong từ điển Anh – Việt (bảng 1) là 36.85% có thể giải
thích bởi các nguyên nhân như sau:
- Hệ thống chưa xử lý hết cấu trúc chi tiết bên trong của mỗi mục từ trong từ điển
Anh – Việt. Ví dụ trong từ điển UNL-FR có headword là “hurry_up”, nhưng
trong từ điển Anh – Việt headword chỉ có “@hurry”, còn “hurry_up” là các chi
tiết bên trong của động từ “hurry”.
- Từ trong Anh – Việt chưa đầy đủ hoặc chưa khai thác hết các thuộc tính nằm
trong các CAT của UNL-FR.
8. Kết luận
Những kết quả đạt được mặc dù vẫn còn một số hạn chế nhưng đã đạt được một
số thành công nhất định. Kết quả lớn nhất mà chúng tôi đạt được là nghiên cứu có hệ
thống về UNL và tính khả thi của giải pháp xây dựng từ điển tự động cho UNL – tiếng
Việt dựa vào những nguồn dữ liệu đã có. Đây chính là tiền đề quan trọng cho việc
nghiên cứu xây dựng các môđun tiếp theo trong quá trình ứng dụng UNL cho dịch tự
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
216
động tiếng Việt. Do UNL hiện nay chưa được phổ biến ở Việt Nam nhưng chúng tôi
may mắn kế thừa những kết quả tốt nhất có được từ nguồn dữ liệu của UNL-FR và từ
điển Anh – Việt của tác giả Hồ Ngọc Đức. Chúng tôi chỉ tập trung xây dựng một hệ
thống minh họa về giải pháp của mình và tiến hành trên các từ loại phổ biến như động
từ (Verb), danh từ (Noun), tính từ (Adjective) và phó từ (Adverb). Kết quả đạt được
khoảng 247.763 mục từ UNL – tiếng Việt ở dạng thô, công việc hoàn thiện từ điển cần
có sự đầu tư và nghiên cứu nghiêm túc để thực hiện. Bên cạnh đó, dữ liệu từ điển rất
lớn, nên vấn đề xây dựng từ điển là lựa chọn số một và khâu chỉnh sửa sai sót vẫn còn
đặt ra nhiều vấn đề cần được tiếp tục giải quyết.
Trên cơ sở nghiên cứu một cách đầy đủ và có hệ thống về UNL, cũng như giải
pháp xây dựng hệ thống tự động tạo từ điển UNL - tiếng Việt sẽ tạo tiền đề cho việc
nhanh chóng xây dựng thành công hệ thống dịch tự động đa ngữ cho tiếng Việt trong
tương lai.
TÀI LIỆU THAM KHẢO
[1] Võ Trung Hùng, “Nghiên cứu và ứng dụng UNL cho xử lý tiếng Việt“, Tạp chí
khoa học và công nghệ, Đại học Đà Nẵng, số 2 (31), 2009.
[2] Phan Huy Khánh, “Hợp tác xây dựng từ điển đa ngữ Papillon: Vấn đề cập nhật
dữ liệu tiếng Việt“, Kỷ yếu Hội thảo ICT.rda’04 tại Hà Nội 17-18/9/2004.
[3] Đào Hồng Thu, “Bài báo Xây dựng hệ thống dịch tự động tiếng Việt“, Tạp chí
Ngôn ngữ và Đời sống, số 11, 2008, trang 17-19.
[4] Võ Thị Thùy Vi, Tìm hiểu UNL – Universal Networking Language và khả năng
ứng dụng cho Tiếng Việt, Luận văn Thạc sĩ, GVHD: PGS.TS Võ Trung Hùng
[5] Luis Iraola (2003), “Using WordNet for linking UWs to the UNL UW System”,
Egypt
[6] Abu Mohammad Nurannabi (2008), “Morphological Analysis of Bangla Words
for Universal Networking Language”, Dhaka, Bangladesh.
[7] Jesús Cardeñosa, Alexander Gelbukh, Edmundo Tovar (2005), “Universal
Networking Language : Advances in Theory and Applications”, México.
[8] H. Uchida, M. Zhu, T. Senta: “Universal Networking Language”, ISBN-10 2-
8399- 0128-5, Edition II, Published 2006.