Luận văn Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt

Hiện nay, văn bản song ngữ tồn tại với một số lượng lớn, và chất lượng dịch thuật của nó rất cao. Để tận dụng được lợi ích của những văn bản loại này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản (text alignment), tức là tìm ra được sự tương ứng giữa các đoạn, câu trong hai ngôn ngữ của văn bản. Điều này có ý nghĩa rất quan trọng, nó chuyển nguồn dữ liệu này thành nguồn tri thức hữu ích. Bởi vì đó là bước đầu tiên và bắt buộc trong việc xây dựng các kho ngữ liệu song ngữ. Nó không chỉ hỗ trợ cho việc xây dựng từ điển song ngữ, dịch máy, mà nó còn hỗ trợ cho nhiều lĩnh vực khác như giải quyết nhập nhằng của từ, rút trích thông tin Ngoài ra, canh lề văn bản còn là một công cụ hữu ích để trợ giúp cho người làm công tác phiên dịch. Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối chính xác. Trong đó phương pháp dựa vào thống kê chiếm ưu thế so với những phương pháp khác. Tuy nhiên, kết quả phụ thuộc rất lớn vào tính tương đồng giữa 2 ngôn ngữ. Hai ngôn ngữ có cùng họ thì kết quả canh lề rất cao.

101 trang | Chia sẻ: ngtr9097 | Lượt xem: 3124 | Lượt tải: 4

Bạn đang xem trước 20 trang tài liệu Luận văn Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ------oOo------ LÊ NGỌC SƠN CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT Chuyên ngành : Công Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN TỐT NGHIỆP TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2006 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH Cán bộ hướng dẫn khoa học: Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI Cán bộ chấm nhận xét 1: Cán bộ chấm nhận xét 2: Luận văn thạc sĩ được bảo vệ tại: HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngày . . . . . tháng . . . . . năm 2006 ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc ------oOo------ ------oOo------ Tp. Hồ Chí Minh, ngày ….. tháng ….. năm 2006 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên : Lê Ngọc Sơn Phái : Nam Ngày sinh : 28/05/1981 Nơi sinh : Tiền Giang Chuyên ngành : Công Nghệ Thông Tin MSHV : 00704179 TÊN ĐỀ TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt. NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ. Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và LSSA. Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề văn bản song ngữ Anh - Việt. Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại theo lĩnh vực. NGÀY GIAO NHIỆM VỤ : / / 2006 NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006 HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS. Phan Thị Tươi CÁN BỘ HƯỚNG DẪN PGS., TS. Phan Thị Tươi Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua. Ngày ….. tháng ….. năm 2006 PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Tôi xin được gửi lời cảm ơn chân thành đến: PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu và thực hiện luận văn này. Cám ơn Cô đã theo dõi, hỗ trợ và động viên tôi trong những lúc khó khăn nhất. Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP. Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi những kiến thức nền tảng và khả năng nghiên cứu. Thầy TS. Võ Văn Huy, cô ThS. Huỳnh Ngọc Liễu, KS. Nguyễn Hoàng Thanh Nhàn, KS. Nguyễn Ngọc Bình Phương, CN. Thái Kim Phụng, các anh chị em trong Trung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) đã hỗ trợ tôi trong suốt thời gian thực hiện luận văn. Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tôi học tập và phấn đấu. TÓM TẮT Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ. Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Việc áp dụng vào canh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểm của ngôn ngữ tiếng Việt. Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuật canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật Longest Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm các cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản. Ngoài ra, chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn. Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cách hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt. ABSTRACT Bitext (- parallel text) is a text in one language and its translation in another language. They are available sources of information for bilingual lexicography, machine translation. In order to achieve this, they must be aligned first, i.e. the various pieces of the text must be put into correspondence. Recently, text alignment has been taken interest in very much. Many methods and algorithm have been brought out into open and applied. The result were relatively accurate. However, any pair of languages have their characteristics, the application of Vietnamese- English bittext alignment needs to be adjusted in accordance with the Vietnamese characteristics. In this study, I am constructing a new alignment procedure which applied the algorithm of length- based alignment, dictionary- based word alignment and Longest Sorted Sequence Algorithm (LSSA). The interesting thing in this composition is taking the notice of a commonly special problem- cross translation. Then, the algorithm must solve the cross translation problem which is often bypassed by many previous algorithms. The degree of accuracy is relatively high. It creates a corpus inncluding aligned pairs of sentences and devided in the field of text. In addition, the algorithm will mark map points between words in sentences. It will be an useful data file for machine translation and automically create a specialist dictionary when the data warehouse is large enough. In this composition, I present in detail algorithms using and the realization of applied algorithms in Vietnamese- English bitext alignment. MỤC LỤC DANH MỤC HÌNH Hình 21 Ví dụ trong mô hình (1) của phương pháp [6] 13 Hình 22 Ví dụ trong mô hình (2) của phương pháp [6] 13 Hình 23 Biểu đồ khoảng cách trong phương pháp [8] 14 Hình 24 Dãy giới hạn (CB) trong phương pháp [8] 15 Hình 25 Không gian văn bản song ngữ 19 Hình 31 Canh lề chéo trong văn bản song ngữ 23 Hình 41 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức 34 Hình 42 Đường thẳng hồi qui tuyến tính 38 Hình 43 Biểu đồ khoảng cách 39 Hình 44 Dãy giới hạn (CB) 39 Hình 45. Kết quả thu được khi sử dụng CBA 42 Hình 46. Kết quả thu được khi sử dụng LSSA 42 Hình 47. Tính khoảng cách trong CBA 43 Hình 48. Kết quả canh lề sử dụng CBA 43 Hình 49. Kết quả canh lề sử dụng CBA 44 Hình 410. Kết quả canh lề dùng CBA 44 Hình 411. Kết quả canh lề dùng LSSA 45 Hình 412. Quá trình tạo điểm và mở rộng hình chữ nhật tìm kiếm 47 Hình 413. Phát hiện những đoạn canh lề sót trong giải thuật SIRM. 48 Hình 414. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM. 49 Hình 51 Sơ đồ khối cho quá trình canh lề. 53 Hình 52. Cấu trúc CSDL từ điển song ngữ Anh-Việt 54 Hình 53. Từ điển từ ghép tiếng Việt 55 Hình 54. Từ điển cụm từ tiếng Anh 56 Hình 55. Danh sách từ viết tắt trong tiếng Anh 58 Hình 56. Tương quan chiều dài câu Anh-Việt 60 Hình 57. Kết quả canh lề câu theo chiều dài câu 62 Hình 61. Giao diện chính của chương trình 69 Hình 62. Giao diện hiển thị kết quả. 79 DANH MỤC BẢNG Bảng 21 Kết quả canh lề của giải thuật [14] 11 Bảng 22 Kết quả canh lề của phương pháp [6] 14 Bảng 23. Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2] 17 Bảng 24. Kết quả của phương pháp [2] 17 Bảng 41. Giá trị các vector trong LSSA 41 Bảng 51. Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn. 59 Bảng 52. Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh 60 Bảng 53. Xác suất của các phép canh lề theo [16] 61 Bảng 54. Xác suất của các phép canh lề Anh-Việt 61 Bảng 55. Đánh giá trọng số các điểm tương ứng 63 Bảng 56. Thống kê g trung bình theo chiều dài block 65 Bảng 61. Kết quả canh lề câu trong luận văn 71 Bảng 62. Phát hiện các phép canh lề 1-2 71 Bảng 63. Phát hiện các phép canh lề 1-2, 2-1 72 Bảng 64. Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng 73 Bảng 65. Canh lề 1-0 được xác định trong canh lề 2-1 74 Bảng 66. Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu 75 Bảng 67. Ví dụ minh họa - Kết quả canh lề chéo 76 Bảng 68. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77 Bảng 69. Ví dụ kết quả canh lề chéo cụm từ 78 Giới thiệu Văn bản song ngữ (bitext/ bilingual text/ parallel text) là một văn bản được thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Văn bản song ngữ thường được sử dụng trong các tài liệu hành chính, pháp luật, tạp chí… Bối cảnh thực hiện luận văn: Hiện nay, văn bản song ngữ tồn tại với một số lượng lớn, và chất lượng dịch thuật của nó rất cao. Để tận dụng được lợi ích của những văn bản loại này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản (text alignment), tức là tìm ra được sự tương ứng giữa các đoạn, câu trong hai ngôn ngữ của văn bản. Điều này có ý nghĩa rất quan trọng, nó chuyển nguồn dữ liệu này thành nguồn tri thức hữu ích. Bởi vì đó là bước đầu tiên và bắt buộc trong việc xây dựng các kho ngữ liệu song ngữ. Nó không chỉ hỗ trợ cho việc xây dựng từ điển song ngữ, dịch máy, mà nó còn hỗ trợ cho nhiều lĩnh vực khác như giải quyết nhập nhằng của từ, rút trích thông tin… Ngoài ra, canh lề văn bản còn là một công cụ hữu ích để trợ giúp cho người làm công tác phiên dịch. Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối chính xác. Trong đó phương pháp dựa vào thống kê chiếm ưu thế so với những phương pháp khác. Tuy nhiên, kết quả phụ thuộc rất lớn vào tính tương đồng giữa 2 ngôn ngữ. Hai ngôn ngữ có cùng họ thì kết quả canh lề rất cao. Thực trạng – Vấn đề: Nội dung của đề tài này là canh lề văn bản Anh - Việt. Đây là 2 ngôn ngữ có nhiều đặc điểm khác nhau nên việc ứng dụng những công trình nghiên cứu trước đó cần có sự hiệu chỉnh cho phù hợp với đặc điểm của tiếng Việt. Một số tác giả trong nước cũng đã có những nghiên cứu về vấn đề này. Các giải thuật được áp dụng gồm phương pháp canh lề dựa vào chiều dài câu và phương pháp canh lề dựa vào từ vựng. Giải thuật SIRM và GSA là sự kết hợp ưu điểm của 2 xu hướng canh lề dựa vào chiều dài câu và dựa vào từ vựng. Tuy nhiên, các nghiên cứu này dừng lại ở mức canh lề câu, và bỏ qua yếu tố dịch chéo (các đoạn, câu trong ngôn ngữ thứ hai không theo thứ tự tương ứmg với câu và đoạn trong ngôn ngữ thứ nhất). Hướng giải quyết vấn đề: Để khắc phục những vấn đề trên, tôi đã tham khảo các công trình nghiên cứu mà các tác giả trong và ngoài nước đã thực hiện, tiến hành tìm hiểu những ưu, khuyết điểm của các phương pháp này, và khả năng áp dụng vào canh lề văn bản Anh – Việt. Tổng hợp những kiến thức đó, trên cơ sở kế thừa và cải tiến, tôi đưa ra một qui trình canh lề mới, và hiện thực ý tưởng của mình. Qui trình bao gồm các giải thuật: xác định từ ghép tiếng Việt, cụm từ tiếng Anh dựa vào từ điển, phân đoạn văn bản, phân đoạn câu, canh lề câu dựa vào chiều dài câu (số lượng từ), giải thuật canh lề theo chuỗi được sắp xếp dài nhất LSS (Longest Sorted Sequence). Mục tiêu của luận văn: Nghiên cứu giải thuật canh lề dựa vào chiều dài câu, giải thuật LSSA. Xây dựng qui trình canh lề mới, nhằm xác định phép canh lề chéo trong canh lề văn bản song ngữ Anh - Việt. Xử lý một số ngoại lệ trong ngôn ngữ Anh – Việt và trong dịch thuật. Tạo kho dữ liệu gồm các cặp câu Anh – Việt, phân theo lĩnh vực. Đóng góp của luận văn: Các phương pháp canh lề văn bản song ngữ trước đây thường bỏ qua một số ngoại lệ trong ngôn ngữ và trong dịch thuật, ví dụ như phân đoạn không tương ứng, dấu chấm trong từ viết tắt không phải là dấu kết thúc câu, trường hợp canh lề chéo, hay trường hợp chuyển đổi từ loại (danh từ, động từ,…) trong dịch thuật. Điều này làm cho kết quả canh lề không thể chấp nhận được khi gặp những trường hợp đặc biệt, thường xảy ra trong văn bản song ngữ Anh –Việt. Ngoài ra, một cụm từ, một thành ngữ khi tách ra thành từng từ hoàn toàn không có ý nghĩa, trong tiếng Anh cũng như trong tiếng Việt. Trường hợp đặc biệt và phổ biến nhất là từ ghép tiếng Việt. Để giải quyết những vấn đề nêu trên, trong luận văn đưa ra những giải pháp tương ứng: Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để canh lề đoạn (paragraph), và canh lề câu (sentence). Chiều dài câu được tính theo số lượng từ đơn có trong câu. Mô hình lập trình động được sử dụng một cách hợp lý và hiệu quả. Để xác định chính xác vị trí kết thúc câu (quá trình phân đoạn câu), chương trình tập hợp những qui luật, kết hợp với thống kê danh sách từ viết tắt. Giai đoạn canh lề câu được trình bày trong mục 5.3, 5.4, phần hiện thực. Tiếp theo, chương trình nhận dạng cụm từ tiếng Anh và từ ghép tiếng Việt dựa vào danh sách thống kê cụm từ tiếng Anh và từ điển từ ghép tiếng Việt. Đây là giai đoạn phân đoạn từ (trình bày trong mục 5.2, phần hiện thực). Đây cũng là bước chuẩn bị cho giải thuật canh lề từ. Để tăng độ tin cậy trong bước canh lề câu, chương trình kiểm tra lại bằng cách tính độ tương tự của hai câu đã được canh lề. Mức độ tương tự của câu được tính dựa trên những cặp từ giống nhau trong câu, hay khi biểu diễn trong không gian văn bản song ngữ, nó là điểm tương ứng thật sự. Nếu độ tương tự thấp hơn giới hạn cho phép, chương trình bắt buộc phải tạo một tổ hợp canh lề mới cho những cặp câu chưa được chấp nhận này, và chọn ra cách canh lề tối ưu. Đây là giai đoạn canh lề chéo (phạm vi là các câu trong cùng một đoạn), được trình bày trong mục 5.5, 5.6, phần hiện thực. Xử lý canh lề chéo có được các nhà nghiên cứu nói đến nhưng chưa được hiện thực. Đây là một đóng góp của luận văn. Chương trình có thể được cải tiến để canh lề chéo cho các câu trong toàn văn bản. Để canh lề từ chính xác và mịn nhất (chi tiết nhất), chương trình có sử dụng giải thuật Porter để cắt lấy gốc từ tiếng Anh (stemming). Với nhận xét là không phải lúc nào một danh từ tiếng Anh cũng được dịch thành một danh từ tiếng Việt, một động từ tiếng Anh được dịch thành một động từ tiếng Việt. Việc stemming giúp cho việc nhận dạng các cặp từ giống nhau được đầy đủ hơn. Đây là một điểm mới khi áp dụng vào canh lề từ Anh – Việt. Trong quá trình canh lề từ, chương trình cũng loại ra những điểm tương ứng ngẫu nhiên bằng cách lọc bỏ những từ không có giá trị canh lề (stopword). Ngoài ra, giải thuật LSSA cũng nhận dạng được những đoạn canh lề chéo sao cho chuỗi các từ canh lề là dài nhất. Ý tưởng và chi tiết giải thuật LSSA trình bày trong mục 4.5, phần phân tích giải thuật và mục 5.7, phần hiện thực. Việc áp dụng các giải thuật này vào ngôn ngữ tiếng Việt đã được điều chỉnh và cải tiến cho phù hợp với đặc điểm của tiếng Việt, và một số ngoại lệ của ngôn ngữ. Độ chính xác của giải thuật còn phụ thuộc vào việc thu thập một kho dữ liệu ban đầu, ví dụ như từ điển song ngữ, danh sách từ ghép tiếng Việt, cụm từ tiếng Anh, từ viết tắt, từ không có giá trị canh lề (stopwords). Ngoài ra, nó còn phụ thuộc rất lớn vào các thông số của hệ thống, mà các thông số này cần được điều chỉnh sau quá trình thực nghiệm. Để chạy kiểm nghiệm chương trình, các văn bản được sử dụng thuộc 2 lĩnh vực: (1)Kinh tế: các văn bản của đại sứ quán Hoa Kỳ tại Hà Nội (website: và và (2)Tin học: sưu tập từ nhiều nguồn khác nhau trên mạng Internet. Điều này tạo sự thuận lợi vì một số văn bản này đã được tác giả Trần Giang Sơn tổng hợp và thử nghiệm, tạo nên tính chính xác khi nhận xét đánh giá kết quả của giải thuật. Ngoài ra, việc tập hợp các văn bản từ nhiều nguồn khác nhau tạo nên tính đa dạng các ngoại lệ trong dịch thuật. Tổng kết lại, luận văn đã phân tích một số điểm yếu còn tồn tại trong các giải thuật trước đây (trình bày trong phần 4 – Phân tích giải thuật) và đưa ra hướng khắc phục. Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Bên cạnh đó, chương trình cũng áp dụng giải thuật LSSA, lần đầu áp dụng vào canh lề từ cho văn bản Anh – Việt. Mặc dù giải thuật này chưa thật sự phù hợp, nhưng cũng giúp chúng ta rút ra được một kinh nghiệm khi nghiên cứu về canh lề. Ngoài ra, mục tiêu của chương trình là ứng dụng canh lề văn bản song ngữ vào các mục đích khác. Đó là xây dựng một kho ngữ liệu gồm 10.000 cặp câu đã được canh lề phân loại theo lĩnh vực với độ chính xác 98% và đánh dấu những điểm mốc canh lề trong câu (lưu trữ trong hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2000 rất dễ tìm kiếm và truy xuất). Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn và mang tính đại diện. Chương trình thiết kế dễ tìm hiểu và sử dụng, hiển thị kết quả rõ ràng. Kết quả khá chính xác (98%). Chương trình nhận dạng 70% phép canh lề chéo. Độ hoàn toàn của giải thuật canh lề là 100%. Chương trình xác định khoảng 4 điểm tương ứng cho một câu có chiều dài trung bình là 10 từ. Kết quả chi tiết thể hiện ở các bảng thống kê trong phần 6 - Kết quả thực nghiệm. Hướng phát triển: Hoàn chỉnh ứng dụng: Cải tiến giải thuật phân đoạn câu, chạy thử nghiệm và cập nhật các thông số hệ thống. Thu thập các văn bản song ngữ thuộc nhiều lĩnh vực, canh lề và lưu lại để mở rộng kho ngữ liệu. Phân loại lĩnh vực của văn bản tự động, cập nhật cụm từ tiếng Việt và tiếng Anh (collocation) tự động theo mô hình n-grams, xây dựng từ điển chuyên ngành. Ứng dụng thực tế vào quản lý kho tri thức tại trung tâm BR&T (trình bày rõ ở phần kết luận). Cấu trúc của luận văn: Luận văn chia làm 7 phần Phần 1. Giới thiệu Phần này giới thiệu chung về bối cảnh, mục tiêu, hướng thực hiện luận văn, một số đóng góp của luận văn. Phần 2. Các công trình nghiên cứu liên quan Trình bày một số công trình nghiên cứu về canh lề văn bản song ngữ trên thế giới và trong nước. Phần 3. Cơ sở lý thuyết Trình bày một số định nghĩa, các công thức toán học, một số hệ số đánh giá phép canh lề, và các lý thuyết xác suất có liên quan. Phần 4. Phân tích giải thuật Các giải thuật sẽ sử dụng trong luận văn sẽ được trình bày chi tiết trong phần này. Bên cạnh đó phần này cũng đưa ra lý do chọn lựa giải thuật áp dụng trong luận văn thông qua một số phân tích và so sánh. Phần 5. Hiện thực Trình bày chi tiết cách hiện thực các giải thuật trong chương trình. Phần 6. Kết quả thực nghiệm Kết quả chạy thực nghiệm chương trình sẽ được trình bày trong phần này. Phần 7. Kết luận Tổng kết lại toàn bộ quá trình thực hiện luận văn, những cái đã thực hiện, những điểm còn yếu. Và phần này cũng trình bày một số hướng phát triển và ứng dụng, - Bảng thuật ngữ tiếng Anh và tiếng Việt được sử dụng trong quyển luận văn. - Danh mục sách và các báo cáo khoa học đã tham khảo để thực hiện đề tài. - Phụ lục A: Hướng dẫn sử dụng chương trình canh lề văn bản song ngữ Anh-Việt - Phụ lục B: Cài đặt và phục hồi Cơ sở dữ liệu SQL Server Các công trình nghiên cứu liên quan Phần này trình bày một số công trình nghiên cứu về canh lề văn bản song ngữ trên thế giới và trong nước. Các phương pháp được áp dụng chủ yếu phân vào các loại sau: Phương pháp canh lề văn bản dựa vào chiều dài câu: Phương pháp canh lề văn bản dựa vào chiều dài câu là một trong những phương pháp xuất hiện tương đối sớm. Phương pháp này không quan tâm đến yếu tố từ vựng trong văn bản mà chỉ quan tâm đến chiều dài của câu trong văn bản. Ý tưởng chính của phương pháp này là: các câu ngắn thường được dịch thành những câu ngắn, các câu dài thường được dịch thành những câu dài. Chiều dài của câu có thể được tính bằng số lượng từ hoặc số lượng kí tự trong câu. Trong phương pháp này, để canh lề chính xác, văn bản cần được canh lề theo đoạn trước. Có thể thực hiện công đoạn này theo phương pháp thủ công bằng tay. Nếu văn bản không được phân đoạn trước, giải thuật cũng có thể canh lề nhưng độ chính xác thấp hơn, và thời gian thực thi lâu hơn. Phương pháp này tỏ ra hữu h