Khóa luận Các kỹ thuật xác định collocation và ứng dụng cho Tiếng Việt

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt.

pdf49 trang | Chia sẻ: lvbuiluyen | Lượt xem: 2668 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Khóa luận Các kỹ thuật xác định collocation và ứng dụng cho Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2010 LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này. Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy tính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu không có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoá luận. Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá trình thực hiện luận văn. Hà Nội, ngày 21 tháng 5 năm 2010 Sinh viên thực hiện ĐỒNG THỊ NGÂN TÓM TẮT LUẬN VĂN Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt. GIỚI THIỆU Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”, mặc dù “strong” và “powerful” tương đương với nhau về nghĩa, và “powerful tea” không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giản chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation thường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thành phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó. Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định. Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25, 27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn. Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm; từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương trình. Mục tiêu của luận văn:  Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa, đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và các bài toán xử lý ngôn ngữ tự nhiên.  Trình bày một số phương pháp trích chọn collocation dựa trên thống kê. Cụ thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ. Với mỗi phương pháp, từ việc trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích chọn collocations trong tiếng Việt.  Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết quả và độ chính xác của chương trình.  Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ. Từ việc trình bày cơ sở lý thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được và độ chính xác của chương trình dựa trên phương pháp này. MỤC LỤC GIỚI THIỆU Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT 1 1.1. ĐỊNH NGHĨA ............................................................................................ 1 1.2. ĐẶC TRƯNG ............................................................................................. 1 1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. .............................................. 1 1.2.2. Có tính cứng nhắc: .................................................................................. 2 1.2.3. Phụ thuộc vào lĩnh vực của văn bản. ....................................................... 2 1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: ................................................. 3 1.3. PHÂN LOẠI ............................................................................................... 3 1.4. ỨNG DỤNG ............................................................................................... 5 Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ 7 2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ ..................................................... 8 2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT .......................................... 9 2.2.1. Phương pháp kiểm tra t ........................................................................... 9 2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. ................................. 12 2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI))...................................................................... 13 2.4. KẾT QUẢ THỰC NGHIỆM .................................................................... 15 2.4.1. Khái quát về dữ liệu sử dụng ................................................................ 15 2.4.2. Trích chọn bigrams ............................................................................... 16 2.4.3. Các mô hình thử nghiệm ....................................................................... 18 2.4.4. Kết quả thực nghiệm ............................................................................. 19 Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ ............................ 25 3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM. ............................................................................................................. 26 3.1.1. Bước 1: Trích chọn bigram ................................................................... 26 3.1.2. Bước 2: Lọc các bigram không hợp lệ .................................................. 27 3.2. GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM. .................................................................................... 28 3.2.1. Bước 1: ................................................................................................. 29 3.2.2. Bước 2: ................................................................................................. 29 3.2.3. Bước 3: ................................................................................................. 29 3.3. KẾT QUẢ THỰC NGHIỆM .................................................................... 30 Chương 4. KẾT LUẬN ............................................................................. 33 TÀI LIỆU THAM KHẢO PHỤ LỤC A PHỤ LỤC B DANH SÁCH HÌNH VẼ Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 ..................................................................................... 20 Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn ................................ 21 Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp ........................................................................................................................... 22 Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào ................................................................................................................................... 22 DANH SÁCH BẢNG Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt................................. 4 Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh .............................. 8 Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt ......................................... 9 Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t ............ 11 Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương .................. 12 Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương ......................................................................................................... 13 Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ ..................................................................................................................... 14 Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger................................................................... 15 Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 .......................................................................... 19 Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại ............................................................................................................................. 20 Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp ........................................................................................................................... 21 Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm............... 23 Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng ....... 27 Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 .................................................. 30 Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 ................................................... 30 Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2....................... 31 1 Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người, ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc xây dựng một hệ thống trích chọn collocations cho tiếng Việt. Cụ thể hơn, nó có nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation? Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại của chương sẽ đi sâu vào trả lời bốn câu hỏi này. 1.1. ĐỊNH NGHĨA Firth[17] định nghĩa collocation là một khái niệm cú pháp trừu tượng, không trực tiếp liên hệ với nghĩa của các từ cấu thành lên nó. Choueka[5] quan niệm collocation là một dãy gồm hai hoặc nhiều hơn các từ liên tiếp nhau, có những đặc trưng của một đơn vị cú pháp có nghĩa, và nghĩa của nó không thể được suy ra trực tiếp từ nghĩa của các từ thành phần. Còn theo Benson[2]: một collocation là một tổ hợp cố định và lặp đi lặp lại các từ. Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka lại thiên về chức năng cú pháp của collocation trong văn bản. Định nghĩa của Benson là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương ứng với từ. Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành, tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định. 1.2. ĐẶC TRƯNG Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính: 1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một ngữ cảnh nhất định. Các cụm từ như “to make a decision, to hit a record, to perform 2 an operation” là các collocation thường gặp trong văn bản tiếng Anh, hay “nhiễm HIV/AIDS, chuyển_dịch cơ_cấu, học_hỏi kinh_nghiệm” là các collocation thường gặp trong văn bản tiếng Việt; và các cụm từ như “to buy short, to ease the jib” hoặc “tiêm vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên môn. Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất định. 1.2.2. Có tính cứng nhắc: Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố định. Nghĩa của một collocation thường không thể trực tiếp được suy ra từ nghĩa của các từ cấu thành nên nó. Trong hầu hết trường hợp, một collocation không thể được dịch theo kiểu từ đối từ từ một ngôn ngữ sang một ngôn ngữ khác. Ví dụ, chúng ta có thể dịch cụm từ “mở cửa” trong tiếng Việt sang tiếng Anh, tiếng Đức một cách dễ dàng, nhưng không thể dịch từ đối từ cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” từ tiếng Việt sang tiếng Anh hay tiếng Đức. Một người học tiếng Việt không thể dễ dàng sử dụng cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” nếu họ không biết trước nghĩa của cả cụm từ trước đó. Dịch một văn bản từ ngôn ngữ này sang một ngôn ngữ khác không chỉ đòi hỏi kiến thức về các quy tắc ngữ pháp và ngữ nghĩa vì collocations có tính cứng nhắc, kho ngữ liệu song ngữ về collocations thực sự cần thiết cho một ứng dụng dịch máy hiệu quả. 1.2.3. Phụ thuộc vào lĩnh vực của văn bản. Trong các văn bản chuyên ngành, tồn tại rất nhiều collocations. Các thuật ngữ chuyên ngành thường ít nhiều xa lạ với những người không nghiên cứu, học tập trong lĩnh vực đó. Thêm vào đó, có những từ quen thuộc với người đọc nhưng được sử dụng với nghĩa hoàn toàn khác nghĩa thông thường trong các văn bản chuyên ngành. Ví dụ trong ngành công nghệ thông tin các từ như “kỹ_nghệ phần_mềm, xử_lý bó, tài_nguyên hệ_thống…” hoàn toàn là những từ mới đối với những người học trong ngành xã hội, hoặc kinh tế khác. Bên cạnh đó, có rất nhiều cụm từ không chứa các thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người không thuộc chuyên ngành. Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị ướt trong các điều kiện thời tiết khắc nghiệt. Người bản xứ thường không ý thức được tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít khó khăn. 3 1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của cụm từ ban đầu. Tính chất này của collocation thường được sử dụng bởi các nhà thực hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]). Các nhà thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định cụm từ nào là collocation và cụm từ nào không phải là collocation. Họ thu thập thông tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ. Các từ khuyết có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó, đó là việc không đơn giản. Chính vì vậy, collocation có phân phối xác suất riêng (Halliday[22]; Cruse[8]). Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc lập. Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê. 1.3. PHÂN LOẠI Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations. Một hệ thống phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần. Theo đó, có hai loại collocation chính là collocation có quan hệ về ngữ pháp và collocation có quan hệ về ngữ nghĩa. Collocations có quan hệ về ngữ pháp thường bao gồm các giới từ, bao gồm các cặp từ có cấu trúc dạng động từ + giới từ(ví dụ come to, put on), tính từ + giới từ (như afraid of, fond of) và danh từ + giới từ (ví dụ: by accident, witness to). Collocations có quan hệ về mặt ngữ nghĩa là các cặp từ giới hạn về mặt từ vựng, không phải khi nào chúng ta cũng có thể thay thế một từ thành phần bằng từ đồng nghĩa của nó. Một hệ thống phân loại khác là thiên về cấu trúc của collocation. Theo đó, có hai loại collocations: các collocations là các cụm từ ghép và các collocation có cấu trúc linh động hơn. Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau trong văn bản, và với chức năng cú pháp cố định. Cụm danh từ + danh từ là ví dụ về loại collocation như thế. Các collocation là các cặp từ linh động bao gồm các collocations có dạng chủ ngữ và động từ, và giữa chúng có thể có khoảng cách (hay xuất hiện các từ xen ngang). 4 Một hệ thống nữa được đưa ra bởi Smadja[19] trong bộ công cụ Xtract, theo đó, các collocation được chia làm 3 loại chính: - Collocations có quan hệ cú pháp: là loại collo