Luận văn Một số giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm

1.1 Lý do chọn đềtài Tri thức của nhân loại là một kho tàng to lớn và quý báu. Hàng ngày, một khối lượng khổng lồnhững tri thức mới được bổsung khiến kích thước kho tri thức nhân loại tăng trưởng nhanh chóng. Do vậy, việc tìm kiếm các tài liệu phù hợp cho nhu cầu thông tin của con người một cách thủcông là hoàn toàn không khảthi. Vì đó, nhiều công cụtìm kiếm thông tin tự động đã được phát triển đểphục vụnhu cầu truy lục. Tuy nhiên, các giải pháp tìm kiếm thông tin hiện nay vẫn còn gặp phải một sốhạn chếsau : (i) Việc lập chỉmục chủyếu dựa trên các từkhóa mà chưa quan tâm đến ngữcảnh mà chúng xuất hiện cũng nhưmối liên hệgiữa chúng. Việc so khớp đơn thuần trên từkhóa có thểtrảra những tài liệu không phù hợp với nhu cầu thông tin của người dùng. (ii) Một thách thức lớn là ngôn ngữvừa có thể đa nghĩa (tùy vào bối cảnh và lĩnh vực chuyên môn mà từngữcó thểmang các nghĩa khác nhau) lại vừa có thể đồng nghĩa (những từngữkhác nhau nhưng có cùng một nghĩa). Thông tin được biểu diễn qua ngôn ngữbằng nhiều cách phong phú và gây nhiễu khiến tìm kiếm bằng từ khóa không thểhiệu quả được. (iii) Khi người dùng tìm kiếm thông tin, họthường đồng thời quan tâm cảnhững thông tin có liên quan mật thiết với thông tin cần tìm (điều này đặc biệt phổbiến đối với nhu cầu truy lục tài liệu chuyên môn của các chuyên gia). Chẳng hạn nhưkhi các Bác sĩtìm kiếm tài liệu liến quan đến “Chứng đau thắt ngực”, sẽrất hữu ích nếu họ được hỗtrợtìm kiếm thêm những tài liệu liên quan đến ba nguyên nhân chính của “Chứng đau thắt ngực” là : “Phình động mạch vành”, “Xơcứng động mạch vành” và “Huyết khối động mạch vành”. Các giải pháp tìm kiếm thông tin hiện có chưa đáp ứng được nhu cầu này. Từ đó mởra hướng nghiên cứu đểxây dựng một mô hình lập chỉmục mới nhằm khắc phục các hạn chếtrên và giúp tìm kiếm thông tin hiệu quảhơn : Mô hình lập chỉmục dựa trên khái niệm. Theo [11], Lập chỉmục dựa trên khái niệm là lập chỉmục với tập từchỉmục là tập các khái niệm cho trước được tổchức theo một cấu trúc Ontology. Các khái niệm được tìm kiếm dựa trên ngữnghĩa của chúng thay vì đơn thuần dựa trên từkhóa, nhờ đó khắc phục hạn chế(i). Đến nay, các công trình nghiên cứu lập chỉmục trên khái niệm cho tiếng Anh đã đạt được những thành tựu nhất định, nhưng kết quảnghiên cứu cho tiếng Việt còn hạn chế. Đềtài của luận văn nhắm đến việc xây dựng và thửnghiệm một hệthống lập chỉmục trên khái niệm cho tiếng Việt. Các khái niệm thường được thểhiện trong văn bản dưới dạng các cụm danh từdo đó trước hết luận văn sẽtập trung xửlý rút trích cụm danh từtrong tài liệu nhưcác khái niệm ứng viên. Trước khi tiến hành so khớp một cụm danh từC rút trích được với các khái niệm trong Ontology, luận văn sẽtiến hành phát sinh các biến thể(variants) của C. Mỗi biến thểlà một cụm từtương đương với cụm từgốc C theo một nghĩa nào đấy và được phát sinh dựa trên tri thức vềcấu trúc ngữpháp của C. Cách làm này khắc phục được các hạn chế(ii). Ngoài ra, luận văn quan tâm hỗtrợngười dùng khảnăng định hướng trong không gian khái niệm với các mối kết hợp (tổng quát hoá, chuyên biệt hóa, đồng nghĩa ) nên khắc phục được hạn chế(iii). 1.2 Mục tiêu của luận văn Mục tiêu nghiên cứu của luận văn bao gồm những điểm sau : - Tìm hiểu các kỹthuật và phương pháp lập chỉmục trên khái niệm. - Tìm hiểu các kỹthuật và phương pháp phát sinh biến thểcho cụm từvà việc ứng dụng nó trong lập chỉmục trên khái niệm. - Tìm hiểu cấu trúc đặc thù của cụm danh từtiếng Việt và đềxuất một giải pháp phát sinh biến thểcho cụm danh từtiếng Việt nhằm phục vụcho lập chỉ mục trên khái niệm tiếng Việt. - Tìm hiểu các phương pháp so khớp đểso khớp các khái niệm trích ra từtài liệu với các khái niệm trong một Ontology. - Vận dụng một sốphương pháp đã tìm hiểu đểxây dựng thửnghiệm một hệ thống lập chỉmục trên khái niệm cho các tài liệu Y khoa tiếng Việt và so sánh kết quả. 1.3 Nội dung nghiên cứu Bài toán Lập chỉmục trên khái niệm đã thu hút nhiều nỗlực của cộng đồng nghiên cứu, nhất là khi tri thức nhân loại phát triển ngày càng đồsộvà nhu cầu tìm kiếm thông tin hiệu quảtrởnên cần thiết hơn bao giờhết. Có nhiều hướng tiếp cận đểgiải quyết bài toán Lập chỉmục trên khái niệm. Một bản khảo sát cô đọng các công trình nghiên cứu liên quan sẽ được trình bày trong chương 2 của luận văn. Nó giúp ta có được cái nhìn tổng thểvềhiện trạng trong hướng nghiên cứu lập chỉmục trên khái niệm. Bài toán lập chỉmục trên khái niệm gặp một thách thức là khái niệm có thể được nói đến bằng nhiều tên gọi khác nhau. Những tên gọi này là các biến thểcủa nhau. Đểrút trích hiệu quảcác khái niệm từtài liệu, cần nhận biết chúng dù chúng được đềcập bằng tên gọi nào. Do đó luận văn quan tâm việc phát sinh biến thểcủa cụm từ, cụthểlà cụm danh từ(vì người ta dùng cụm danh từ đểgọi tên khái niệm). Một giới thiệu tổng quan vềcác loại biến thểcùng với các kỹthuật phát sinh biến thể tương ứng được trình bày trong chương 4 của luận văn. Cũng trong chương này, luận văn trình bày giải pháp phát sinh biến thểcủa mình đểphục vụcho việc lập chỉ mục trên khái niệm. Cụm danh từcần được rút trích từtài liệu trước khi các biến thểcủa chúng được phát sinh và trước khi ánh xạtài liệu vào khái niệm trong Ontology. Chương 3 của luận văn trình bày một giải pháp rút trích cụm danh từtrong tài liệu tiếng Việt và hệ thống cài đặt giải pháp ấy [7]. Giải pháp này có những xửlý đặc biệt phục vụcho mục tiêu phát sinh biến thểcho các cụm danh từrút trích được. Với hướng tiếp cận luận văn chọn theo, kết quảsau cùng của hệthống lập chỉmục trên khái niệm biểu diễn mỗi tài liệu bằng một vector các khái niệm (trong Ontology) liên quan. Do vậy việc ánh xạtài liệu vào Ontology là một xửlý quan trọng. Chương 5 của luận văn trình bày các giải pháp ánh xạmà luận văn sửdụng và hệthống cài đặt thửnghiệm các giải pháp ấy [27] Kết quảthửnghiệm của luận văn được trình bày trong chương 6. Luận văn sửdụng bộdữliệu đánh giá được xây dựng bởi [11] và hiệu chỉnh lại bởi [27]. Sau cùng, các kết luận cùng một sốhướng phát triển được trình bày trong chương 7 của luận văn.

43 trang | Chia sẻ: tuandn | Lượt xem: 2770 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận văn Một số giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Trang 30 Chương 3 : PHÂN TÍCH CÚ PHÁP 3.1 Tổng quan Mỗi khái niệm trong Ontology được biểu diễn bằng một định danh khái niệm. Định danh khái niệm là một cụm danh từ. Hầu hết tài liệu cũng đề cập đến những khái niệm trong nội dung của mình dưới dạng cụm danh từ. Việc quyết định một tài liệu có liên quan cỡ nào với một khái niệm được thực hiện bởi sự so khớp các cụm danh từ hiện diện trong tài liệu với định danh khái niệm trong Ontology (cũng là một cụm danh từ). Do đó việc trước tiên cần làm là rút trích các cụm danh từ từ tài liệu để phục vụ cho so khớp, đó chính là mục đích của tác vụ Phân tích cú pháp được trình bày trong chương này. Như nhiều bài toán xử lý ngôn ngữ tự nhiên khác, xử lý rút trích cụm danh từ chỉ có thể được thực hiện sau khi tài liệu đã được tách từ và gán nhãn từ loại. Nhưng nếu chỉ dừng lại ở so khớp cụm danh từ thì việc lập chỉ mục trên khái niệm không khác nhiều so với lập chỉ mục trên cụm danh từ. Do vậy để việc so khớp trên khái niệm không phụ thuộc nhiều vào hình thức mà khái niệm xuất hiện trong tài liệu, hệ thống cần thực hiện phát sinh biến thể cho các cụm danh từ và cho các biến thể tham gia vào quá trình so khớp. Biến thể mà luận văn chọn xử lý là biến thể ngữ pháp và lý do lựa chọn loại biến thể này cũng như việc phát sinh biến thể được mô tả trong chương 4. Nhưng hệ thống không thể phát sinh biến thể ngữ pháp cho một cụm danh từ nếu không nắm rõ cấu trúc ngữ pháp của cụm danh từ ấy. Do đó cụm danh từ rút trích ra từ tài liệu còn cần được phân tích thành một cấu trúc ngữ pháp chi tiết để làm cơ sở cho xử lý phát sinh biến thể. Từ những lý do trên, tác vụ Phân tích cú pháp được chia ra bốn tác vụ con : i. Tách từ cho tài liệu thô. ii. Gán nhãn từ loại cho những từ đã tách được ở (i). Trang 31 iii. Từ những từ đã tách và nhãn từ loại của chúng, gán nhãn ranh giới ngữ cho chúng để rút trích cụm danh từ iv. Cấu trúc hóa các cụm danh từ đã rút trích để phân tích chúng thành một cấu trúc ngữ pháp chi tiết. 3.2 Tách từ Với đại đa số các ngôn ngữ trên thế giới (loại hình ngôn ngữ hòa kết), việc tách từ có thể được thực hiện dựa trên khoảng trắng. Nhưng tiếng Việt là một ngôn ngữ có nhiều điểm đặc thù (loại hình ngôn ngữ đơn lập). Trong tiếng Việt, từ bao gồm tập hợp của một hay nhiều tiếng nên không thể tách từ bằng khoảng trắng. Tách từ là việc xác định ranh giới các từ trong câu, những tiếng liền nhau nào trong câu cùng thuộc một từ. Tách từ phải đảm bảo các điều kiện : - Tất cả các từ tách được từ câu ban đầu phải có nghĩa. - Không có tiếng nào thuộc cùng lúc hai từ khác nhau trong câu. - Ghép tất cả các từ tách được phải tạo thành câu ban đầu. Luận văn sử dụng chương trình tách từ Word Segmentation của nhóm nghiên cứu Information Retrieval thuộc Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên tp.HCM. Chương trình này tiếp cận việc tách từ dựa vào từ điển và danh sách danh từ riêng để phát hiện những từ có nghĩa trong câu. Sau khi tách từ, các tiếng trong một từ được nối lại bằng dấu “_” để đánh dấu các từ. Trong từ điển, mỗi mục từ đều đính kèm một nhãn từ loại cơ sở, từ loại cơ sở là từ loại thường gặp nhất ở mục từ ấy. Các từ tách được trong tài liệu cũng sẽ nhận các nhãn từ loại cơ sở này để làm tiền đề cho bước gán nhãn từ loại tiếp theo. Trang 32 3.3 Gán nhãn từ loại Mỗi từ trong tiếng Việt có thể có nhiều từ loại. Việc một từ trong câu sẽ mang từ loại nào trong các từ loại mà nó có thể có là do ngữ cảnh của từ quyết định. Nhãn từ loại cơ sở được gán cho từ trong tài liệu hoàn toàn dựa vào nhãn chỉ định trong từ điển, chưa quan tâm đến ngữ cảnh của từ, do đó độ chính xác thấp. Do vậy pha điều chỉnh nhãn từ loại dựa trên ngữ cảnh của từ là cần thiết. Bộ công cụ fnTBL [24] (được phát triển bởi Radu Florian và Grace Ngai, thành viên nhóm nghiên cứu xử lý ngôn ngữ tự nhiên trường Đại học Johns Hopkins) được sử dụng để thực hiện việc điều chỉnh này. Kết quả của bộ công cụ này là một tập luật sửa nhãn từ loại nhằm điều chỉnh lại nhãn từ loại ban đầu trong tài liệu. Tập luật này được tạo nên nhờ một bộ dữ liệu huấn luyện và một tập mẫu luật (rule template). 3.3.1 Phát sinh tập luật điều chỉnh từ loại Hệ thống sử dụng bộ dữ liệu huấn luyện của nhóm nghiên cứu Information Retrieval thuộc Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên tp.HCM, được gọi là bộ dữ liệu A. Bộ dữ liệu A được gán nhãn từ loại một cách thủ công và bảo đảm chính xác hoàn toàn. Một bộ dữ liệu thứ 2 – bộ dữ liệu B – có nội dung giống hệt bộ dữ liệu A nhưng có nhãn từ loại được gán tự động dựa trên từ loại thường gặp nhất của mỗi mục từ trong từ điển. Trong pha huấn luyện, bộ công cụ fnTBL sẽ phân tích sự khác biệt về nhãn từ loại giữa hai bộ dữ liệu A và B để phát sinh ra các luật điều chỉnh nhãn từ loại dựa trên một tập mẫu luật được định nghĩa trước. Tất cả các mẫu luật đều có một công thức chung là: (cond 1) (cond 2) … (cond n) => (res 1) (res 2) … (res n) Trong đó: - cond i: là điều kiện của luật, luật chỉ thực hiện khi tất cả các điều kiện đều đúng - res i: là các kết quả của luật Trang 33 Trong bài toán gán nhãn từ loại, ta chỉ xét những luật có một kết quả, đó là nhãn từ loại gán cho từ hiện đang được xét. Dưới đây là một ví dụ về mẫu luật. Ví dụ 3.1 word_-1 pos_0 => pos Phát biểu mẫu luật trên như sau: Từ loại của từ đang xét được chọn dựa vào nội dung từ đứng liền trước và từ loại hiện tại của từ đang xét đó. Dưới đây là một ví dụ về luật có thể phát sinh từ mẫu luật trên Ví dụ 3.2 word_-1=sự pos_0=dot => pos=dat Luật trên được phát biểu như sau: Nếu từ liền trước từ đang xét là từ sự và từ đang xét mang nhãn là động từ (dot) thì sửa nhãn từ đang xét thành danh từ (dat). Sau đây là một ví dụ khác về luật điều chỉnh nhãn từ loại Ví dụ 3.3 pos_0=dat word_0=hướng word:[1,3]=vào => pos=dot (Luật trên được phát sinh từ mẫu luật : pos_0 word_0 word:[1,3] => post) Ta có thể phát biểu luật này như sau: Nếu từ đang xét là từ “hướng” có từ loại là danh từ (dat) và ba từ liền sau có xuất hiện từ “vào” thì từ loại của từ “hướng” này sẽ được sửa thành động từ (dot). 3.3.2 Bổ sung luật điều chỉnh từ loại Tồn tại một khó khăn trong việc huấn luyện để phát sinh luật. Đó là bộ dữ liệu huấn luyện còn hạn chế, chưa thực sự phong phú đủ để học được một bộ luật tương đối đầy đủ và chính xác. Việc tìm bộ dữ liệu huấn luyện phù hợp với kích thước thực sự đủ lớn là khá khó khăn, bên cạnh đó việc tự xây dựng dữ liệu huấn luyện là không khả thi vì nó đỏi hỏi phải bỏ ra rất nhiều thời gian và công sức. Với khó khăn trên, giải pháp được chọn là đi theo hướng tự bổ sung luật vào bộ luật mà máy học được. dựa vào tri thức con người. Tài liệu [16] trình bày lý thuyết về mối liên hệ giữa các Trang 34 từ loại trong đoản ngữ tiếng Việt, đây là những tri thức hữu ích cho việc bổ sung luật sửa nhãn từ loại. Quá trình bổ sung luật được thực hiện bằng cách phân tích những lỗi sai còn tồn tại trong kết quả của nhiều lần chạy chức năng sửa nhãn từ loại bằng tập luật đã phát sinh tự động. Các lỗi sai này chính là những trường hợp bị bỏ sót bởi tập luật được phát sinh tự động bởi fnTBL, do vậy những luật mới được bổ sung để giải quyết nốt các lỗi này. Dưới đây là một số ví dụ về luật sửa nhãn từ loại được bổ sung bằng tri thức con người : Ví dụ 3.4 pos_0=dot pos_-1=sot word_-1=các => pos=dat Áp dụng luật trên vào câu sau: “cácsot phẫu_thuậtdot gần_đây đều do trưởng_khoa chỉ_đạo” Ta thấy: Trong câu trên, từ “phẫu_thuật” không mang nghĩa là động từ mà là danh từ tức là “sự phẫu thuật”. Nhãn từ loại cơ sở của từ “phẫu_thuật” đã bị sai, dựa vào luật trên, từ “phẫu_thuật” sẽ được sửa thành danh từ (dat) Ví dụ 3.4 pos_0=dat pos_-1=tmd word_-1=rất => pos=tit Áp dụng luật trên vào câu sau: “các món_ăn này rấttmd đồng_quêdat” Ta thấy: Trong câu trên, từ “đồng_quê” được gán nhãn từ loại cơ sở là danh từ (dat), nhưng trong ngữ cảnh này, từ “đồng_quê” trên phải mang nghĩa là tính từ. Luật trên có tách dụng sửa nhãn từ “đồng_quê” ở câu trên cho đúng ngữ cảnh. Trong [7], nhóm tác giả sử dụng 89 mẫu luật để phát sinh tự động 448 luật sửa nhãn từ loại, sau đó 401 luật khác được bổ sung bằng tri thức con người. Bộ luật sau cùng Trang 35 gồm 849 luật được áp dụng lên dữ liệu (là những tài liệu đã tách từ và gán nhãn từ loại cơ sở) để điều chỉnh nhằm đạt được nhãn từ loại chính xác hơn. 3.4 Gán nhãn ranh giới ngữ Với văn bản sau khi đã tách từ và gán nhãn từ loại được sử dụng làm dữ liệu đầu vào cho công đoạn gán nhãn ranh giới ngữ. Gán nhãn ranh giới ngữ là việc xác định xem trong văn bản, từ nào nằm trong, từ nào nằm ngoài cụm danh từ. Có nhiều cách để đánh dấu cụm danh từ trong văn bản. Trong số đó, [6] đề xuất một cách đánh dấu đơn giản và hiệu quả. Theo [6], cụm danh từ được đánh dấu bằng ba loại nhãn I, O, B gán trên từng từ của văn bản với quy tắc I là nhãn chỉ từ nằm trong cụm danh từ, O là nhãn chỉ từ nằm ngoài cụm danh từ và B là nhãn chỉ từ bắt đầu một cụm danh từ (nhãn B đặc biệt cần thiết trong trường hợp có hai cụm danh từ xuất hiện liền nhau). Các nhãn I, O, B được gọi là nhãn ranh giới ngữ. Ví dụ 3.5 [Tổn_thương]I [thành]I [tá_tràng]I [cũng_như]I [vách]I [túi_mật]I [đều]O [dẫn_đến]O [rối_loạn]I [tiêu_hóa]I Trong ví dụ trên, ta thấy có hai cụm danh từ là “tổn thương thành tá tràng cũng như vách túi mật” và “rối loạn tiêu hóa”. Giống như công đoạn gán nhãn từ loại, công đoạn này cũng được tiến hành qua hai bước chính là gán nhãn ranh giới ngữ cơ sở và sửa nhãn ranh giới ngữ dựa vào một bộ luật. Bộ luật sửa nhãn ranh giới ngữ, tương tự như bộ luật sửa nhãn từ loại, cũng được phát sinh tự động bằng bộ công cụ fnTBL. 3.4.1 Phát sinh bộ luật sửa nhãn ranh giới ngữ Công đoạn này được thực hiện theo cùng một quy trình so với công đoạn phát sinh bộ luật sửa nhãn từ loại. Một bộ dữ liệu huấn luyện bao gồm các tài liệu đã gán nhãn từ loại đúng được sử dụng. Các từ trong bộ dữ liệu huấn luyện này, một mặt được gán nhãn ranh giới ngữ một cách tự động dựa vào một từ điển (từ điển này chỉ Trang 36 đơn giản chứa các từ loại kèm với nhãn ranh giới ngữ thường đi với chúng) để cho ra bộ dữ liệu A, mặt khác được gán nhãn rãnh giới ngữ bằng tay để cho ra bộ dữ liệu B. Bộ dữ liệu A có độ chính xác thấp trong khi bộ dữ liệu B tuyệt đối chính xác. Bộ công cụ fnTBL sẽ phân tích sự khác biệt giữa A và B để phát sinh ra tập luật điều chỉnh nhãn ranh giới ngữ sai trong A thành nhãn ranh giới ngữ đúng trong B. Các bộ dữ liệu A và B được cung cấp bởi nhóm nghiên cứu Information Retrieval thuộc Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên tp.HCM. Để phát sinh luật sửa nhãn ranh giới ngữ, fnTBL cũng cần dựa trên một tập các mẫu luật. Sau đây là một số ví dụ về mẫu luật sửa nhãn ranh giới ngữ Ví dụ 3.6 chunk_0 pos_0 pos_1 => chunk Ta phát biểu mẫu luật trên như sau: Nhãn ranh giới ngữ của từ đang xét được xác định dựa vào nhãn từ loại của từ liền sau, nhãn ranh giới ngữ và nhãn từ loại của chính nó. Ví dụ 3.7 chunk_-1 chunk_0 word:[-3,-1] word_0 => chunk Ở ví dụ này, ta phát biểu như sau: Nhãn ranh giới ngữ của từ hiện tại đang xét được xác định dựa vào nhãn ranh giới ngữ của chính nó và từ liền trước nó, bản thân nội dung từ đó và nội dung của ba từ liền trước. Ví dụ 3.8 chunk_0 pos_0 chunk_-1 pos_-1 => chunk Ta phát biểu mẫu luật trên như sau: Nhãn ranh giới ngữ của từ hiện tại đang xét được xác định dựa vào nhãn ranh giới ngữ của chính nó và từ liền trước nó cùng với nhãn từ loại của chính nó và từ liền trước nó. Sau đây là một luật có thể được phát sinh từ mẫu luật này. Trang 37 Ví dụ 3.9 chunk_0=O pos_0=tmd chunk_-1=I pos_-1=tit => chunk=I Phát biểu luật trên như sau: Nếu từ hiện tại là trạng từ chỉ mức độ (tmd) và không nằm trong cụm danh từ, liền trước là một tính từ (tit) nằm trong cụm danh từ thì nhãn ranh giới ngữ của tự hiện tại sẽ được sửa thành I (nằm trong cụm danh từ) 3.4.2 Bổ sung luật sửa nhãn ranh giới ngữ Cũng như bộ dữ liệu huấn luyện dùng trong khâu phát sinh luật sửa nhãn từ loại, bộ dữ liệu huấn luyện dành cho luật sửa nhãn ranh giới ngữ cũng có kích thước hạn chế, không đủ sức cho ra một tập luật đầy đủ và chính xác. Do vậy một lần nữa việc bổ sung luật dựa vào tri thức con người được chọn làm giải pháp. Các tài liệu [16, 31, 40] mô tả chi tiết cấu trúc cụm danh từ tiếng Việt, đồng thời bàn đến vai trò của các từ loại khác nhau trong từng bộ phận khác nhau của một cụm danh từ tiếng Việt. Dựa vào tri thức này, ta có thể xây dựng các cấu trúc khác nhau của cụm danh từ tiếng Việt dưới dạng một chuỗi nhãn từ loại liên tiếp (các cấu trúc ấy sẽ được bàn đến chi tiết trong phần sau của chương này). Với các chuỗi nhãn từ loại này, một loạt luật được bổ sung để điều chỉnh nhãn ranh giới ngữ của từ dựa vào nhãn từ loại và nhãn ranh giới ngữ của từ ấy cũng như các từ lân cận. Ví dụ sau đây mô tả một luật được bổ sung và một tình huống ứng dụng nó để sửa nhãn ranh giới ngữ Ví dụ 3.10 chunk_0=O pos_0=gtg chunk_-1=I pos_-1=tit chunk_-2=I pos_-2=dat pos_1=dat => chunk=I Phát biểu luật trên như sau: Nếu từ hiện tại là giới từ chỉ thời gian (pos_0=gtg) và nằm ngoài cụm danh từ (chunk_0=O), liền trước là một tính từ (pos_-1=tit) nằm trong cụm danh từ (chunk_-1=I), trước đó một từ là danh từ (pos_-2=dat) Trang 38 nằm trong cụm danh từ (chunk_-2=I) và liền sau là một danh từ (pos_1=dat) thì từ hiện tại nằm trong cụm danh từ. Áp dụng trong câu sau: “sức_khỏedat,I tốttit,I trướcgtg,O ca _mổdat,I là một yếu tố quan trọng” Đối với câu này, ta thấy từ “trước” đúng ra phải nằm trong cụm danh từ “sức khỏe tốt trước ca mổ”, khi luật trên được áp dụng, từ “trướcgtg,O” sẽ được sửa thành “trướcgtg,I” theo đúng mong muốn của chúng ta. Công trình [7] sử dụng 54 mẫu luật để phát sinh tự động 378 luật sửa nhãn ranh giới ngữ, sau đó 383 luật khác được bổ sung bằng tri thức con người. Bộ luật sau cùng gồm 761 luật được áp dụng lên dữ liệu (là những tài liệu đã gán nhãn ranh giới ngữ cơ sở) để điều chỉnh nhằm đạt được nhãn ranh giới ngữ chính xác hơn. 3.5 Cấu trúc hóa cụm danh từ Mục đích việc rút trích cụm danh từ là để phục vụ lập chỉ mục trên khái niệm. Nhưng công đoạn lập chỉ mục đòi hỏi bước phát sinh biến thể ngữ pháp. Bộ phát sinh không thể làm việc nếu không có tri thức về cấu trúc ngữ pháp của cụm danh từ gốc. Do đó, sau khi rút trích cụm danh từ từ tài liệu (gán nhãn ranh giới ngữ), cần phân tích mỗi cụm danh từ rút trích được thành một cấu trúc ngữ pháp chi tiết. Đó chính là nhiệm vụ của bước Cấu trúc hóa cụm danh từ. 3.5.1 Cấu trúc của cụm danh từ tiếng Việt Có nhiều quan điểm khác nhau về cấu trúc cụm danh từ tiếng Việt. Tác giả Diệp Quang Ban, trong [16], xem cụm danh từ tiếng việt như sự mở rộng danh từ trung tâm (head-noun) để cung cấp thêm thông tin bổ nghĩa. Phần mở rộng đứng trước danh từ trung tâm được gọi là tiền điều biến tố và phần mở rộng đứng sau danh từ trung tâm được gọi là hậu điều biến tố. Tiền điều biến tố cung cấp thông tin mang tính số lượng và có thể bao gồm nhiều thành phần con. Thành phần con càng đứng xa danh từ trung tâm thì mang nghĩa Trang 39 càng tổng quát và ngược lại. Một số thành phần con của tiền điều biến tố có thể là (liệt kê từ trái sang phải) : - Từ chỉ tổng lượng như : tất cả, hết thảy … - Từ chỉ số lượng như : một, hai, ba, một vài, năm ba, …, đôi, cặp, tá, chục, … - Đặc chỉ từ : Trong tiếng Việt là từ CÁI - Quy loại từ : theo giống loài như cái, con, cây, người; theo hình thể của vật thể như bức (tranh), cơn (mưa), cục (đá), giọt, luồng, mẩu, ngọn, ngôi, quyển (sách), sợi, tấm, thanh…. Hậu điều biến tố cung cấp thông tin về mặt tính chất và cũng có thể bao gồm nhiều thành phần con. Thành phần con càng đứng xa danh từ trung tâm thì mang nghĩa càng chuyên biệt và ngược lại. Một số thành phần con của hậu điều biến tố có thể là (liệt kê từ trái sang phải) : Từ phân loại như (gà) trống, (mèo) đen, (mèo) mướp, (mèo) tam thể, … - Hình dung từ chỉ ra chất lượng nào đó của danh từ trung tâm, ví dụ như (xe đạp) mới màu xanh, (bác sĩ) nổi tiếng, … - Hạn định từ như này, đây, kia, nọ… - Từ sở hữu như (của) tôi, (của) chúng ta, (của) cha tôi… Tác giả Nguyễn Tài Cẩn, trong [31], định nghĩa cụm danh từ tiếng Việt như một chuỗi ba thành tố : phần đầu (có thể khuyết), phần trung tâm (bắt buộc), phần cuối (có thể khuyết). Phần trung tâm bao gồm hai thành phần con ký hiệu là T1 và T2, trong đó T2 là danh từ trung tâm và T1 chỉ đơn vị đo lường như : bóT1 củiT2, chaiT1 nướcT2 Phần đầu bao gồm ba loại định tố tương tự quan điểm của [16] là : Định tố CÁI, định tố chỉ số lượng và định tố chỉ tổng lượng. Trang 40 Phần cuối bao gồm hai loại định tố là : Định tố chỉ gồm một từ và định tố gồm cả mệnh đề. Quan điểm của [16] và [31] thiên về hướng phân nhỏ cụm danh từ tiếng Việt thành các thành tố ở mức từ, không đặt nặng các thành tố ở mức ngữ. Trong khi nhu cầu cầu trúc hóa cụm danh từ cần phân tích cụm danh từ tiếng Việt thành một cấu trúc ngữ pháp bao gồm các ngữ con. Một quan điểm thứ ba do [40] đề xuất đã đặc biệt đáp ứng sát nhu cầu này. Theo [40], cụm danh từ tiếng Việt gồm phần phụ trước, danh từ trung tâm và phần phụ sau. Phần phụ trước vẫn chủ yếu được tạo nên bởi các thành tố ở mức từ như từ phân loại, từ đơn vị và mạo từ. Tuy nhiên khái niệm được chuyển tải trong cụm danh từ nhờ danh từ trung tâm và phần phụ sau. Phần phụ trước không tham gia chuyển tải khái niệm. Do đó, để phục vụ bài toán lập chỉ mục trên khái niệm, đề tài chỉ quan tâm danh từ trung tâm và phần phụ sau của cụm danh từ tiếng Việt. Tác giả của [40] phân tích phần phụ sau của cụm danh từ tiếng Việt thành các thành tố ở mức ngữ : - Ngữ danh từ đi liền sau danh từ trung tâm, cung cấp thông tin chuyên biệt hóa cho danh từ trung tâm. Vd: Sách đạo đức, trường quốc tế - Ngữ tính từ cũng theo sau danh từ trung tâm và ngữ danh từ (nếu có) nhằm bổ nghĩa cho danh từ trung tâm và có thể kèm theo một (hay một số) trạng từ chỉ mức độ. Vd: Món hàng (rất) đắt đỏ, cô gái (cực kỳ) thông minh. - Ngữ giới từ như quán ăn bên đường, bài thể dục vào buổi sáng…Ngữ giới từ luôn đứng sau ngữ danh từ và ngữ tính từ (nếu có). - Mệnh đề là một cấu trúc Chủ - Vị hẳn hoi. Nó thường bắt đầu với từ “mà”. Tuy nhiên, từ “mà” không bắt buộc phải có. Ví dụ : Bộ phim kinh dị (mà) tôi thích. - Từ chỉ định như này / nầy / ni / đó / đấy / ấy / nớ / kia / nọ và luôn đứng sau ngữ danh từ và ngữ tính từ. Trang 41 - Ngữ sở hữu trong tiếng Việt thường là một nhóm từ bắt đầu với từ “của”, nhưng trong một số ngữ cảnh rõ ràng, từ “của” có thể được lược bỏ. Ví dụ : nhà (của) tôi, thế giới (của) thần tiên… 3.5.2 Giải pháp cấu trúc hóa cụm danh từ tiếng Việt Công trình [40] đề xuất một cấu trúc rất mạch lạc của cụm danh từ tiếng Việt. Cấu trúc này không chỉ đầy đủ, chi tiết mà còn gần gũi với cấu trúc dữ liệu của bài toán tin học. Vì vậy cấu trúc nêu trong [40] đã được [7] vận dụng để định nghĩa chi tiết một cấu trúc dữ liệu lưu trữ các thành phần ngữ pháp của cụm danh từ tiếng Việt. Tuy nhiên, như đã đề cập trên đây, công đoạn cấu trúc hóa chỉ quan tâm danh từ trung tâm và phần phụ sau của cụm danh từ. Không xét thành phần phụ trước, cụm danh từ tiếng Việt phải bắt đầu bằng Danh từ trung tâm. Danh từ trung tâm có thể là 1 danh từ duy nhất hoặc nhiều danh từ trong một cấu trúc song song. Vd : trong “Sinh viên đại học”, danh từ trung tâm là 1 danh từ duy nhất trong khi với “nguồn gốc và tính chất của saponin” thì danh từ trung tâm gồm 2 thành phần song song liên kết nhau bởi liên từ “và”. Đặt CS(x) là ký hiệu cho 1 thành tố x hoặc nhiều thành tố x nối nhau bằng liên từ. Các thành

Các file đính kèm theo tài liệu này:

7.pdf
1.pdf
2.pdf
3.pdf
4.pdf
5.pdf
6.pdf
8.pdf
9.pdf
10.pdf
11.pdf
12.pdf