1.1 Lý do chọn đềtài
Tri thức của nhân loại là một kho tàng to lớn và quý báu. Hàng ngày, một khối
lượng khổng lồnhững tri thức mới được bổsung khiến kích thước kho tri thức nhân
loại tăng trưởng nhanh chóng. Do vậy, việc tìm kiếm các tài liệu phù hợp cho nhu
cầu thông tin của con người một cách thủcông là hoàn toàn không khảthi. Vì đó,
nhiều công cụtìm kiếm thông tin tự động đã được phát triển đểphục vụnhu cầu
truy lục.
Tuy nhiên, các giải pháp tìm kiếm thông tin hiện nay vẫn còn gặp phải một sốhạn
chếsau :
(i) Việc lập chỉmục chủyếu dựa trên các từkhóa mà chưa quan tâm đến ngữcảnh
mà chúng xuất hiện cũng nhưmối liên hệgiữa chúng. Việc so khớp đơn thuần trên
từkhóa có thểtrảra những tài liệu không phù hợp với nhu cầu thông tin của người
dùng.
(ii) Một thách thức lớn là ngôn ngữvừa có thể đa nghĩa (tùy vào bối cảnh và lĩnh
vực chuyên môn mà từngữcó thểmang các nghĩa khác nhau) lại vừa có thể đồng
nghĩa (những từngữkhác nhau nhưng có cùng một nghĩa). Thông tin được biểu
diễn qua ngôn ngữbằng nhiều cách phong phú và gây nhiễu khiến tìm kiếm bằng từ
khóa không thểhiệu quả được.
(iii) Khi người dùng tìm kiếm thông tin, họthường đồng thời quan tâm cảnhững
thông tin có liên quan mật thiết với thông tin cần tìm (điều này đặc biệt phổbiến đối
với nhu cầu truy lục tài liệu chuyên môn của các chuyên gia). Chẳng hạn nhưkhi
các Bác sĩtìm kiếm tài liệu liến quan đến “Chứng đau thắt ngực”, sẽrất hữu ích nếu
họ được hỗtrợtìm kiếm thêm những tài liệu liên quan đến ba nguyên nhân chính
của “Chứng đau thắt ngực” là : “Phình động mạch vành”, “Xơcứng động mạch
vành” và “Huyết khối động mạch vành”. Các giải pháp tìm kiếm thông tin hiện có
chưa đáp ứng được nhu cầu này.
Từ đó mởra hướng nghiên cứu đểxây dựng một mô hình lập chỉmục mới nhằm
khắc phục các hạn chếtrên và giúp tìm kiếm thông tin hiệu quảhơn : Mô hình lập
chỉmục dựa trên khái niệm.
Theo [11], Lập chỉmục dựa trên khái niệm là lập chỉmục với tập từchỉmục là tập
các khái niệm cho trước được tổchức theo một cấu trúc Ontology. Các khái niệm
được tìm kiếm dựa trên ngữnghĩa của chúng thay vì đơn thuần dựa trên từkhóa,
nhờ đó khắc phục hạn chế(i).
Đến nay, các công trình nghiên cứu lập chỉmục trên khái niệm cho tiếng Anh đã đạt
được những thành tựu nhất định, nhưng kết quảnghiên cứu cho tiếng Việt còn hạn
chế. Đềtài của luận văn nhắm đến việc xây dựng và thửnghiệm một hệthống lập
chỉmục trên khái niệm cho tiếng Việt.
Các khái niệm thường được thểhiện trong văn bản dưới dạng các cụm danh từdo
đó trước hết luận văn sẽtập trung xửlý rút trích cụm danh từtrong tài liệu nhưcác
khái niệm ứng viên.
Trước khi tiến hành so khớp một cụm danh từC rút trích được với các khái niệm
trong Ontology, luận văn sẽtiến hành phát sinh các biến thể(variants) của C. Mỗi
biến thểlà một cụm từtương đương với cụm từgốc C theo một nghĩa nào đấy và
được phát sinh dựa trên tri thức vềcấu trúc ngữpháp của C. Cách làm này khắc
phục được các hạn chế(ii).
Ngoài ra, luận văn quan tâm hỗtrợngười dùng khảnăng định hướng trong không
gian khái niệm với các mối kết hợp (tổng quát hoá, chuyên biệt hóa, đồng nghĩa )
nên khắc phục được hạn chế(iii).
1.2 Mục tiêu của luận văn
Mục tiêu nghiên cứu của luận văn bao gồm những điểm sau :
- Tìm hiểu các kỹthuật và phương pháp lập chỉmục trên khái niệm.
- Tìm hiểu các kỹthuật và phương pháp phát sinh biến thểcho cụm từvà việc
ứng dụng nó trong lập chỉmục trên khái niệm.
- Tìm hiểu cấu trúc đặc thù của cụm danh từtiếng Việt và đềxuất một giải
pháp phát sinh biến thểcho cụm danh từtiếng Việt nhằm phục vụcho lập chỉ
mục trên khái niệm tiếng Việt.
- Tìm hiểu các phương pháp so khớp đểso khớp các khái niệm trích ra từtài
liệu với các khái niệm trong một Ontology.
- Vận dụng một sốphương pháp đã tìm hiểu đểxây dựng thửnghiệm một hệ
thống lập chỉmục trên khái niệm cho các tài liệu Y khoa tiếng Việt và so
sánh kết quả.
1.3 Nội dung nghiên cứu
Bài toán Lập chỉmục trên khái niệm đã thu hút nhiều nỗlực của cộng đồng nghiên
cứu, nhất là khi tri thức nhân loại phát triển ngày càng đồsộvà nhu cầu tìm kiếm
thông tin hiệu quảtrởnên cần thiết hơn bao giờhết. Có nhiều hướng tiếp cận đểgiải
quyết bài toán Lập chỉmục trên khái niệm. Một bản khảo sát cô đọng các công trình
nghiên cứu liên quan sẽ được trình bày trong chương 2 của luận văn. Nó giúp ta có
được cái nhìn tổng thểvềhiện trạng trong hướng nghiên cứu lập chỉmục trên khái
niệm.
Bài toán lập chỉmục trên khái niệm gặp một thách thức là khái niệm có thể được
nói đến bằng nhiều tên gọi khác nhau. Những tên gọi này là các biến thểcủa nhau.
Đểrút trích hiệu quảcác khái niệm từtài liệu, cần nhận biết chúng dù chúng được
đềcập bằng tên gọi nào. Do đó luận văn quan tâm việc phát sinh biến thểcủa cụm
từ, cụthểlà cụm danh từ(vì người ta dùng cụm danh từ đểgọi tên khái niệm). Một
giới thiệu tổng quan vềcác loại biến thểcùng với các kỹthuật phát sinh biến thể
tương ứng được trình bày trong chương 4 của luận văn. Cũng trong chương này,
luận văn trình bày giải pháp phát sinh biến thểcủa mình đểphục vụcho việc lập chỉ
mục trên khái niệm.
Cụm danh từcần được rút trích từtài liệu trước khi các biến thểcủa chúng được
phát sinh và trước khi ánh xạtài liệu vào khái niệm trong Ontology. Chương 3 của
luận văn trình bày một giải pháp rút trích cụm danh từtrong tài liệu tiếng Việt và hệ
thống cài đặt giải pháp ấy [7]. Giải pháp này có những xửlý đặc biệt phục vụcho
mục tiêu phát sinh biến thểcho các cụm danh từrút trích được.
Với hướng tiếp cận luận văn chọn theo, kết quảsau cùng của hệthống lập chỉmục
trên khái niệm biểu diễn mỗi tài liệu bằng một vector các khái niệm (trong
Ontology) liên quan. Do vậy việc ánh xạtài liệu vào Ontology là một xửlý quan
trọng. Chương 5 của luận văn trình bày các giải pháp ánh xạmà luận văn sửdụng
và hệthống cài đặt thửnghiệm các giải pháp ấy [27]
Kết quảthửnghiệm của luận văn được trình bày trong chương 6. Luận văn sửdụng
bộdữliệu đánh giá được xây dựng bởi [11] và hiệu chỉnh lại bởi [27]. Sau cùng,
các kết luận cùng một sốhướng phát triển được trình bày trong chương 7 của luận
văn.
43 trang |
Chia sẻ: tuandn | Lượt xem: 2523 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Một số giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Trang 30
Chương 3 : PHÂN TÍCH CÚ PHÁP
3.1 Tổng quan
Mỗi khái niệm trong Ontology được biểu diễn bằng một định danh khái niệm. Định
danh khái niệm là một cụm danh từ. Hầu hết tài liệu cũng đề cập đến những khái
niệm trong nội dung của mình dưới dạng cụm danh từ. Việc quyết định một tài liệu
có liên quan cỡ nào với một khái niệm được thực hiện bởi sự so khớp các cụm danh
từ hiện diện trong tài liệu với định danh khái niệm trong Ontology (cũng là một cụm
danh từ). Do đó việc trước tiên cần làm là rút trích các cụm danh từ từ tài liệu để
phục vụ cho so khớp, đó chính là mục đích của tác vụ Phân tích cú pháp được trình
bày trong chương này.
Như nhiều bài toán xử lý ngôn ngữ tự nhiên khác, xử lý rút trích cụm danh từ chỉ có
thể được thực hiện sau khi tài liệu đã được tách từ và gán nhãn từ loại. Nhưng nếu
chỉ dừng lại ở so khớp cụm danh từ thì việc lập chỉ mục trên khái niệm không khác
nhiều so với lập chỉ mục trên cụm danh từ. Do vậy để việc so khớp trên khái niệm
không phụ thuộc nhiều vào hình thức mà khái niệm xuất hiện trong tài liệu, hệ
thống cần thực hiện phát sinh biến thể cho các cụm danh từ và cho các biến thể
tham gia vào quá trình so khớp. Biến thể mà luận văn chọn xử lý là biến thể ngữ
pháp và lý do lựa chọn loại biến thể này cũng như việc phát sinh biến thể được mô
tả trong chương 4. Nhưng hệ thống không thể phát sinh biến thể ngữ pháp cho một
cụm danh từ nếu không nắm rõ cấu trúc ngữ pháp của cụm danh từ ấy. Do đó cụm
danh từ rút trích ra từ tài liệu còn cần được phân tích thành một cấu trúc ngữ pháp
chi tiết để làm cơ sở cho xử lý phát sinh biến thể. Từ những lý do trên, tác vụ Phân
tích cú pháp được chia ra bốn tác vụ con :
i. Tách từ cho tài liệu thô.
ii. Gán nhãn từ loại cho những từ đã tách được ở (i).
Trang 31
iii. Từ những từ đã tách và nhãn từ loại của chúng, gán nhãn ranh giới ngữ cho
chúng để rút trích cụm danh từ
iv. Cấu trúc hóa các cụm danh từ đã rút trích để phân tích chúng thành một cấu
trúc ngữ pháp chi tiết.
3.2 Tách từ
Với đại đa số các ngôn ngữ trên thế giới (loại hình ngôn ngữ hòa kết), việc tách từ
có thể được thực hiện dựa trên khoảng trắng. Nhưng tiếng Việt là một ngôn ngữ có
nhiều điểm đặc thù (loại hình ngôn ngữ đơn lập). Trong tiếng Việt, từ bao gồm tập
hợp của một hay nhiều tiếng nên không thể tách từ bằng khoảng trắng. Tách từ là
việc xác định ranh giới các từ trong câu, những tiếng liền nhau nào trong câu cùng
thuộc một từ. Tách từ phải đảm bảo các điều kiện :
- Tất cả các từ tách được từ câu ban đầu phải có nghĩa.
- Không có tiếng nào thuộc cùng lúc hai từ khác nhau trong câu.
- Ghép tất cả các từ tách được phải tạo thành câu ban đầu.
Luận văn sử dụng chương trình tách từ Word Segmentation của nhóm nghiên cứu
Information Retrieval thuộc Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông
tin, Trường Đại học Khoa học Tự nhiên tp.HCM. Chương trình này tiếp cận việc
tách từ dựa vào từ điển và danh sách danh từ riêng để phát hiện những từ có nghĩa
trong câu. Sau khi tách từ, các tiếng trong một từ được nối lại bằng dấu “_” để đánh
dấu các từ.
Trong từ điển, mỗi mục từ đều đính kèm một nhãn từ loại cơ sở, từ loại cơ sở là từ
loại thường gặp nhất ở mục từ ấy. Các từ tách được trong tài liệu cũng sẽ nhận các
nhãn từ loại cơ sở này để làm tiền đề cho bước gán nhãn từ loại tiếp theo.
Trang 32
3.3 Gán nhãn từ loại
Mỗi từ trong tiếng Việt có thể có nhiều từ loại. Việc một từ trong câu sẽ mang từ
loại nào trong các từ loại mà nó có thể có là do ngữ cảnh của từ quyết định. Nhãn từ
loại cơ sở được gán cho từ trong tài liệu hoàn toàn dựa vào nhãn chỉ định trong từ
điển, chưa quan tâm đến ngữ cảnh của từ, do đó độ chính xác thấp. Do vậy pha điều
chỉnh nhãn từ loại dựa trên ngữ cảnh của từ là cần thiết. Bộ công cụ fnTBL [24]
(được phát triển bởi Radu Florian và Grace Ngai, thành viên nhóm nghiên cứu xử lý
ngôn ngữ tự nhiên trường Đại học Johns Hopkins) được sử dụng để thực hiện việc
điều chỉnh này. Kết quả của bộ công cụ này là một tập luật sửa nhãn từ loại nhằm
điều chỉnh lại nhãn từ loại ban đầu trong tài liệu. Tập luật này được tạo nên nhờ một
bộ dữ liệu huấn luyện và một tập mẫu luật (rule template).
3.3.1 Phát sinh tập luật điều chỉnh từ loại
Hệ thống sử dụng bộ dữ liệu huấn luyện của nhóm nghiên cứu Information
Retrieval thuộc Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường
Đại học Khoa học Tự nhiên tp.HCM, được gọi là bộ dữ liệu A. Bộ dữ liệu A được
gán nhãn từ loại một cách thủ công và bảo đảm chính xác hoàn toàn. Một bộ dữ liệu
thứ 2 – bộ dữ liệu B – có nội dung giống hệt bộ dữ liệu A nhưng có nhãn từ loại
được gán tự động dựa trên từ loại thường gặp nhất của mỗi mục từ trong từ điển.
Trong pha huấn luyện, bộ công cụ fnTBL sẽ phân tích sự khác biệt về nhãn từ loại
giữa hai bộ dữ liệu A và B để phát sinh ra các luật điều chỉnh nhãn từ loại dựa trên
một tập mẫu luật được định nghĩa trước. Tất cả các mẫu luật đều có một công thức
chung là:
(cond 1) (cond 2) … (cond n) => (res 1) (res 2) … (res n)
Trong đó:
- cond i: là điều kiện của luật, luật chỉ thực hiện khi tất cả các điều kiện đều
đúng
- res i: là các kết quả của luật
Trang 33
Trong bài toán gán nhãn từ loại, ta chỉ xét những luật có một kết quả, đó là nhãn từ
loại gán cho từ hiện đang được xét. Dưới đây là một ví dụ về mẫu luật.
Ví dụ 3.1
word_-1 pos_0 => pos
Phát biểu mẫu luật trên như sau: Từ loại của từ đang xét được chọn dựa vào
nội dung từ đứng liền trước và từ loại hiện tại của từ đang xét đó. Dưới đây là
một ví dụ về luật có thể phát sinh từ mẫu luật trên
Ví dụ 3.2
word_-1=sự pos_0=dot => pos=dat
Luật trên được phát biểu như sau: Nếu từ liền trước từ đang xét là từ sự và từ
đang xét mang nhãn là động từ (dot) thì sửa nhãn từ đang xét thành danh từ
(dat). Sau đây là một ví dụ khác về luật điều chỉnh nhãn từ loại
Ví dụ 3.3
pos_0=dat word_0=hướng word:[1,3]=vào => pos=dot
(Luật trên được phát sinh từ mẫu luật : pos_0 word_0 word:[1,3] => post)
Ta có thể phát biểu luật này như sau: Nếu từ đang xét là từ “hướng” có từ loại
là danh từ (dat) và ba từ liền sau có xuất hiện từ “vào” thì từ loại của từ
“hướng” này sẽ được sửa thành động từ (dot).
3.3.2 Bổ sung luật điều chỉnh từ loại
Tồn tại một khó khăn trong việc huấn luyện để phát sinh luật. Đó là bộ dữ liệu huấn
luyện còn hạn chế, chưa thực sự phong phú đủ để học được một bộ luật tương đối
đầy đủ và chính xác. Việc tìm bộ dữ liệu huấn luyện phù hợp với kích thước thực sự
đủ lớn là khá khó khăn, bên cạnh đó việc tự xây dựng dữ liệu huấn luyện là không
khả thi vì nó đỏi hỏi phải bỏ ra rất nhiều thời gian và công sức. Với khó khăn trên,
giải pháp được chọn là đi theo hướng tự bổ sung luật vào bộ luật mà máy học được.
dựa vào tri thức con người. Tài liệu [16] trình bày lý thuyết về mối liên hệ giữa các
Trang 34
từ loại trong đoản ngữ tiếng Việt, đây là những tri thức hữu ích cho việc bổ sung
luật sửa nhãn từ loại.
Quá trình bổ sung luật được thực hiện bằng cách phân tích những lỗi sai còn tồn tại
trong kết quả của nhiều lần chạy chức năng sửa nhãn từ loại bằng tập luật đã phát
sinh tự động. Các lỗi sai này chính là những trường hợp bị bỏ sót bởi tập luật được
phát sinh tự động bởi fnTBL, do vậy những luật mới được bổ sung để giải quyết nốt
các lỗi này.
Dưới đây là một số ví dụ về luật sửa nhãn từ loại được bổ sung bằng tri thức con
người :
Ví dụ 3.4
pos_0=dot pos_-1=sot word_-1=các => pos=dat
Áp dụng luật trên vào câu sau:
“cácsot phẫu_thuậtdot gần_đây đều do trưởng_khoa chỉ_đạo”
Ta thấy: Trong câu trên, từ “phẫu_thuật” không mang nghĩa là động từ mà là
danh từ tức là “sự phẫu thuật”. Nhãn từ loại cơ sở của từ “phẫu_thuật” đã bị
sai, dựa vào luật trên, từ “phẫu_thuật” sẽ được sửa thành danh từ (dat)
Ví dụ 3.4
pos_0=dat pos_-1=tmd word_-1=rất => pos=tit
Áp dụng luật trên vào câu sau:
“các món_ăn này rấttmd đồng_quêdat”
Ta thấy: Trong câu trên, từ “đồng_quê” được gán nhãn từ loại cơ sở là danh từ
(dat), nhưng trong ngữ cảnh này, từ “đồng_quê” trên phải mang nghĩa là tính
từ. Luật trên có tách dụng sửa nhãn từ “đồng_quê” ở câu trên cho đúng ngữ
cảnh.
Trong [7], nhóm tác giả sử dụng 89 mẫu luật để phát sinh tự động 448 luật sửa nhãn
từ loại, sau đó 401 luật khác được bổ sung bằng tri thức con người. Bộ luật sau cùng
Trang 35
gồm 849 luật được áp dụng lên dữ liệu (là những tài liệu đã tách từ và gán nhãn từ
loại cơ sở) để điều chỉnh nhằm đạt được nhãn từ loại chính xác hơn.
3.4 Gán nhãn ranh giới ngữ
Với văn bản sau khi đã tách từ và gán nhãn từ loại được sử dụng làm dữ liệu đầu
vào cho công đoạn gán nhãn ranh giới ngữ. Gán nhãn ranh giới ngữ là việc xác định
xem trong văn bản, từ nào nằm trong, từ nào nằm ngoài cụm danh từ.
Có nhiều cách để đánh dấu cụm danh từ trong văn bản. Trong số đó, [6] đề xuất một
cách đánh dấu đơn giản và hiệu quả. Theo [6], cụm danh từ được đánh dấu bằng ba
loại nhãn I, O, B gán trên từng từ của văn bản với quy tắc I là nhãn chỉ từ nằm trong
cụm danh từ, O là nhãn chỉ từ nằm ngoài cụm danh từ và B là nhãn chỉ từ bắt đầu
một cụm danh từ (nhãn B đặc biệt cần thiết trong trường hợp có hai cụm danh từ
xuất hiện liền nhau). Các nhãn I, O, B được gọi là nhãn ranh giới ngữ.
Ví dụ 3.5
[Tổn_thương]I [thành]I [tá_tràng]I [cũng_như]I [vách]I [túi_mật]I [đều]O
[dẫn_đến]O [rối_loạn]I [tiêu_hóa]I
Trong ví dụ trên, ta thấy có hai cụm danh từ là “tổn thương thành tá tràng cũng
như vách túi mật” và “rối loạn tiêu hóa”.
Giống như công đoạn gán nhãn từ loại, công đoạn này cũng được tiến hành qua hai
bước chính là gán nhãn ranh giới ngữ cơ sở và sửa nhãn ranh giới ngữ dựa vào một
bộ luật. Bộ luật sửa nhãn ranh giới ngữ, tương tự như bộ luật sửa nhãn từ loại, cũng
được phát sinh tự động bằng bộ công cụ fnTBL.
3.4.1 Phát sinh bộ luật sửa nhãn ranh giới ngữ
Công đoạn này được thực hiện theo cùng một quy trình so với công đoạn phát sinh
bộ luật sửa nhãn từ loại. Một bộ dữ liệu huấn luyện bao gồm các tài liệu đã gán
nhãn từ loại đúng được sử dụng. Các từ trong bộ dữ liệu huấn luyện này, một mặt
được gán nhãn ranh giới ngữ một cách tự động dựa vào một từ điển (từ điển này chỉ
Trang 36
đơn giản chứa các từ loại kèm với nhãn ranh giới ngữ thường đi với chúng) để cho
ra bộ dữ liệu A, mặt khác được gán nhãn rãnh giới ngữ bằng tay để cho ra bộ dữ
liệu B. Bộ dữ liệu A có độ chính xác thấp trong khi bộ dữ liệu B tuyệt đối chính
xác. Bộ công cụ fnTBL sẽ phân tích sự khác biệt giữa A và B để phát sinh ra tập
luật điều chỉnh nhãn ranh giới ngữ sai trong A thành nhãn ranh giới ngữ đúng trong
B. Các bộ dữ liệu A và B được cung cấp bởi nhóm nghiên cứu Information
Retrieval thuộc Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường
Đại học Khoa học Tự nhiên tp.HCM.
Để phát sinh luật sửa nhãn ranh giới ngữ, fnTBL cũng cần dựa trên một tập các mẫu
luật. Sau đây là một số ví dụ về mẫu luật sửa nhãn ranh giới ngữ
Ví dụ 3.6
chunk_0 pos_0 pos_1 => chunk
Ta phát biểu mẫu luật trên như sau: Nhãn ranh giới ngữ của từ đang xét được
xác định dựa vào nhãn từ loại của từ liền sau, nhãn ranh giới ngữ và nhãn từ
loại của chính nó.
Ví dụ 3.7
chunk_-1 chunk_0 word:[-3,-1] word_0 => chunk
Ở ví dụ này, ta phát biểu như sau: Nhãn ranh giới ngữ của từ hiện tại đang xét
được xác định dựa vào nhãn ranh giới ngữ của chính nó và từ liền trước nó,
bản thân nội dung từ đó và nội dung của ba từ liền trước.
Ví dụ 3.8
chunk_0 pos_0 chunk_-1 pos_-1 => chunk
Ta phát biểu mẫu luật trên như sau: Nhãn ranh giới ngữ của từ hiện tại đang
xét được xác định dựa vào nhãn ranh giới ngữ của chính nó và từ liền trước nó
cùng với nhãn từ loại của chính nó và từ liền trước nó. Sau đây là một luật có
thể được phát sinh từ mẫu luật này.
Trang 37
Ví dụ 3.9
chunk_0=O pos_0=tmd chunk_-1=I pos_-1=tit => chunk=I
Phát biểu luật trên như sau: Nếu từ hiện tại là trạng từ chỉ mức độ (tmd) và
không nằm trong cụm danh từ, liền trước là một tính từ (tit) nằm trong cụm
danh từ thì nhãn ranh giới ngữ của tự hiện tại sẽ được sửa thành I (nằm trong
cụm danh từ)
3.4.2 Bổ sung luật sửa nhãn ranh giới ngữ
Cũng như bộ dữ liệu huấn luyện dùng trong khâu phát sinh luật sửa nhãn từ loại, bộ
dữ liệu huấn luyện dành cho luật sửa nhãn ranh giới ngữ cũng có kích thước hạn
chế, không đủ sức cho ra một tập luật đầy đủ và chính xác. Do vậy một lần nữa việc
bổ sung luật dựa vào tri thức con người được chọn làm giải pháp.
Các tài liệu [16, 31, 40] mô tả chi tiết cấu trúc cụm danh từ tiếng Việt, đồng thời
bàn đến vai trò của các từ loại khác nhau trong từng bộ phận khác nhau của một
cụm danh từ tiếng Việt. Dựa vào tri thức này, ta có thể xây dựng các cấu trúc khác
nhau của cụm danh từ tiếng Việt dưới dạng một chuỗi nhãn từ loại liên tiếp (các cấu
trúc ấy sẽ được bàn đến chi tiết trong phần sau của chương này). Với các chuỗi
nhãn từ loại này, một loạt luật được bổ sung để điều chỉnh nhãn ranh giới ngữ của
từ dựa vào nhãn từ loại và nhãn ranh giới ngữ của từ ấy cũng như các từ lân cận. Ví
dụ sau đây mô tả một luật được bổ sung và một tình huống ứng dụng nó để sửa
nhãn ranh giới ngữ
Ví dụ 3.10
chunk_0=O pos_0=gtg chunk_-1=I pos_-1=tit chunk_-2=I pos_-2=dat
pos_1=dat => chunk=I
Phát biểu luật trên như sau: Nếu từ hiện tại là giới từ chỉ thời gian (pos_0=gtg)
và nằm ngoài cụm danh từ (chunk_0=O), liền trước là một tính từ (pos_-1=tit)
nằm trong cụm danh từ (chunk_-1=I), trước đó một từ là danh từ (pos_-2=dat)
Trang 38
nằm trong cụm danh từ (chunk_-2=I) và liền sau là một danh từ (pos_1=dat)
thì từ hiện tại nằm trong cụm danh từ.
Áp dụng trong câu sau:
“sức_khỏedat,I tốttit,I trướcgtg,O ca _mổdat,I là một yếu tố quan trọng”
Đối với câu này, ta thấy từ “trước” đúng ra phải nằm trong cụm danh từ “sức
khỏe tốt trước ca mổ”, khi luật trên được áp dụng, từ “trướcgtg,O” sẽ được sửa
thành “trướcgtg,I” theo đúng mong muốn của chúng ta.
Công trình [7] sử dụng 54 mẫu luật để phát sinh tự động 378 luật sửa nhãn ranh giới
ngữ, sau đó 383 luật khác được bổ sung bằng tri thức con người. Bộ luật sau cùng
gồm 761 luật được áp dụng lên dữ liệu (là những tài liệu đã gán nhãn ranh giới ngữ
cơ sở) để điều chỉnh nhằm đạt được nhãn ranh giới ngữ chính xác hơn.
3.5 Cấu trúc hóa cụm danh từ
Mục đích việc rút trích cụm danh từ là để phục vụ lập chỉ mục trên khái niệm.
Nhưng công đoạn lập chỉ mục đòi hỏi bước phát sinh biến thể ngữ pháp. Bộ phát
sinh không thể làm việc nếu không có tri thức về cấu trúc ngữ pháp của cụm danh
từ gốc. Do đó, sau khi rút trích cụm danh từ từ tài liệu (gán nhãn ranh giới ngữ), cần
phân tích mỗi cụm danh từ rút trích được thành một cấu trúc ngữ pháp chi tiết. Đó
chính là nhiệm vụ của bước Cấu trúc hóa cụm danh từ.
3.5.1 Cấu trúc của cụm danh từ tiếng Việt
Có nhiều quan điểm khác nhau về cấu trúc cụm danh từ tiếng Việt.
Tác giả Diệp Quang Ban, trong [16], xem cụm danh từ tiếng việt như sự mở rộng
danh từ trung tâm (head-noun) để cung cấp thêm thông tin bổ nghĩa. Phần mở rộng
đứng trước danh từ trung tâm được gọi là tiền điều biến tố và phần mở rộng đứng
sau danh từ trung tâm được gọi là hậu điều biến tố.
Tiền điều biến tố cung cấp thông tin mang tính số lượng và có thể bao gồm nhiều
thành phần con. Thành phần con càng đứng xa danh từ trung tâm thì mang nghĩa
Trang 39
càng tổng quát và ngược lại. Một số thành phần con của tiền điều biến tố có thể là
(liệt kê từ trái sang phải) :
- Từ chỉ tổng lượng như : tất cả, hết thảy …
- Từ chỉ số lượng như : một, hai, ba, một vài, năm ba, …, đôi, cặp, tá, chục, …
- Đặc chỉ từ : Trong tiếng Việt là từ CÁI
- Quy loại từ : theo giống loài như cái, con, cây, người; theo hình thể của vật
thể như bức (tranh), cơn (mưa), cục (đá), giọt, luồng, mẩu, ngọn, ngôi, quyển
(sách), sợi, tấm, thanh….
Hậu điều biến tố cung cấp thông tin về mặt tính chất và cũng có thể bao gồm nhiều
thành phần con. Thành phần con càng đứng xa danh từ trung tâm thì mang nghĩa
càng chuyên biệt và ngược lại. Một số thành phần con của hậu điều biến tố có thể là
(liệt kê từ trái sang phải) :
Từ phân loại như (gà) trống, (mèo) đen, (mèo) mướp, (mèo) tam thể, …
- Hình dung từ chỉ ra chất lượng nào đó của danh từ trung tâm, ví dụ như (xe
đạp) mới màu xanh, (bác sĩ) nổi tiếng, …
- Hạn định từ như này, đây, kia, nọ…
- Từ sở hữu như (của) tôi, (của) chúng ta, (của) cha tôi…
Tác giả Nguyễn Tài Cẩn, trong [31], định nghĩa cụm danh từ tiếng Việt như một
chuỗi ba thành tố : phần đầu (có thể khuyết), phần trung tâm (bắt buộc), phần cuối
(có thể khuyết).
Phần trung tâm bao gồm hai thành phần con ký hiệu là T1 và T2, trong đó T2 là
danh từ trung tâm và T1 chỉ đơn vị đo lường như : bóT1 củiT2, chaiT1 nướcT2
Phần đầu bao gồm ba loại định tố tương tự quan điểm của [16] là : Định tố CÁI,
định tố chỉ số lượng và định tố chỉ tổng lượng.
Trang 40
Phần cuối bao gồm hai loại định tố là : Định tố chỉ gồm một từ và định tố gồm cả
mệnh đề.
Quan điểm của [16] và [31] thiên về hướng phân nhỏ cụm danh từ tiếng Việt thành
các thành tố ở mức từ, không đặt nặng các thành tố ở mức ngữ. Trong khi nhu cầu
cầu trúc hóa cụm danh từ cần phân tích cụm danh từ tiếng Việt thành một cấu trúc
ngữ pháp bao gồm các ngữ con. Một quan điểm thứ ba do [40] đề xuất đã đặc biệt
đáp ứng sát nhu cầu này.
Theo [40], cụm danh từ tiếng Việt gồm phần phụ trước, danh từ trung tâm và phần
phụ sau. Phần phụ trước vẫn chủ yếu được tạo nên bởi các thành tố ở mức từ như từ
phân loại, từ đơn vị và mạo từ. Tuy nhiên khái niệm được chuyển tải trong cụm
danh từ nhờ danh từ trung tâm và phần phụ sau. Phần phụ trước không tham gia
chuyển tải khái niệm. Do đó, để phục vụ bài toán lập chỉ mục trên khái niệm, đề tài
chỉ quan tâm danh từ trung tâm và phần phụ sau của cụm danh từ tiếng Việt. Tác
giả của [40] phân tích phần phụ sau của cụm danh từ tiếng Việt thành các thành tố ở
mức ngữ :
- Ngữ danh từ đi liền sau danh từ trung tâm, cung cấp thông tin chuyên biệt
hóa cho danh từ trung tâm. Vd: Sách đạo đức, trường quốc tế
- Ngữ tính từ cũng theo sau danh từ trung tâm và ngữ danh từ (nếu có) nhằm
bổ nghĩa cho danh từ trung tâm và có thể kèm theo một (hay một số) trạng từ
chỉ mức độ. Vd: Món hàng (rất) đắt đỏ, cô gái (cực kỳ) thông minh.
- Ngữ giới từ như quán ăn bên đường, bài thể dục vào buổi sáng…Ngữ giới
từ luôn đứng sau ngữ danh từ và ngữ tính từ (nếu có).
- Mệnh đề là một cấu trúc Chủ - Vị hẳn hoi. Nó thường bắt đầu với từ “mà”.
Tuy nhiên, từ “mà” không bắt buộc phải có. Ví dụ : Bộ phim kinh dị (mà) tôi
thích.
- Từ chỉ định như này / nầy / ni / đó / đấy / ấy / nớ / kia / nọ và luôn đứng sau
ngữ danh từ và ngữ tính từ.
Trang 41
- Ngữ sở hữu trong tiếng Việt thường là một nhóm từ bắt đầu với từ “của”,
nhưng trong một số ngữ cảnh rõ ràng, từ “của” có thể được lược bỏ. Ví dụ :
nhà (của) tôi, thế giới (của) thần tiên…
3.5.2 Giải pháp cấu trúc hóa cụm danh từ tiếng Việt
Công trình [40] đề xuất một cấu trúc rất mạch lạc của cụm danh từ tiếng Việt. Cấu
trúc này không chỉ đầy đủ, chi tiết mà còn gần gũi với cấu trúc dữ liệu của bài toán
tin học. Vì vậy cấu trúc nêu trong [40] đã được [7] vận dụng để định nghĩa chi tiết
một cấu trúc dữ liệu lưu trữ các thành phần ngữ pháp của cụm danh từ tiếng Việt.
Tuy nhiên, như đã đề cập trên đây, công đoạn cấu trúc hóa chỉ quan tâm danh từ
trung tâm và phần phụ sau của cụm danh từ.
Không xét thành phần phụ trước, cụm danh từ tiếng Việt phải bắt đầu bằng Danh từ
trung tâm. Danh từ trung tâm có thể là 1 danh từ duy nhất hoặc nhiều danh từ trong
một cấu trúc song song. Vd : trong “Sinh viên đại học”, danh từ trung tâm là 1 danh
từ duy nhất trong khi với “nguồn gốc và tính chất của saponin” thì danh từ trung
tâm gồm 2 thành phần song song liên kết nhau bởi liên từ “và”.
Đặt CS(x) là ký hiệu cho 1 thành tố x hoặc nhiều thành tố x nối nhau bằng liên từ.
Các thành