Chúng ta biết rằng nguồn tài nguyên được lưu trữ dưới dạng dữ liệu văn bản là rất rộng lớn và giàu thông tin nhưng việc khai thác nguồn dữ liệu này vẫn chưa đạt hiệu quả cao. Hiện nay, trên thế giới đã có khá nhiều hệ thống thực hiện công việc này theo những phương pháp khác nhau tuy chưa đạt được hiệu quả tối ưu nhưng cũng phần nào đáp ứng được các yêu cầu thông tin của người sử dụng. Mỗi phương pháp khác nhau đều thể hiện được những điểm mạnh riêng của nó và việc lựa chọn phương pháp nào phụ thuộc vào những mục đích và tiêu chí riêng đặt ra.
Hiện nay, sự gia tăng của các phương tiện truyền thông trong việc lưu trữ và sự bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm văn bản càng trở nên quan trọng hơn bao giờ hết. Chính vì vậy, việc lựa chọn phương pháp tìm kiếm văn bản giúp cho người sử dụng có thể tìm kiếm được những thông tin cần thiết một cách chính xác hiệu quả từ nguồn tài liệu văn bản rộng lớn phục vụ cho các mục đích trong công việc cũng như trong đời sống là rất cần thiết. Nhận thức được tầm quan trọng của việc khai thác dữ liệu văn bản, em đã lựa chọn đề tài: “Tìm kiếm văn bản tiếng Việt”.
Với đề tài này em đi sâu vào nghiên cứu việc tìm kiếm văn bản tiếng Việt sử dụng lý thuyết tập thô tập thô dung sai (Tolerance Rough Set Model). Đây cũng là một trong những phương pháp rất hiệu quả cho mục đích khai phá dữ liệu cũng như tìm kiếm văn bản tiếng Việt vì nó đã phần nào giải quyết được vấn đề đồng nghĩa trong tiếng Việt mà từ trước cho tới nay vẫn chưa có một biện pháp nào giải quyết tốt cho vấn đề đồng nghĩa. Đây là một đề tài tương đối rộng và phức tạp nhưng thời gian nghiên cứu không nhiều, sự hiểu biết trong lĩnh vực này còn bị hạn chế nên đồ án tốt nghiệp này sẽ không tránh khỏi những thiếu sót. Em rất mong nhận được sự đóng góp, chỉ bảo thêm của thầy cô và các bạn đọc để đồ án này hoàn thiện và hữu ích hơn trong thời gian tới.
Em xin chân thành cảm ơn TS. Nguyễn Kim Anh. Cô đã mở ra cho em hướng nghiên cứu về tìm kiếm văn bản tiếng Việt đồng thời cô đã tận tình hướng dẫn em trong suốt quá trình làm đồ án.
anh Lưu Anh Tuấn và anh Lê Minh Hiền những người đã tận tình giúp em trong quá trình làm đồ án. Tôi cũng xin cảm ơn các bạn học cùng khoa đã đóng góp ý kiến cho tôi để hoàn thành đồ án một cách tốt hơn.
76 trang |
Chia sẻ: ngtr9097 | Lượt xem: 2112 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Đồ án Tìm kiếm văn bản tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
MỤC LỤC
MỤC LỤC HÌNH
Hình 1: Mô hình xác định từ đại diện cho văn bản 13
Hình 2: Truy vấn văn bản 21
Hình 3: Thu nhỏ kích thước qua SVD. 28
Hình 4. Kiến trúc của hệ thống 55
Hình 5: Tổ chức lưu trữ từ điển 57
Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản 58
Hình 7:Giao diện ứng dụng tách từ có nghĩa cho văn bản 59
Hình 8: Giao diện thực hiện tính không gian dung sai cho các term 65
Hình 9: Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản. 68
Hình 10: Giao diện phục vụ tìm kiếm văn bản 69
LỜI MỞ ĐẦU
Chúng ta biết rằng nguồn tài nguyên được lưu trữ dưới dạng dữ liệu văn bản là rất rộng lớn và giàu thông tin nhưng việc khai thác nguồn dữ liệu này vẫn chưa đạt hiệu quả cao. Hiện nay, trên thế giới đã có khá nhiều hệ thống thực hiện công việc này theo những phương pháp khác nhau tuy chưa đạt được hiệu quả tối ưu nhưng cũng phần nào đáp ứng được các yêu cầu thông tin của người sử dụng. Mỗi phương pháp khác nhau đều thể hiện được những điểm mạnh riêng của nó và việc lựa chọn phương pháp nào phụ thuộc vào những mục đích và tiêu chí riêng đặt ra.
Hiện nay, sự gia tăng của các phương tiện truyền thông trong việc lưu trữ và sự bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm văn bản càng trở nên quan trọng hơn bao giờ hết. Chính vì vậy, việc lựa chọn phương pháp tìm kiếm văn bản giúp cho người sử dụng có thể tìm kiếm được những thông tin cần thiết một cách chính xác hiệu quả từ nguồn tài liệu văn bản rộng lớn phục vụ cho các mục đích trong công việc cũng như trong đời sống là rất cần thiết. Nhận thức được tầm quan trọng của việc khai thác dữ liệu văn bản, em đã lựa chọn đề tài: “Tìm kiếm văn bản tiếng Việt”.
Với đề tài này em đi sâu vào nghiên cứu việc tìm kiếm văn bản tiếng Việt sử dụng lý thuyết tập thô tập thô dung sai (Tolerance Rough Set Model). Đây cũng là một trong những phương pháp rất hiệu quả cho mục đích khai phá dữ liệu cũng như tìm kiếm văn bản tiếng Việt vì nó đã phần nào giải quyết được vấn đề đồng nghĩa trong tiếng Việt mà từ trước cho tới nay vẫn chưa có một biện pháp nào giải quyết tốt cho vấn đề đồng nghĩa. Đây là một đề tài tương đối rộng và phức tạp nhưng thời gian nghiên cứu không nhiều, sự hiểu biết trong lĩnh vực này còn bị hạn chế nên đồ án tốt nghiệp này sẽ không tránh khỏi những thiếu sót. Em rất mong nhận được sự đóng góp, chỉ bảo thêm của thầy cô và các bạn đọc để đồ án này hoàn thiện và hữu ích hơn trong thời gian tới.
Em xin chân thành cảm ơn TS. Nguyễn Kim Anh. Cô đã mở ra cho em hướng nghiên cứu về tìm kiếm văn bản tiếng Việt đồng thời cô đã tận tình hướng dẫn em trong suốt quá trình làm đồ án.
anh Lưu Anh Tuấn và anh Lê Minh Hiền những người đã tận tình giúp em trong quá trình làm đồ án. Tôi cũng xin cảm ơn các bạn học cùng khoa đã đóng góp ý kiến cho tôi để hoàn thành đồ án một cách tốt hơn.
PHẦN I. CƠ SỞ LÝ THUYẾT
I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT
1.Tính chính xác của văn bản tiếng Việt
Khi nghiên cứu về văn bản tiếng Việt chúng ta gặp rất nhiều khó khăn trong việc tin học hoá phục vụ cho việc khai phá nguồn dữ liệu văn bản tiếng Việt. Một trong những khó khăn đó chính là ngữ pháp tiếng Việt. Để phân tích và kiểm tra tính chính xác của một văn bản tiếng Việt, chúng ta phải tiến hành phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa, và phân tích chứng thực.
Phân tích từ vựng: Quá trình này nhằm phân tích hình thái của các từ tạo nên câu từ đó kiểm tra được tính đúng đắn của âm tiết và từ.
Phân tích cú pháp: Quá trình này đưa ra mô tả về quan hệ và vai trò ngữ pháp của các từ trong câu đồng thời đưa ra hình thái của câu. Đầu vào của giai đoạn này là câu đã được phân tách từ, trong đó mỗi từ có đặc điểm hình thái nhất định. Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấu trúc cú pháp của câu. Đầu ra của giai đoạn này là hình thái câu. Các luật cú pháp thường được xây dựng theo cơ chế mở, nghĩa là có thể sửa đổi, bổ sung hay loại bỏ các luật thừa. Kết quả của bước phân tích cú pháp phụ thuộc rất nhiều vào tính chính xác và đầy đủ của các luật cú pháp.
Phân tích ngữ nghĩa: Mục đích của quá trình này là kiểm tra ý nghĩa của câu có mâu thuẫn với cả đoạn hay không? Dựa trên mối quan hệ logic về nghĩa giữa các cụm từ trong câu và mối quan hệ giữa các câu trong đoạn, hệ thống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn. Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân tích câu và thông tin về ngữ nghĩa của tất cả các từ. Các thực từ thường có nhiều nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giải thích với các từ khác trong câu.
Một cách tiếp cận được nhiều người quan tâm là sử dụng logic vị từ để biểu diễn thông tin ngữ nghĩa. Thông tin ngữ nghĩa được lưu trư giống như thông tin cú pháp. Các phương pháp lập luận logic có thể dùng để phỏng đoán và suy luận nhiều thông tin hơn dựa trên thông tin đầu vào. Các thông tin này không cần phải phân loại (nhận giá trị đúng hay sai). Mô hình cấu trúc ngữ pháp của câu là cấu trúc có đầy đủ nghĩa ngữ pháp và thông báo. Có hai cách miêu tả:
Miêu tả các quan hệ cú pháp giữa từ và tổ hợp từ.
Miêu tả mô hình hay ý của câu. Việc miêu tả nhằm cho phép suy đoán được ý của các bộ phận lớn hơn từ từ đó xác định ý của câu. Câu là một thể trọn vẹn chứ không phải là tổng các bộ phận cấu thành nó. Ý của câu là tích ý nghĩa các yếu tố tham gia cùng với ý nghĩa quan hệ tổng thể cấu trúc câu. Từ là một tổ hợp của câu, trong từ thể hiện một phần ý của câu. Nhưng từ không nhất thiết phải hiện diện trong câu với nghĩa mà nó có khi đóng vai trò một đơn vị độc lập ở cấp độ khác. Dựa trên mô hình cấu trúc cú pháp câu, ta có thể nhận diện cấu trúc chìm của câu (như hành động-chủ thể hành động, hành động - đối tượng hành động…), giúp giải thích được ý nghĩa của câu và vạch ra tính đa nghĩa của chúng.
Phân tích thực chứng: Quá trình này xác định ý nghĩa câu dựa trên mối quan hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc phụ thuộc rất nhiều vào ý, tứ và ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích thực chứng rất khó thực hiện bằng máy tính thông thường, việc phân tích câu chỉ dừng ở mức phân tích phân tích ngữ nghĩa, còn việc phân tích thực chứng do người dùng quyết định.
2. Từ tiếng Việt
Trong phạm vi cấu tạo từ, phương tiện chủ yếu về ngữ pháp chính là sự kết hợp các tiếng. Trật tự sắp xếp các tiếng có vai trò qua trọng trong cấu tạo từ. Kết hợp các phương tiện này. Có hai phương thức cấu tạo từ chủ yếu đó là láy và ghép. Láy là việc sắp đặt các tiếng thành đôi, kề cận nhau, có sự phối hợp về ngữ âm tạo nên nghĩa. Còn ghép là việc sắp đặt các tiếng thành đôi, kề cận nhau, có sự kết hợp về ngữ nghĩa tạo nên nghĩa của từ ghép.
2.1. Từ đơn_từ ghép.
Từ trong tiếng Việt có thể là một tiếng hay gồm nhiều tiến. Hơn nữa, trong tiếng Việt những từ nhiều tiếng có thể được ghép bởi những tiếng hay từ khác có nghĩa. Ví dụ như hai từ chỉ một tiếng đó là từ “đất”, “nước” có thể được ghép với nhau thành một từ có nghĩa trừu tượng hơn là đó là từ “đất nước”. Những từ này gọi là từ ghép.
Do sự tồn tại của những từ đơn (là những từ một tiếng) và từ ghép, chúng ta phải tiến hành nghiên cứu để có thể đề xuất những phương án hữu hiệu trong bài toán nhận dạng từ trong câu.
Khi xem xét từ ghép, chúng ta có thể thấy có hai loại như sau:
Từ ghép song song: Mỗi tiếng thường là một tiếng có nghĩa, có thể dùng là từ một tiếng, gắn bó với nhau theo quan hệ song song và nói chung có thể đổi chỗ cho nhau. Trong sự phối hợp về ngữ nghĩa thì thường có sự biến đổi về nghĩa riêng thành một nghĩa hình tượng.
Ví dụ: Ăn uống, bàn ghế, nhà cửa…
Từ ghép chính phụ: Mỗi tiếng có thể có một tiếng có nghĩa, nhưng thông thường có một tiếng có thể dùng làm từ còn tiếng kia không có chức năng ngữ pháp đó.
Tiếng Việt tồn tại một số các các từ ghép có nhiều hơn hai tiếng, phát triển từ loại từ ghép chính phụ, qua đó có thể chia thành cá phần chính, phần phụ, thuận tiện hơn trong việc phân tích từ. Chính sự tồn tại của từ ghép (ghép bởi các tiếng có nghĩa) là nguyên nhân của sự nhập nhằng về nghĩa của câu. Do vậy, để tránh sự nhập nhằng về nghĩa trong câu, muốn phân tích và xử lý văn bản tiếng Việt một cách tốt nhất thì bài toán đặt ra là làm thế nào để tách các từ trong câu thật chính xác.
2.2. Từ loại
Trong tiếng Việt, từ được phân ra thành nhiều từ loại khác nhau. Trong tài liệu “Từ loại danh từ trong tiếng Việt hiện đại” của tác giả Nguyễn Tài Cẩm ta thấy xuất hiện các từ loại cơ bản sau:
Danh từ: bàn, ghế, vải vóc, khoa học, kỹ thuật,…
Động từ: đi, đứng, nghiên cứu, chăm sóc,…
Tính từ: nóng, đẹp, đẹp đẽ, vui vẻ, buồn,…
Đại từ: tôi, họ, nó,…
Số từ: một, hai, ba,…
Loại từ: con, cái,…
Quán từ: các, những,…
Trạng từ: trên, dưới, trong, ngoài,…
Liên từ và, hay, nếu, tuy,…
Giới từ: cùng, với, bằng, để,…
Phó từ: đã, sẽ, khong, rất,…
Trợ từ: nhỉ, nhé, thì mà,…
Tất nhiên trong việc phân loại trên chỉ có ý nghĩa tương đối, vì trong nhiều tài liệu khác nhau vẫn có sự khác nhau về cách phân chia theo từ loại. Nếu xem xét một cách kỹ lưỡng hơn nữa về mặt cú pháp, trong mỗi loại từ còn có thể chia nhỏ hơn được nữa.
2.3. Dùng từ cấu tạo ngữ
Ngữ là đơn vị ngữ pháp trung gian giữa từ và câu. Cho nên việc tìm hiểu cấu tạo cũng như các loại ngữ là cần thiết để tìm hiểu cấu tạo của câu. Qua cấu tạo ngữ, có thể nhận rõ thêm đặc điểm ngữ pháp của từ loại.
Theo “Ngữ pháp tiếng Việt-câu ”của tác giả Hoàng Trọng Hiếu, tiếng Việt có các ngữ loại cơ bản sau:
Danh ngữ: Ngữ có danh từ làm trung tâm.
Động ngữ: Ngữ có động từ làm trung tâm.
Tính ngữ: Ngữ có tính từ làm trung tâm.
Giới ngữ: Ngữ bắt đầu bằng giới từ.
Để xây dựng được một hệ thống luật cú pháp tốt, ta cần phải chia các loại ngữ một cách chặt chẽ hơn. Và do vậy, ta cũng hạn chế số lượng câu sai. Chẳng hạn, danh ngữ kết thúc trái (là danh ngữ mà vế trái của nó đã ở điểm tận cùng), ta không thể thêm hay bổ sung từ nào vào đầu để tạo nên danh ngữ mới.
Ví dụ “một bài toán”; ta không thể bổ sung “các”, “những”,… vào trước ngữ đó.
3. Câu tiếng Việt
Câu là đơn vị dùng từ, hay đúng hơn là dùng ngữ mà cấu tạo nên trong quá trình tư duy. Xét về mặt cấu trúc câu, tiếng Việt có hai loại câu là câu đơn và câu ghép.
3.1 Câu đơn
Câu đơn là loại câu cơ sở của tiếng Việt, nó bao gồm một nòng cốt đơn hay một kết cấu chủ vị. Về mặt ngữ nghĩa, Câu đơn mang ngữ nghĩa tự thân, còn câu ghép mang nghĩa kết hợp. Câu đơn có thể là câu khẳng định, câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm.
Ví dụ:
Nó học rất giỏi.
Nó không học giỏi.
Nó học có giỏi không?
Nó đang đi đến trường.
Em đi học đi!
Em mới học giỏi làm sao!
Nòng cốt của câu đơn là một kết cấu chủ vị. Ngoài ra câu đơn còn có các thành phần nòng cốt khác như:
Thành phần than gọi. Ví dụ ” Bạn ơi, chúng ta đi nào”.
Thành phần chuyển tiếp. Ví dụ “ Anh Trường, trái lại, không làm gì cả”.
Thành phần chú thích. Ví dụ “Nó, em tôi, rất thông minh”.
Thành phần tình huống. Ví dụ “ Trong máy tính, dữ liệu ở dạng nhị phân”.
Thành phần khởi ý. Ví dụ “Thuốc, anh ấy không hút”.
Để diễn đạt một câu đơn, người ta thường dùng mô hình suy diễn:
Câu đơn ® Px – Cx – Vx – Bx.
Trong đó P: Thành phần phụ
C: Chủ ngữ
V: Vị ngữ
B: Bổ ngữ, định ngữ.
x: thành phần có thể triển khai tiếp.
3.2 Câu ghép
Về mặt ngữ pháp, câu ghép bao gồm bộ phận chủ yếu là một nòng cốt ghép, được tạo nên bởi ít nhất hai vế và mỗi vế thường bao gồm một nòng cốt đơn. Tuy rằng, câu đơn chỉ có một nòng cốt đơn nhưng không phải bao giờ câu đơn cũng ngắn hơn câu ghép. Người ta có thể chia câu ghép thành hai loại: Câu ghép song song và câu ghép qua lại.
Câu ghép song song: Là loại câu có thể có hai hay nhiều hơn hai vế. Tuy nhiên, sự liên kết giữa các vế lỏng lẻo, có thể tách thành các câu đơn mà vẫn bảo toàn nghĩa. Có trường hợp các vế có quan hệ sử dụng kết từ, tuy nhiên ý nghĩa độc lập của các vế vẫn tương đối rõ ràng.
Ví dụ:
Khán giả hò reo, cuộc đấu diễn ra thật sôi động và chúng tôi muốn đội chủ nhà sẽ thắng.
Câu ghép qua lại: Là loại câu có hai vế và vế này là điều kiện tồn tại của vế kia. Có cả hai vế thì câu mới có ý nghĩa trọn vẹn. Nối giữa các vế là các kết từ, thông thường người ta dùng cả cặp kết từ. Ta có thể biểu diễn câu ghép như sau:
Câu ghép ® xN1 + yN2
Một trong cá kết từ có thể được loại bỏ. Ta có một số ví dụ sau:
(Bởi) vì N1 nên (hoặc mà N2)
Để N1 (cho) nên (hoặc mà) N2
Nếu N1 thì N2
Không những N1 mà còn N2
Tôi đi thì nó sẽ buồn.
Vì phở ngon nên cửa hàng của nó mới đông khách đến thế
3.3 Các thành phần của câu
Chủ ngữ: Thành phần chủ yếu của câu.
Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần chủ yếu.
Trạng ngữ: Thành phần chủ yếu, bổ sung ý nghĩa cho câu, chỉ nơi chốn, thời gian, không gian, …
Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ làm vị ngữ.
Định ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho vị ngữ.
4. Các đặc điểm của tiếng Việt
4.1 Đặc điểm chính tả
Chính tả tiếng Việt đã có một hệ thống các quy tắc chuẩn mực. Tuy vậy, vẫn còn có một số từ tồn tại nhiều cách viết khác nhau. Ngay cả bản thân một người cũng có lúc viết thế này, có lúc lại viết khác. Sự sai khác này là do những nguyên nhân sau:
Những từ đồng âm: y/i (kỹ thuật/ kĩ thuật, bác sĩ/ bác sỹ), d/gi (dông bão/ giông bão)
Phương ngữ: chính đáng/ chánh đáng
Vị trí dấu trong một nguyên âm: cứu hoả/ cứu hỏa
Cách viết hoa tuỳ tiện đối với danh từ riêng: Tồn tại nhiều cách viết khác nhau ví dụ như Việt nam / Việt Nam
Phiên âm nước ngoài: là hình thức biến chữ ngoại quốc thành chữ địa phương. Nhưng hiện nay tồn tại cả hai cách viết đó là phiên âm hoặc không phiên âm. Ví dụ singapo / sing-ga-po
Dấu gạch nối thường xuất hiện các từ đa âm nước ngoài du nhập vào Việt Nam. Ví dụ như: Portugal được dịch là Bồ Đào Nha / Bồ-Đào-Nha.
Các cách viết không thống nhất sẽ gây rất nhiều khó khăn trong việc kiểm tra chính tả cũng như áp dụng kiểm tra chính tả tự động bằng máy tính.
4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ
Phân tích cú pháp cho ta điểm khởi đầu để tìm ra ý nghĩa của toàn bộ câu. Khi chỉ có một cách phân tích thì việc tìm ra ý nghĩa của câu là việc khá đơn giản. Nhưng khi có nhiều cách phân tích thì việc tìm ra ý nghĩa thật của câu là một công việc khó khăn.
Ví dụ câu: “Tôi nghe nó ra thành phố”. Câu này có hai cách phân tích sau:
Tôi (là chủ ngữ) // nghe ( là động từ) // nó ra thành phố( là bổ ngữ)
Tôi (chủ ngữ) // nghe nó (thành phần giải thích) // ra thành phố
Cách phân tích thứ nhất thì đối tượng “ra thành phố ” là “Tôi”
Cách phân tích thứ hai thì đối tượng “ra thành phố” là “nó”
Những câu như thế gọi là nhập nhằng cú pháp. Sự nhập nhằng cú pháp sẽ gây khó khăn trong quá trình phân tích.
II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN
1. Biểu diễn văn bản
Như chúng ta đã biết, bài toán khai phá dữ liệu văn bản là đi phát hiện các tri thức còn tiềm ẩn trong dữ liệu văn bản. Các tri thức đó có thể là một mẫu hình hoặc được biểu diễn dưới dạng luật. Đó thực chất là các biểu diễn có cấu trúc. Tuy nhiên dữ liệu mà chúng ta áp dụng các kỹ thuật khai phá lai là dữ liệu phi cấu trúc. Chính vì điều này làm cho chúng ta không thể áp dụng trực tiếp trên dữ liệu đầu vào mà cần phải có các thao tác tiền xử lý khác.
Với yêu cầu phân tích sâu hơn các văn bản, mỗi tài liệu cần được chuyển sang một dạng ngôn ngữ biểu diễn lại nào đó. Một trong các ngôn ngữ biểu diễn lại được sử dụng rộng rộng rãi nhất đối với các văn bản là kiểu lập chỉ mục theo từ đại diện. Khi xem một văn bản ta quan tâm đến từ đại diện. Đó chính là một từ hay một cụm từ được lựa chọn để biểu diễn ý nghĩa hay đặc trưng của văn bản.
Do vậy, một vấn đề đặt ra là làm thế nào để trích lọc các từ đại diện cho văn bản một cách chính xác và đặc trưng cho văn bản. Việc trích lọc các từ đại diện cho văn bản là một khâu quan trọng trong việc giải quyết bài toán khai phá dữ liệu văn bản.
Mô hình dưới đây nhằm xác định các từ đại diện cho văn bản một cách tự động.
Bộ đọc
(reader)
Phân tích cú pháp
Sinh từ
Lọc từ
Văn bản
Hình 1: Mô hình xác định từ đại diện cho văn bản
Sinh từ ( Term Generation)
Văn bản sau khi qua bộ phân tích cú pháp có thể đã thu được khá chính xác các từ trong văn bản. Tuy nhiên, không phải từ nào cũng được chọn làm từ đại diện cho văn bản. Chúng ta phải loại bỏ các từ mang ít thông tin. Trong bước sinh từ đại diện, chuỗi các từ đại diện chọn làm ứng cử viên tiềm năng dựa trên mẫu hình thái cú pháp như: “Danh từ - Danh từ”, “Tính từ - Danh từ”…
Sau khi đã có một chuỗi các ứng cử viên, ta tiến hành nối các từ đại diện này thành các từ đại diện đơn (single term) mới, quá trình này được thực hiên qua nhiều vòng lặp. Tại mỗi vòng lặp, ta tính hệ số kết hợp (association coeffcient) giữa mỗi cặp từ đại diện kề nhau. Nếu cặp từ nào có hệ số kết hợp đủ lớn sẽ được nối lại thành một từ đại diện mới.
Có hai vấn đề đặt ra, thứ nhất là những mẫu hình thái – cú pháp nào được sử dụng để tiến hành lập danh sách các từ đại diện tiềm năng, thứ hai là hệ số kết hợp được tính như thế nào.
Đã có rất nhiều nghiên cứu về các mẫu hình thái – cú pháp, việc sử dụng các mẫu nào để có thể trích các từ đại diện từ văn bản. Hiện nay, người ta thường sử dụng một số mẫu hình như “Danh từ- Danh từ”, “Động từ - Danh từ”, “Danh từ - Kết từ - Dang từ” để có thể trích được các từ đại diện dạng như: Khai phá dữ liệu, Quản trị doanh nghiệp, quản lý nhân sự…
Tuy nhiên, không phải bất cứ tổ hợp từ nào phù hợp với mẫu hình hình thái – cú pháp đều có thể được chọn. Chỉ những cụm từ có hệ số kết hợp đủ lớn mới được đưa vào danh sách những từ đại diện có nhiều tiềm năng. Có nhiều cách tính hệ số kết hợp, trong đó người ta thường sử dụng một hàm tính độ đo đồng xuất hiện, tính số lần hai từ cùng xuất hiện theo mẫu hình thái – cú pháp trong văn bản.
Lọc từ (Term Filter)
Bước sinh từ được mô tả ở trên tạo ra một danh sách rất dài các từ đại diện, danh sách này được gắn với mỗi tài liệu mà không quan tâm đến mối liên hệ trên toàn bộ các tập văn bản. Trong khi đó, bước chiết xuất từ đại diện (term extraction) chỉ có ý nghĩa là chuẩn bị cho các kỹ thuật khai phá dữ liệu văn bản khác, giải quyết các bài toán làm việc trên một tập lớn các tài liệu như phân lớp văn bản, phân loại văn bản, tìm kiếm văn bản…do đó mối tương quan giữa các từ chiết xuất được và tập văn bản phải được lưu ý đến. Ngưỡng kết hợp mà ta chọn ở trên có thể tạo ra một danh sách rất dài các từ đại diện nhiều hơn mong đợi, dư thừa, không có hiệu quả khi xét trên toàn bộ tập văn bản. Mục đích của pha lọc từ này là thu gọn tập từ đại diện dựa vào tần xuất của mỗi từ trên toàn bộ tập văn bản. Pha lọc từ sẽ tìm và loại bỏ các từ đại diện không đáng quan tâm trên toàn bộ ngữ cảnh của toàn bộ tập văn bản, hoặc tần xuất của từ đó chưa đủ lớn (chưa vượt qua ngưỡng) hoặc sự phân bố không đồng đều trên toàn bộ tập văn bản.
Cách tiếp cận của chúng ta là sử dụng một hàm thống kê cho điểm trên các từ. Hàm này gán điểm cho mỗi từ dựa trên tần xuất của từ đó trên toàn bộ văn bản nói chung và phân bố xác xuất trên mỗi văn bản nói riêng. Chúng ta sẽ tiến hành chọn những từ có số điểm vượt ngưỡng M (do người sử dụng chọn qua thực nghiệm), tập này sẽ được sử dụng cho các kỹ thuật khai phá dữ liệu văn bản sẽ được trình bầy ở phần sau.
2. Các kỹ thuật khai phá
Các bài toán thường được quan tâm trong khai phá dữ liệu văn bản là Phân loại văn bản (text categorization), Phân lớp văn bản (text classification), lập chỉ mục tìm kiếm (text indexing). Các bài toán này đều phải dựa vào một yếu tố vô cùng quan trọng là những mẫu hình tri thức (patterns) hoặc các luật mà chúng ta khai phá được từ tập văn bản để luyện (training document). Trong phần này, ta sẽ xem xét một số những kỹ thuật dùng để khai phá tri thức từ tập các văn bản như phát hiện các luật kết hợp (association rules discovery), lập chỉ mục tự động (automated indexing)…
2.1. Khai phá các luật kết hợp (Association Rules)
Nếu dữ liệu dạng văn bản đã được lập chỉ mục, với mục đích trợ giúp cho quá trình xử lý ngôn ngữ tự nhiên, cấu trúc chỉ