Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài liệu văn bản. Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu vào trong hoạt động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới dạng văn bản. Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản. Hiện nay, các tổ chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ các hệ thống sử dụng Lotus Node. Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng văn bản. Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này.
Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những thông tin hữu ích từ các nguồn tài liệu văn bản nói chung. Các nguồn dữ liệu này phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ giúp trong việc phát hiện tri thức và khai thác thông tin. Rõ ràng, chúng ta phải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có được những phương pháp luận cần thiết.
Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phức tạp trong tiếng Việt.
Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”
41 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2260 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đề tài Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
MỤC LỤC
BẢNG DANH MỤC HèNH HOẠ
Hỡnh 1: Một vớ dụ về cõy quyết định
Hỡnh 2. Mụ hỡnh thu thập thụng tin chuẩn
Hỡnh 3. Đồ thị biểu diễn cỏc vec-tơ của bài bỏo D1 và D2
Hỡnh 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và cỏc tài liệu D1, D2
Hỡnh 5. Mạng nơ-ron: toỏn tử AND (a) và toỏn tử OR (b)
Hỡnh 6. Mạng nơ-ron với lớp ẩn: toỏn tử NOR
Hỡnh 7: Mụ hỡnh biểu diễn mạng nơ-ron
Hỡnh 8: Minh hoạ cụng cụ TextAnalyst
Hỡnh 9: Minh hoạ cụng cụ TextAnalyst nhỳng trờn Internet Explorer
LỜI GIỚI THIỆU
Ngày nay, cơ sở dữ liệu đó trở thành một phần khụng thể thiếu của xó hội loài người. Trong kỉ nguyờn thụng tin này, cỏc thụng tin được lưu trữ và xử lý hiệu quả hầu hết là thụng qua cơ sở dữ liệu. Sau gần 50 năm phát triờ̉n, cơ sở dữ liợ̀u đã có những bước tiờ́n vụ cùng quan trọng trong lịch sử Cụng nghợ̀ thụng tin. Từ mụ hình Cơ sở dữ liợ̀u quan hợ̀ do E.Codd đờ̀ xuṍt từ những năm 60, các ứng dụng cụng nghợ̀ thụng tin đã thực sự biờ́n viợ̀c lưu trữ dữ liợ̀u trở thành lưu trữ thụng tin thụng qua cỏc cụng cụ quản lý và xử lý cơ sở dữ liệu. Ngày nay, nhu cầu lưu trữ và xử lý thụng tin cú mặt ở khắp mọi nơi. Ở bṍt cứ mụ̣t tụ̉ chức nào, với bṍt kỳ mụ̣t mụ hình hay quy mụ nào cũng đờ̀u có những nhu cõ̀u vờ̀ lưu trữ và khai thác thụng tin. Khái niợ̀m thụng tin ở đõy bao gụ̀m cả thụng tin vờ̀ nụ̣i tại của tụ̉ chức và thụng tin vờ̀ mụi trường và tụ̉ chức hoạt đụ̣ng.
Việc nghiờn cứu lý thuyết về cơ sở dữ liờu đó trở thành một ngành khoa học ứng dụng. Do những tiờ́n bụ̣ vượt bọ̃c trong nghiờn cứu lý thuyờ́t cũng như cài đặt thực tờ́, các hợ̀ quản trị cơ sở dữ liợ̀u đã trở thành nờ̀n tảng, là phần cốt yếu trong hoạt đụ̣ng của các tụ̉ chức. Nhờ chỳng mà cỏc tổ chức hoạt động hiệu quả hơn. Việc ứng dụng cơ sở dữ liệu đó giỳp làm giảm rất nhiều cụng sức lao động của con người và nhờ đú hiệu suất lao động của họ cao hơn. Hợ̀ quản trị cơ sở dữ liợ̀u ngày nay khụng còn đơn thuõ̀n chỉ là mụ̣t cơ cṍu cho phép lưu trữ sụ́ liợ̀u mà còn kèm theo đó là các cụng cụ, tiợ̀n ích hay các phương pháp luọ̃n đờ̉ chuyờ̉n đụ̉i sụ́ liợ̀u thành thụng tin. Tọ̃p tṍt cả các cụng cụ do người dùng phát triờ̉n hoặc do các nhà cung cṍp phõ̀n mờ̀m tung ra đờ̉ phục vụ cho mục đích hoạt đụ̣ng của tụ̉ chức, được tụ́i ưu theo những yờu cõ̀u nghiợ̀p vụ của tụ̉ chức được gọi là các ứng dụng hụ̃ trợ xử lý tỏc nghiệp. Cao hơn nữa, khi các nhu cõ̀u sử dụng thụng tin ở mức cao cấp hơn để hụ̃ trợ các nhu cõ̀u phõn tích của các nhà lãnh đạo, các nhà lọ̃p chiờ́n lược trong mụ̣t tụ̉ chức, một loại ứng dụng mới ra đời phục vụ cho cỏc mục đớch này với tờn gọi “hệ phõn tớch và xử lý trực tuyến”. Ở cỏc ứng dụng này, thụng tin được lưu trữ, xử lý và kết xuất theo cỏc mục đớch cụ thể dưới dạng hướng chủ đờ̀. Nhờ cỏc thụng tin ở dạng này mà cỏc phõn tớch, cỏc nhà lónh cú thể đưa ra cỏc quyết định hoạt động một cỏch hiệu quả nhất.
Khi cỏc mụ hỡnh dữ liệu phỏt triển ở mức độ cao hơn, cỏc thụng tin lưu trữ dưới dạng dữ liệu phong phỳ đa dạng hơn, người ta nhận ra cũn rṍt nhiờ̀u tri thức còn tiờ̀m õ̉n trong dữ liợ̀u mà cỏc mức phõn tớch trước đú khụng phỏt hiện ra. Lý do của vấn đề này là cỏc phõn tớch trước đú chỉ mới hướng mục đớch cụ thể của con người. Cỏc mục đớch này là cố định và cỏc phõn tớch này hoàn toàn do con người đưa ra trong hoàn cảnh cụ thể. Khi cỏc thụng tin phản ỏnh mụi trường thay đổi thỡ con người khụng nhận ra để điều chỉnh cỏc phõn tớch và đưa ra cỏc phõn tớch mới. Cỏc tri thức đú cú thể là hướng kinh doanh, các dự báo thị trường, cũng có thờ̉ là mụ́i quan hợ̀ giữa các trường hay nụ̣i dung dữ liợ̀u... mà con người khụng hình dung ra được khi tiờ́n hành mụ hình hoá các hợ̀ thụ́ng. Vì thờ́, ngành nghiờn cứu vờ̀ Phát hiợ̀n tri thức trong cơ sở dữ liợ̀u (Knowledge Discovery in Database) ra đời với bài toán Khai phá dữ liợ̀u (DataMining) làm trung tõm nghiờn cứu. Các tư tưởng nghiờn cứu và các thuọ̃t toán vờ̀ Trí tuợ̀ nhõn tạo và Hợ̀ chuyờn gia đã được áp dụng và thu được những kờ́t quả rṍt quan trọng như: cõy quyờ́t định, mạng nơ-ron...
Hầu hết cỏc thuật toỏn nghiờn cứu cho DataMining là tập trung trờn cỏc nguụ̀n sụ́ liợ̀u có cṍu trúc (structured data). Nhưng phần lớn thụng tin mà chỳng ta lưu trữ và trao đổi hằng ngày lại được lưu trữ dưới cỏc dạng dữ liợ̀u bán cṍu trúc (semi-structured data) hoặc phi cṍu trúc (non-structured data). Ví dụ như trong các nhà xuṍt bản, hợ̀ thụ́ng các trang web trờn mụ̣t website, tọ̃p các cụng văn, giṍy tờ, báo cáo, thư tín điợ̀n tử trong mụ̣t cụng ty. Thọ̃m chí ta có thờ̉ nhọ̃n thṍy rằng trong mụ̣t hợ̀ quản trị cơ sở dữ liợ̀u (nơi mà dữ liợ̀u được lưu trữ có cṍu trúc) thì dữ liợ̀u kiờ̉u text võ̃n chiờ́m mụ̣t tỷ lợ̀ cao. Do đó mụ̣t vṍn đờ̀ đặt ra là làm thờ́ nào đờ̉ có thờ̉ tìm kiờ́m và khai thác tri thức từ nguụ̀n dữ liợ̀u như vọ̃y. Các kỹ thuọ̃t đờ̉ giải quyờ́t vṍn đờ̀ này được gọi là kỹ thuọ̃t "TextMining" hay Khai phá dữ liợ̀u văn bản. Bài toỏn Khai phỏ dữ liệu văn bản khụng chỉ tập trung vào một hay một nhúm cỏc thụng tin được lưu trữ dưới dạng văn bản, vấn đề đặt ra là làm thế nào cú thể Khai phỏ được cỏc thụng tin theo lịch sử, từ quỏ khứ hướng dự đoỏn tương lai. Những tri thức tưởng trừng như vụ ớch trong quỏ khứ nhưng cú thể được phỏt hiện để sử dụng cho cỏc mục đớch sau này.
Mụ̣t sụ́ bài toán quan trọng trong Khai phá dữ liợ̀u văn bản hay được xét đờ́n như là các bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”.
Trờn thờ́ giới đã có rṍt nhiờ̀u thành cụng trong đờ̀ tài phõn lớp văn bản như các nghiờn cứu của hãng IBM, trong các phòng thí nghiợ̀m ở MIT hay ở các viện nghiờn cứu của cỏc trường đại học ở Mỹ, Pháp, Nhật Bản, Canada. Tuy nhiờn, các thành cụng đó chủ yờ́u tọ̃p trung vào vṍn đờ̀ nghiờn cứu vờ̀ các văn bản tiờ́ng Anh, tiờ́ng Pháp. Những ngụn ngữ này là cỏc ngụn ngữ tương đối thuận lợi khi xử lý.
Hiện nay, chưa cú một cụng cụ nào được coi là hiệu quả trong lĩnh vực khai phỏ văn bản tiếng Việt. Nền Cụng nghệ thụng tin của nước ta được phỏt triển hết sức mạnh mẽ. Do nhu cầu hội nhập, nhu cầu phỏt triển kinh tế, văn hoỏ, Xó hội ngày càng tăng, cỏc thụng tin được xử lý thụng qua văn bản điện tử, qua web, qua email phỏt triển với tốc độ chúng mặt. Từ đú, nhu cầu nghiờn cứu và xõy dựng cỏc cụng cụ Khai phỏ dữ liệu văn bản tiếng Việt đang được hết sức coi trọng.
Trong đề tài thực tập này, em xin trỡnh bày cỏc nghiờn cứu tổng quan của em về: Text Mining và cỏc ứng dụng của nú về thu thập thụng tin từ dữ liệu văn bản và phõn loại dữ liệu văn bản. Mục đớch của đề tài là hướng tới phỏt triển cỏc cụng cụ phõn loại văn bản tiếng Việt ở cỏc nghiờn cứu sau trong đề tài luận văn tốt nghiệp.
I. Đặt vấn đề
Như chỳng ta đó biết, hầu hết cỏc thụng tin được trao đổi hiện nay nằm dưới dạng tài liợ̀u văn bản. Cỏc thụng tin đú cú thể là cỏc bài bỏo, cỏc tài liệu kinh doanh, cỏc thụng tin kinh tế, cỏc bài nghiờn cứu khoa học. Dự áp dụng Cơ sở dữ liợ̀u vào trong hoạt đụ̣ng của tụ̉ chức là rṍt phụ̉ biờ́n và đem lại nhiều lợi ớch khi lưu trữ và xử lý, nhưng ta khụng thể quờn được rằng cũn rất nhiều dạng thụng tin khỏc được lưu trữ dưới dạng văn bản. Thậm chớ ngay cả trong cỏc thụng tin được lưu trong cỏc cơ sở dữ liệu thỡ phần lớn trong số chỳng cũng được tổ chức dưới dạng văn bản. Hiợ̀n nay, các tụ̉ chức đã áp dụng cụng nghợ̀ thụng tin vào quản lý hợ̀ thụ́ng cụng văn giṍy tờ, ví dụ các hợ̀ thụ́ng sử dụng Lotus Node. Tuy nhiờn đó chỉ thực sự là cách quản lý luụ̀ng dữ liợ̀u văn bản, cung cṍp các cụng cụ kho chứa, còn dữ liợ̀u võ̃n thực sự nằm dưới dạng văn bản. Chúng ta chưa cú các giải thuọ̃t phõn loại, tìm kiờ́m tài liợ̀u, các cụng cụ trích lọc thụng tin nhằm mục đích thụ́ng kờ, phát hiợ̀n tri thức, ra quyờ́t định trực tiờ́p trờn các nguụ̀n dữ liợ̀u kiờ̉u này.
Với thực tờ́ đú, vṍn đờ̀ đặt ra là làm thờ́ nào chúng ta có thờ̉ khai thác được những thụng tin hữu ích từ các nguụ̀n tài liợ̀u văn bản nói chung. Các nguụ̀n dữ liợ̀u này phải được xử lý như thờ́ nào đờ̉ người dùng có thờ̉ có những cụng cụ tự đụ̣ng hoá trợ giúp trong viợ̀c phát hiợ̀n tri thức và khai thác thụng tin. Rõ ràng, chúng ta phải hiờ̉u rõ bản chṍt của dữ liợ̀u văn bản, hiờ̉u rõ các đặc trưng của các dữ liợ̀u loại này đờ̉ có thờ̉ có được những phương pháp luọ̃n cõ̀n thiờ́t.
Viợ̀c khai thác thụng tin từ các nguụ̀n dữ liợ̀u văn bản trong các tụ̉ chức Viợ̀t Nam chắc chắn phải dựa vào những kờ́t quả nghiờn cứu vờ̀ văn bản nói chung, vờ̀ dữ liợ̀u văn bản và các kỹ thuọ̃t xử lý đã được phát triờ̉n trờn thờ́ giới. Tuy nhiờn, những văn bản tiờ́ng Viợ̀t lại có những đặc trưng riờng của nó. Ta có thờ̉ nhọ̃n thṍy được ngay sự khác biợ̀t vờ̀ mặt kí pháp, cú pháp và ngữ pháp tiờ́ng Viợ̀t trong các văn bản so với các ngụn ngữ phụ̉ biờ́n trờn thờ́ giới như tiờ́ng Anh, tiờ́ng Pháp. Vọ̃y thì những đặc trưng này ảnh hưởng thờ́ nào đờ́n các kỹ thuọ̃t khai phá dữ liợ̀u văn bản, ta cõ̀n phải có những ký thuọ̃t mới nào đờ̉ có thờ̉ tọ̃n dụng được những ưu thờ́ của tiờ́ng Viợ̀t cũng như giải quyờ́t được những phức tạp trong tiờ́ng Viợ̀t.
Đờ̉ trả lời được những cõu hỏi này, đụ̀ án sẽ đi từ những bước nghiờn cứu vờ̀ Khai phá dữ liợ̀u văn bản, tìm hiờ̉u những đặc trưng của tiờ́ng Viợ̀t, từ đú đề ra phương hướng giỳp giải quyết bài toỏn phõn loại văn bản tiếng Việt phức tạp ở cỏc nghiờn cứu cao hơn. Cỏc kết quả của nghiờn cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiờn cho luận văn tốt nghiệp của em với đề tài “Phõn loại văn bản tiếng Việt bằng phương phỏp phõn tớch cỳ phỏp.”
II. Cơ sở lý thuyết
1. Khỏi niệm Text Mining
a. Khai phá dữ liợ̀u (Data Mining)
Viợ̀c sử dụng cơ sở dữ liợ̀u vào hoạt đụ̣ng của mụ̣t tụ̉ chức đã được phát triờ̉n trong vòng 60 năm trở lại đõy. Với dữ liợ̀u được thu thọ̃p trong suụ́t quá trình hoạt đụ̣ng của mụ̣t tụ̉ chức, mụ̣t nhu cõ̀u được đặt ra là tìm kiờ́m và khai thác tri thức từ những dữ liợ̀u đó. Đó chính là xuṍt phát điờ̉m của bài toán Phát hiợ̀n tri thức từ cơ sở dữ liợ̀u. Người ta nhọ̃n thṍy rằng có rṍt nhiờ̀u tri thức mà chúng ta khụng lường trước đang còn tiờ̀m õ̉n trong dữ liợ̀u, nhiợ̀m vụ của chúng ta là phát hiợ̀n, khám phá các tri thức đó, phục vụ cho những nhu cõ̀u sử dụng thụng tin cao hơn, ví dụ như trong các hợ̀ chuyờn gia hay hợ̀ hụ̃ trợ quyờ́t định.
Khai phá dữ liợ̀u là giai đoạn chủ yờ́u của quá trình Phát hiợ̀n tri thức từ cơ sở dữ liệu. Quỏ trỡnh khai phá tri thức được thực hiợ̀n sau các quá trình thu thọ̃p và tinh lọc dữ liợ̀u, có nghĩa là chỉ tìm các mõ̃u tri thức (pattern) có ý nghĩa trờn tọ̃p dữ liợ̀u có hy vọng chứ khụng phải là trờn toàn bụ̣ CSDL như các phương pháp thụ́ng kờ trước đõy.
Vì vọ̃y khai phá dữ liợ̀u bao gụ̀m viợ̀c thử tìm mụ hình phù hợp với dữ liợ̀u và tìm kiờ́m các mõ̃u hình tri thức từ dữ liợ̀u theo mụ hình đó. Mặc dù mõ̃u hình có thờ̉ tìm được từ bṍt kì mụ̣t CSDL nào nhưng chỉ những mõ̃u phù hợp với mục đích tìm kiờ́m mới được gọi là tri thức. Ta sẽ có những hàm sụ́ đờ̉ đánh giá các tiờu chí mõ̃u như mới, có lợi, đáng được xem xét.
Đụ̣ mới của mõ̃u hình phụ thuụ̣c vào khung phạm vi quy chiờ́u, có thờ̉ đụ́i với hợ̀ thụ́ng hoặc đụ́i với người dùng. Ví dụ với dữ liợ̀u của mụ̣t cụng ty, quá trình Khai phá dữ liợ̀u tìm ra được mụ̣t luọ̃t như Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc, đụ́i với hợ̀ thụ́ng thì rṍt mới, trước kia chưa hờ̀ có nhưng bṍt cứ mụ̣t cán bụ̣ lọ̃p kờ́ hoạch nào cũng nhọ̃n ra được điờ̀u này qua các báo cáo tài chính.
Tính hữu dụng của mõ̃u có thờ̉ đo được qua sự liờn quan đờ́n mục đích tìm kiờ́m. Với mụ̣t cán bụ̣ phụ trách bảo trì máy tính ở cụng ty thì luọ̃t trờn khụng có giá trị, mặc dù là mới đụ́i với anh ta.
Có thờ̉ qua cụng đoạn khai phá tri thức có rṍt nhiờ̀u mõ̃u được lṍy ra nhưng khụng phải mõ̃u nào cũng có giá trị, có thờ̉ là mới, hữu ích nhưng lại tõ̀m thường, đặc biợ̀t là khi áp dụng các kỹ thuọ̃t dựa trờn thụ́ng kờ. Do đó luụn phải có các tiờu chí và các hàm đánh các mõ̃u đáng xem xét, khụng tõ̀m thường.
Tóm lại, Khai phá dữ liợ̀u thực ra có thờ̉ coi là mụ̣t quá trình xác định mõ̃u từ các Datawarehouse, sử dụng các kỹ thuọ̃t sẵn có như học máy, nhọ̃n dạng, thụ́ng kờ, phõn oại... và các kỹ thuọ̃t được phát triờ̉n bởi ngành nghiờn cứu trí tuợ̀ nhõn tạo như Mạng nơ-ron nhõn tạo (neutral network), các thuọ̃t toán di truyờ̀n (generic algorithm), quy nạp luọ̃t rule reduction)...
Ta có thờ̉ xét đờ́n mụ̣t sụ́ bài toán chính đụ́i với nghiờn cứu vờ̀ Khai phá dữ liợ̀u
Bài toán phõn lớp (classification): Tìm mụ̣t ánh xạ (phõn loại) từ mụ̣t mõ̃u dữ liợ̀u vào mụ̣t trong các lớp cho trước.
Bài toán hụ̀i quy (regression): Tìm mụ̣t ánh xạ hụ̀i quy từ mụ̣t mõ̃u dữ liợ̀u vào mụ̣t biờ́n dự đoán có giá trị thực
Bài toán lọ̃p nhóm ( clustering): Là viợ̀c mụ tả chung đờ̉ tìm ra các tọ̃p xác định hữu hạn các nhóm hay các loại đờ̉ mụ tả dữ liợ̀u.
Bài toán tụ̉ng kờ́t (summarization): Là viợ̀c đi tìm kiờ́m mụ̣t mụ tả chung tóm tắt cho mụ̣t tọ̃p con dữ liợ̀u.
b. Khai phá dữ liợ̀u văn bản (Text Mining)
Khai phá dữ liợ̀u văn bản hay phát hiợ̀n tri thức từ các cơ sở dữ liợ̀u văn bản (textual databases) đờ̀ cọ̃p đờ́n tiờ́n trình trích lọc các mõ̃u hình thụng tin (pattern) hay tri thức (knowledge) đáng quan tõm hoặc có giá trị (non-trivial) từ các tài liợ̀u văn bản phi cṍu trúc. Quá trình này có thờ̉ được coi là viợ̀c mở rụ̣ng kỹ thuọ̃t Khai phá dữ liợ̀u truyờ̀n thụ́ng, vì như ch ỳng ta đã thṍy (đã được đờ̀ cọ̃p ở trờn) kỹ thuọ̃t Khai phá dữ liợ̀u truyờ̀n thụ́ng (DataMining) hướng tới viợ̀c phát hiợ̀n tri thức từ các cơ sở dữ liợ̀u có cṍu trúc.
Thụng tin được lưu trữ dưới dạng nguyờn sơ nhṍt chính là văn bản. Thọ̃m chí ta có thờ̉ thṍy rằng dữ liợ̀u tụ̀n tại dưới dạng văn bản còn có khụ́i lượng lớn hơn rṍt nhiờ̀u so với các dữ liợ̀u có cṍu trúc khác. Thực tờ́, những nghiờn cứu gõ̀n đõy đã cho thṍy rằng có đờ́n 80% thụng tin của mụ̣t tụ̉ chức nằm dưới dạng văn bản. Đó có thờ̉ là các cụng văn giṍy tờ, các biờ̉u mõ̃u điờ̀u tra, các phiờ́u đặt hàng, các yờu cõ̀u khiờ́u nại, giải quyờ́t quyờ̀n lợi, các thư tín điợ̀n tử (email), các thụng tin trờn các website thương mại... Khi cỏc nghiờn cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng rằng cú thể lưu mọi loại thụng tin dưới dạng dữ liệu cú cấu trỳc. Nhưng trờn thực tế sau gần 50 năm phỏt triển, người ta vẫn dựng cỏc hệ thống lưu trữ ở dạng văn bản và thậm trớ cũn cú xu hướng dựng thường xuyờn hơn. Từ đó người ta có thờ̉ tin rằng các sản phõ̉m Khai phá dữ liợ̀u văn bản có thờ̉ có giá trị thương mại cao hơn rṍt nhiờ̀u lõ̀n so với các sản phõ̉m Khai phá dữ liợ̀u truyờ̀n thụ́ng khác. Tuy nhiờn ta cũng có thờ̉ thṍy ngay rằng các kỹ thuọ̃t Khai phá dữ liợ̀u văn bản phức tạp hơn nhiờ̀u so với các kỹ thuọ̃t Khai phá dữ liợ̀u truyờ̀n thụ́ng bởi vì phải thực hiợ̀n trờn dữ liợ̀u văn bản vụ́n đã ở dạng phi cṍu trúc và có tính mờ (fuzzy).
Một vớ dụ cho bài toỏn khai phỏ dữ liệu văn bản, khi phõn tớch cỏc bài bỏo nghiờn cứu khoa học, ta cú cỏc thụng tin sau:
“stress là một bệnh liờn quan đến đau đầu”
“stress xuất hiện cú thể do thiếu Magờ trong mỏu”
“Canxi cú thể ngăn cản một số chứng đau đầu”
“Magờ là một nguyờn tố điều hoà canxi tự nhiờn trong mỏu”
Sau khi phõn tớch cỏc thụng tin quan trọng này, hệ thống cần phải đưa ra cỏc suy luõn cụ thể mang tớnh cỏch mạng:
“Thiếu hụt Magờ cú thể gõy ra một số bệnh đau đầu”
Rừ ràng ở đõy cú sự phõn tớch suy luận ở mức độ cao. Để đạt được khà năng như vậy cần phải cú những cụng trỡnh nghiờn cứu về trớ tuệ nhõn tạo tiờn tiến hơn.
Bài toán Khai phá dữ liợ̀u văn bản là mụ̣t bài toán nghiờn cứu đa lĩnh vực, bao gụ̀m rṍt nhiờ̀u kỹ thuọ̃t cũng như các hướng nghiờn cứu khác nhau: thu thập thụng tin (information retrieval), phõn tích văn bản (text analysis), chiờ́t xuṍt thụng tin (information extraction), lọ̃p đoạn (clustering), phõn loại văn bản (categorization), hiờ̉n thị trực quan (visualization), cụng nghợ̀ cơ sở dữ liợ̀u, học máy (machine learning) và bản thõn các kỹ thuọ̃t Khai phá dữ liợ̀u.
Trong đề tài này em chủ yếu đề cập đến hai bài toỏn cụ thể, đú là bài toỏn phõn loại dữ liệu văn bản (Text categorization) và bài toỏn thu thập thụng tin (information retrieval). Cỏc nghiờn cứu mới chỉ dừng lại ở bước tỡm hiểu, khảo sỏt, so sỏnh là tiền đề cho cỏc nghiờn cứu cụ thể sau này mà mục đớch trước mắt là phục vụ cho luận văn tốt nghiệp.
Với một hệ thống Khai phỏ văn bản thường bao gồm ba bước chớnh:
Bước tiền xử lý: Ở bước này, hệ thống sẽ chuyển văn bản từ dạng phi cấu trỳc về dạng cú cấu trỳc. Vớ dụ, với văn bản Tổ chức này to lắm, hệ thống sẽ cố gắng phõn tớch thành Tổ chức|này|to|lắm. Cỏc từ được lưu riờng rẽ một cỏch cú cấu trỳc để tiện cho việc xử lý.
Loại bỏ cỏc thụng tin khụng cần thiết. Ở bước này, bộ phõn tớch tỡm cỏch loại bỏ cỏc thụng tin vụ ớch từ văn bản. Bước này phụ thuộc rất nhiều vào ngụn ngữ đang được phõn tớch và kỹ thuật sẽ được dựng để phõn tớch ỏ bước tiếp theo. Vớ dụ, nếu kỹ thuật phõn tớch văn bản chỉ dựa vào xỏc xuất xuất hiện từ khoỏ, khi đú ta cú thể loại bỏ cỏc từ phụ như: nếu, thỡ, thế nhưng, như vậy…
Khai phỏ dữ liệu đó được giản lược với cỏc kỹ thuật khai phỏ dữ liệu (data mining) truyền thống.
Cú rất nhiều kỹ thuật và phương phỏp tốt được sử dụng cho Text Mining để tỡm ra cỏc kiến trỳc mới, cỏc mẫu mới, và cỏc liờn kết mới. Cỏc bước tiền xử lý là cỏc kỹ thuật rất phức tạp nhằm phõn tớch một phõn lớp đặc biệt thành cỏc thuộc tớnh đặc biệt, sau đú tiến hành ỏp dụng cỏc phương phỏp khai phỏ dữ liệu kinh điển tức là phõn tớch thống kờ và phõn tớch cỏc liờn kết. Cỏc bước cũn lại sẽ khai phỏ cả văn bản đầy đủ từ tập cỏc văn bản, vớ dụ như phõn lớp văn bản.
Mục tiờu cuối cựng của Text Mining thường là đường lối hiệu quả, hoàn thiện, và đặc trưng để trỡnh diễn và tỡm kiếm cỏc tập hợp rộng lớn của cỏc văn bản. Do đú, cỏc kỹ thuật chớnh của Text Mining cú thể được phõn phõn ra thành cỏc nhiệm vụ mà chỳng thực hiện khi xử lý khai phỏ văn bản: loại thụng tin mà chỳng cú thể trớch ra và loại phõn tớch được thực hiện bởi chỳng.
Cỏc loại thụng tin được trớch ra cú thể là:
Cỏc nhón: Giả sử, được liờn kết với mỗi văn bản là tập cỏc nhón cỏc thao tỏc khai phỏ tri thức được thực hiện trờn cỏc nhón của mỗi văn bản. Núi chung, cú thể giả sử rằng cỏc nhón tương ứng với cỏc từ khoỏ, mỗi một từ khoỏ cú quan hệ với một chủ đề cụ thể nào đú.
Cỏc từ: Ở đõy giả sử rằng một văn bản được gỏn nhón với từng từ xuất hiện trong văn bản đú.
Cỏc thuật ngữ: Ở đõy với mỗi văn bản tỡm thấy cỏc chuỗi từ, chuỗi từ đú thuộc về một lĩnh vực nào đú và do đú việc tỡm khai phỏ văn bản được thực hiện trờn cỏc khai niệm được gỏn nhón cho mỗi văn bản. Ưu điểm của phương phỏp này là cỏc thuật ngữ được tỏch ra ớt và cú xu hướng tập trung vào cỏc thụng tin quan trọng của văn bản hơn hai phương phỏp trước đõy.
Cỏc loại kết hợp:
Kết hợp thụng thường: Một số thuật toỏn trước đõy giả sử rằng dữ liệu nguyờn mẫu được tạo lập chỳ dõn để trợ giỳp cho cỏc kỹ thuật xử lý ngụn ngữ tự nhiờn. Cỏc cấu trỳc cú chỳ dẫn trờn thực tế cú thể được sử dụng như một cơ sở cho việc xử lý khai phỏ tri thức.
Cỏc phõn cấp thuật ngữ: Ở đõy mỗi văn bản được đớnh với cỏc thuật ngữ lấy ra từ một phõn cấp cỏc thuật ngữ. Sau đú, một hệ thống sẽ phõn tớch sự