Đề tài Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài liệu văn bản. Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu vào trong hoạt động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới dạng văn bản. Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản. Hiện nay, các tổ chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ các hệ thống sử dụng Lotus Node. Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng văn bản. Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này. Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những thông tin hữu ích từ các nguồn tài liệu văn bản nói chung. Các nguồn dữ liệu này phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ giúp trong việc phát hiện tri thức và khai thác thông tin. Rõ ràng, chúng ta phải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có được những phương pháp luận cần thiết. Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phức tạp trong tiếng Việt. Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”

41 trang | Chia sẻ: lvbuiluyen | Lượt xem: 2698 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Đề tài Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

MỤC LỤC BẢNG DANH MỤC HèNH HOẠ Hỡnh 1: Một vớ dụ về cõy quyết định Hỡnh 2. Mụ hỡnh thu thập thụng tin chuẩn Hỡnh 3. Đồ thị biểu diễn cỏc vec-tơ của bài bỏo D1 và D2 Hỡnh 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và cỏc tài liệu D1, D2 Hỡnh 5. Mạng nơ-ron: toỏn tử AND (a) và toỏn tử OR (b) Hỡnh 6. Mạng nơ-ron với lớp ẩn: toỏn tử NOR Hỡnh 7: Mụ hỡnh biểu diễn mạng nơ-ron Hỡnh 8: Minh hoạ cụng cụ TextAnalyst Hỡnh 9: Minh hoạ cụng cụ TextAnalyst nhỳng trờn Internet Explorer LỜI GIỚI THIỆU Ngày nay, cơ sở dữ liệu đó trở thành một phần khụng thể thiếu của xó hội loài người. Trong kỉ nguyờn thụng tin này, cỏc thụng tin được lưu trữ và xử lý hiệu quả hầu hết là thụng qua cơ sở dữ liệu. Sau gần 50 năm phát triờ̉n, cơ sở dữ liợ̀u đã có những bước tiờ́n vụ cùng quan trọng trong lịch sử Cụng nghợ̀ thụng tin. Từ mụ hình Cơ sở dữ liợ̀u quan hợ̀ do E.Codd đờ̀ xuṍt từ những năm 60, các ứng dụng cụng nghợ̀ thụng tin đã thực sự biờ́n viợ̀c lưu trữ dữ liợ̀u trở thành lưu trữ thụng tin thụng qua cỏc cụng cụ quản lý và xử lý cơ sở dữ liệu. Ngày nay, nhu cầu lưu trữ và xử lý thụng tin cú mặt ở khắp mọi nơi. Ở bṍt cứ mụ̣t tụ̉ chức nào, với bṍt kỳ mụ̣t mụ hình hay quy mụ nào cũng đờ̀u có những nhu cõ̀u vờ̀ lưu trữ và khai thác thụng tin. Khái niợ̀m thụng tin ở đõy bao gụ̀m cả thụng tin vờ̀ nụ̣i tại của tụ̉ chức và thụng tin vờ̀ mụi trường và tụ̉ chức hoạt đụ̣ng. Việc nghiờn cứu lý thuyết về cơ sở dữ liờu đó trở thành một ngành khoa học ứng dụng. Do những tiờ́n bụ̣ vượt bọ̃c trong nghiờn cứu lý thuyờ́t cũng như cài đặt thực tờ́, các hợ̀ quản trị cơ sở dữ liợ̀u đã trở thành nờ̀n tảng, là phần cốt yếu trong hoạt đụ̣ng của các tụ̉ chức. Nhờ chỳng mà cỏc tổ chức hoạt động hiệu quả hơn. Việc ứng dụng cơ sở dữ liệu đó giỳp làm giảm rất nhiều cụng sức lao động của con người và nhờ đú hiệu suất lao động của họ cao hơn. Hợ̀ quản trị cơ sở dữ liợ̀u ngày nay khụng còn đơn thuõ̀n chỉ là mụ̣t cơ cṍu cho phép lưu trữ sụ́ liợ̀u mà còn kèm theo đó là các cụng cụ, tiợ̀n ích hay các phương pháp luọ̃n đờ̉ chuyờ̉n đụ̉i sụ́ liợ̀u thành thụng tin. Tọ̃p tṍt cả các cụng cụ do người dùng phát triờ̉n hoặc do các nhà cung cṍp phõ̀n mờ̀m tung ra đờ̉ phục vụ cho mục đích hoạt đụ̣ng của tụ̉ chức, được tụ́i ưu theo những yờu cõ̀u nghiợ̀p vụ của tụ̉ chức được gọi là các ứng dụng hụ̃ trợ xử lý tỏc nghiệp. Cao hơn nữa, khi các nhu cõ̀u sử dụng thụng tin ở mức cao cấp hơn để hụ̃ trợ các nhu cõ̀u phõn tích của các nhà lãnh đạo, các nhà lọ̃p chiờ́n lược trong mụ̣t tụ̉ chức, một loại ứng dụng mới ra đời phục vụ cho cỏc mục đớch này với tờn gọi “hệ phõn tớch và xử lý trực tuyến”. Ở cỏc ứng dụng này, thụng tin được lưu trữ, xử lý và kết xuất theo cỏc mục đớch cụ thể dưới dạng hướng chủ đờ̀. Nhờ cỏc thụng tin ở dạng này mà cỏc phõn tớch, cỏc nhà lónh cú thể đưa ra cỏc quyết định hoạt động một cỏch hiệu quả nhất. Khi cỏc mụ hỡnh dữ liệu phỏt triển ở mức độ cao hơn, cỏc thụng tin lưu trữ dưới dạng dữ liệu phong phỳ đa dạng hơn, người ta nhận ra cũn rṍt nhiờ̀u tri thức còn tiờ̀m õ̉n trong dữ liợ̀u mà cỏc mức phõn tớch trước đú khụng phỏt hiện ra. Lý do của vấn đề này là cỏc phõn tớch trước đú chỉ mới hướng mục đớch cụ thể của con người. Cỏc mục đớch này là cố định và cỏc phõn tớch này hoàn toàn do con người đưa ra trong hoàn cảnh cụ thể. Khi cỏc thụng tin phản ỏnh mụi trường thay đổi thỡ con người khụng nhận ra để điều chỉnh cỏc phõn tớch và đưa ra cỏc phõn tớch mới. Cỏc tri thức đú cú thể là hướng kinh doanh, các dự báo thị trường, cũng có thờ̉ là mụ́i quan hợ̀ giữa các trường hay nụ̣i dung dữ liợ̀u... mà con người khụng hình dung ra được khi tiờ́n hành mụ hình hoá các hợ̀ thụ́ng. Vì thờ́, ngành nghiờn cứu vờ̀ Phát hiợ̀n tri thức trong cơ sở dữ liợ̀u (Knowledge Discovery in Database) ra đời với bài toán Khai phá dữ liợ̀u (DataMining) làm trung tõm nghiờn cứu. Các tư tưởng nghiờn cứu và các thuọ̃t toán vờ̀ Trí tuợ̀ nhõn tạo và Hợ̀ chuyờn gia đã được áp dụng và thu được những kờ́t quả rṍt quan trọng như: cõy quyờ́t định, mạng nơ-ron... Hầu hết cỏc thuật toỏn nghiờn cứu cho DataMining là tập trung trờn cỏc nguụ̀n sụ́ liợ̀u có cṍu trúc (structured data). Nhưng phần lớn thụng tin mà chỳng ta lưu trữ và trao đổi hằng ngày lại được lưu trữ dưới cỏc dạng dữ liợ̀u bán cṍu trúc (semi-structured data) hoặc phi cṍu trúc (non-structured data). Ví dụ như trong các nhà xuṍt bản, hợ̀ thụ́ng các trang web trờn mụ̣t website, tọ̃p các cụng văn, giṍy tờ, báo cáo, thư tín điợ̀n tử trong mụ̣t cụng ty. Thọ̃m chí ta có thờ̉ nhọ̃n thṍy rằng trong mụ̣t hợ̀ quản trị cơ sở dữ liợ̀u (nơi mà dữ liợ̀u được lưu trữ có cṍu trúc) thì dữ liợ̀u kiờ̉u text võ̃n chiờ́m mụ̣t tỷ lợ̀ cao. Do đó mụ̣t vṍn đờ̀ đặt ra là làm thờ́ nào đờ̉ có thờ̉ tìm kiờ́m và khai thác tri thức từ nguụ̀n dữ liợ̀u như vọ̃y. Các kỹ thuọ̃t đờ̉ giải quyờ́t vṍn đờ̀ này được gọi là kỹ thuọ̃t "TextMining" hay Khai phá dữ liợ̀u văn bản. Bài toỏn Khai phỏ dữ liệu văn bản khụng chỉ tập trung vào một hay một nhúm cỏc thụng tin được lưu trữ dưới dạng văn bản, vấn đề đặt ra là làm thế nào cú thể Khai phỏ được cỏc thụng tin theo lịch sử, từ quỏ khứ hướng dự đoỏn tương lai. Những tri thức tưởng trừng như vụ ớch trong quỏ khứ nhưng cú thể được phỏt hiện để sử dụng cho cỏc mục đớch sau này. Mụ̣t sụ́ bài toán quan trọng trong Khai phá dữ liợ̀u văn bản hay được xét đờ́n như là các bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”. Trờn thờ́ giới đã có rṍt nhiờ̀u thành cụng trong đờ̀ tài phõn lớp văn bản như các nghiờn cứu của hãng IBM, trong các phòng thí nghiợ̀m ở MIT hay ở các viện nghiờn cứu của cỏc trường đại học ở Mỹ, Pháp, Nhật Bản, Canada. Tuy nhiờn, các thành cụng đó chủ yờ́u tọ̃p trung vào vṍn đờ̀ nghiờn cứu vờ̀ các văn bản tiờ́ng Anh, tiờ́ng Pháp. Những ngụn ngữ này là cỏc ngụn ngữ tương đối thuận lợi khi xử lý. Hiện nay, chưa cú một cụng cụ nào được coi là hiệu quả trong lĩnh vực khai phỏ văn bản tiếng Việt. Nền Cụng nghệ thụng tin của nước ta được phỏt triển hết sức mạnh mẽ. Do nhu cầu hội nhập, nhu cầu phỏt triển kinh tế, văn hoỏ, Xó hội ngày càng tăng, cỏc thụng tin được xử lý thụng qua văn bản điện tử, qua web, qua email phỏt triển với tốc độ chúng mặt. Từ đú, nhu cầu nghiờn cứu và xõy dựng cỏc cụng cụ Khai phỏ dữ liệu văn bản tiếng Việt đang được hết sức coi trọng. Trong đề tài thực tập này, em xin trỡnh bày cỏc nghiờn cứu tổng quan của em về: Text Mining và cỏc ứng dụng của nú về thu thập thụng tin từ dữ liệu văn bản và phõn loại dữ liệu văn bản. Mục đớch của đề tài là hướng tới phỏt triển cỏc cụng cụ phõn loại văn bản tiếng Việt ở cỏc nghiờn cứu sau trong đề tài luận văn tốt nghiệp. I. Đặt vấn đề Như chỳng ta đó biết, hầu hết cỏc thụng tin được trao đổi hiện nay nằm dưới dạng tài liợ̀u văn bản. Cỏc thụng tin đú cú thể là cỏc bài bỏo, cỏc tài liệu kinh doanh, cỏc thụng tin kinh tế, cỏc bài nghiờn cứu khoa học. Dự áp dụng Cơ sở dữ liợ̀u vào trong hoạt đụ̣ng của tụ̉ chức là rṍt phụ̉ biờ́n và đem lại nhiều lợi ớch khi lưu trữ và xử lý, nhưng ta khụng thể quờn được rằng cũn rất nhiều dạng thụng tin khỏc được lưu trữ dưới dạng văn bản. Thậm chớ ngay cả trong cỏc thụng tin được lưu trong cỏc cơ sở dữ liệu thỡ phần lớn trong số chỳng cũng được tổ chức dưới dạng văn bản. Hiợ̀n nay, các tụ̉ chức đã áp dụng cụng nghợ̀ thụng tin vào quản lý hợ̀ thụ́ng cụng văn giṍy tờ, ví dụ các hợ̀ thụ́ng sử dụng Lotus Node. Tuy nhiờn đó chỉ thực sự là cách quản lý luụ̀ng dữ liợ̀u văn bản, cung cṍp các cụng cụ kho chứa, còn dữ liợ̀u võ̃n thực sự nằm dưới dạng văn bản. Chúng ta chưa cú các giải thuọ̃t phõn loại, tìm kiờ́m tài liợ̀u, các cụng cụ trích lọc thụng tin nhằm mục đích thụ́ng kờ, phát hiợ̀n tri thức, ra quyờ́t định trực tiờ́p trờn các nguụ̀n dữ liợ̀u kiờ̉u này. Với thực tờ́ đú, vṍn đờ̀ đặt ra là làm thờ́ nào chúng ta có thờ̉ khai thác được những thụng tin hữu ích từ các nguụ̀n tài liợ̀u văn bản nói chung. Các nguụ̀n dữ liợ̀u này phải được xử lý như thờ́ nào đờ̉ người dùng có thờ̉ có những cụng cụ tự đụ̣ng hoá trợ giúp trong viợ̀c phát hiợ̀n tri thức và khai thác thụng tin. Rõ ràng, chúng ta phải hiờ̉u rõ bản chṍt của dữ liợ̀u văn bản, hiờ̉u rõ các đặc trưng của các dữ liợ̀u loại này đờ̉ có thờ̉ có được những phương pháp luọ̃n cõ̀n thiờ́t. Viợ̀c khai thác thụng tin từ các nguụ̀n dữ liợ̀u văn bản trong các tụ̉ chức Viợ̀t Nam chắc chắn phải dựa vào những kờ́t quả nghiờn cứu vờ̀ văn bản nói chung, vờ̀ dữ liợ̀u văn bản và các kỹ thuọ̃t xử lý đã được phát triờ̉n trờn thờ́ giới. Tuy nhiờn, những văn bản tiờ́ng Viợ̀t lại có những đặc trưng riờng của nó. Ta có thờ̉ nhọ̃n thṍy được ngay sự khác biợ̀t vờ̀ mặt kí pháp, cú pháp và ngữ pháp tiờ́ng Viợ̀t trong các văn bản so với các ngụn ngữ phụ̉ biờ́n trờn thờ́ giới như tiờ́ng Anh, tiờ́ng Pháp. Vọ̃y thì những đặc trưng này ảnh hưởng thờ́ nào đờ́n các kỹ thuọ̃t khai phá dữ liợ̀u văn bản, ta cõ̀n phải có những ký thuọ̃t mới nào đờ̉ có thờ̉ tọ̃n dụng được những ưu thờ́ của tiờ́ng Viợ̀t cũng như giải quyờ́t được những phức tạp trong tiờ́ng Viợ̀t. Đờ̉ trả lời được những cõu hỏi này, đụ̀ án sẽ đi từ những bước nghiờn cứu vờ̀ Khai phá dữ liợ̀u văn bản, tìm hiờ̉u những đặc trưng của tiờ́ng Viợ̀t, từ đú đề ra phương hướng giỳp giải quyết bài toỏn phõn loại văn bản tiếng Việt phức tạp ở cỏc nghiờn cứu cao hơn. Cỏc kết quả của nghiờn cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiờn cho luận văn tốt nghiệp của em với đề tài “Phõn loại văn bản tiếng Việt bằng phương phỏp phõn tớch cỳ phỏp.” II. Cơ sở lý thuyết 1. Khỏi niệm Text Mining a. Khai phá dữ liợ̀u (Data Mining) Viợ̀c sử dụng cơ sở dữ liợ̀u vào hoạt đụ̣ng của mụ̣t tụ̉ chức đã được phát triờ̉n trong vòng 60 năm trở lại đõy. Với dữ liợ̀u được thu thọ̃p trong suụ́t quá trình hoạt đụ̣ng của mụ̣t tụ̉ chức, mụ̣t nhu cõ̀u được đặt ra là tìm kiờ́m và khai thác tri thức từ những dữ liợ̀u đó. Đó chính là xuṍt phát điờ̉m của bài toán Phát hiợ̀n tri thức từ cơ sở dữ liợ̀u. Người ta nhọ̃n thṍy rằng có rṍt nhiờ̀u tri thức mà chúng ta khụng lường trước đang còn tiờ̀m õ̉n trong dữ liợ̀u, nhiợ̀m vụ của chúng ta là phát hiợ̀n, khám phá các tri thức đó, phục vụ cho những nhu cõ̀u sử dụng thụng tin cao hơn, ví dụ như trong các hợ̀ chuyờn gia hay hợ̀ hụ̃ trợ quyờ́t định. Khai phá dữ liợ̀u là giai đoạn chủ yờ́u của quá trình Phát hiợ̀n tri thức từ cơ sở dữ liệu. Quỏ trỡnh khai phá tri thức được thực hiợ̀n sau các quá trình thu thọ̃p và tinh lọc dữ liợ̀u, có nghĩa là chỉ tìm các mõ̃u tri thức (pattern) có ý nghĩa trờn tọ̃p dữ liợ̀u có hy vọng chứ khụng phải là trờn toàn bụ̣ CSDL như các phương pháp thụ́ng kờ trước đõy. Vì vọ̃y khai phá dữ liợ̀u bao gụ̀m viợ̀c thử tìm mụ hình phù hợp với dữ liợ̀u và tìm kiờ́m các mõ̃u hình tri thức từ dữ liợ̀u theo mụ hình đó. Mặc dù mõ̃u hình có thờ̉ tìm được từ bṍt kì mụ̣t CSDL nào nhưng chỉ những mõ̃u phù hợp với mục đích tìm kiờ́m mới được gọi là tri thức. Ta sẽ có những hàm sụ́ đờ̉ đánh giá các tiờu chí mõ̃u như mới, có lợi, đáng được xem xét. Đụ̣ mới của mõ̃u hình phụ thuụ̣c vào khung phạm vi quy chiờ́u, có thờ̉ đụ́i với hợ̀ thụ́ng hoặc đụ́i với người dùng. Ví dụ với dữ liợ̀u của mụ̣t cụng ty, quá trình Khai phá dữ liợ̀u tìm ra được mụ̣t luọ̃t như Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc, đụ́i với hợ̀ thụ́ng thì rṍt mới, trước kia chưa hờ̀ có nhưng bṍt cứ mụ̣t cán bụ̣ lọ̃p kờ́ hoạch nào cũng nhọ̃n ra được điờ̀u này qua các báo cáo tài chính. Tính hữu dụng của mõ̃u có thờ̉ đo được qua sự liờn quan đờ́n mục đích tìm kiờ́m. Với mụ̣t cán bụ̣ phụ trách bảo trì máy tính ở cụng ty thì luọ̃t trờn khụng có giá trị, mặc dù là mới đụ́i với anh ta. Có thờ̉ qua cụng đoạn khai phá tri thức có rṍt nhiờ̀u mõ̃u được lṍy ra nhưng khụng phải mõ̃u nào cũng có giá trị, có thờ̉ là mới, hữu ích nhưng lại tõ̀m thường, đặc biợ̀t là khi áp dụng các kỹ thuọ̃t dựa trờn thụ́ng kờ. Do đó luụn phải có các tiờu chí và các hàm đánh các mõ̃u đáng xem xét, khụng tõ̀m thường. Tóm lại, Khai phá dữ liợ̀u thực ra có thờ̉ coi là mụ̣t quá trình xác định mõ̃u từ các Datawarehouse, sử dụng các kỹ thuọ̃t sẵn có như học máy, nhọ̃n dạng, thụ́ng kờ, phõn oại... và các kỹ thuọ̃t được phát triờ̉n bởi ngành nghiờn cứu trí tuợ̀ nhõn tạo như Mạng nơ-ron nhõn tạo (neutral network), các thuọ̃t toán di truyờ̀n (generic algorithm), quy nạp luọ̃t rule reduction)... Ta có thờ̉ xét đờ́n mụ̣t sụ́ bài toán chính đụ́i với nghiờn cứu vờ̀ Khai phá dữ liợ̀u Bài toán phõn lớp (classification): Tìm mụ̣t ánh xạ (phõn loại) từ mụ̣t mõ̃u dữ liợ̀u vào mụ̣t trong các lớp cho trước. Bài toán hụ̀i quy (regression): Tìm mụ̣t ánh xạ hụ̀i quy từ mụ̣t mõ̃u dữ liợ̀u vào mụ̣t biờ́n dự đoán có giá trị thực Bài toán lọ̃p nhóm ( clustering): Là viợ̀c mụ tả chung đờ̉ tìm ra các tọ̃p xác định hữu hạn các nhóm hay các loại đờ̉ mụ tả dữ liợ̀u. Bài toán tụ̉ng kờ́t (summarization): Là viợ̀c đi tìm kiờ́m mụ̣t mụ tả chung tóm tắt cho mụ̣t tọ̃p con dữ liợ̀u. b. Khai phá dữ liợ̀u văn bản (Text Mining) Khai phá dữ liợ̀u văn bản hay phát hiợ̀n tri thức từ các cơ sở dữ liợ̀u văn bản (textual databases) đờ̀ cọ̃p đờ́n tiờ́n trình trích lọc các mõ̃u hình thụng tin (pattern) hay tri thức (knowledge) đáng quan tõm hoặc có giá trị (non-trivial) từ các tài liợ̀u văn bản phi cṍu trúc. Quá trình này có thờ̉ được coi là viợ̀c mở rụ̣ng kỹ thuọ̃t Khai phá dữ liợ̀u truyờ̀n thụ́ng, vì như ch ỳng ta đã thṍy (đã được đờ̀ cọ̃p ở trờn) kỹ thuọ̃t Khai phá dữ liợ̀u truyờ̀n thụ́ng (DataMining) hướng tới viợ̀c phát hiợ̀n tri thức từ các cơ sở dữ liợ̀u có cṍu trúc. Thụng tin được lưu trữ dưới dạng nguyờn sơ nhṍt chính là văn bản. Thọ̃m chí ta có thờ̉ thṍy rằng dữ liợ̀u tụ̀n tại dưới dạng văn bản còn có khụ́i lượng lớn hơn rṍt nhiờ̀u so với các dữ liợ̀u có cṍu trúc khác. Thực tờ́, những nghiờn cứu gõ̀n đõy đã cho thṍy rằng có đờ́n 80% thụng tin của mụ̣t tụ̉ chức nằm dưới dạng văn bản. Đó có thờ̉ là các cụng văn giṍy tờ, các biờ̉u mõ̃u điờ̀u tra, các phiờ́u đặt hàng, các yờu cõ̀u khiờ́u nại, giải quyờ́t quyờ̀n lợi, các thư tín điợ̀n tử (email), các thụng tin trờn các website thương mại... Khi cỏc nghiờn cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng rằng cú thể lưu mọi loại thụng tin dưới dạng dữ liệu cú cấu trỳc. Nhưng trờn thực tế sau gần 50 năm phỏt triển, người ta vẫn dựng cỏc hệ thống lưu trữ ở dạng văn bản và thậm trớ cũn cú xu hướng dựng thường xuyờn hơn. Từ đó người ta có thờ̉ tin rằng các sản phõ̉m Khai phá dữ liợ̀u văn bản có thờ̉ có giá trị thương mại cao hơn rṍt nhiờ̀u lõ̀n so với các sản phõ̉m Khai phá dữ liợ̀u truyờ̀n thụ́ng khác. Tuy nhiờn ta cũng có thờ̉ thṍy ngay rằng các kỹ thuọ̃t Khai phá dữ liợ̀u văn bản phức tạp hơn nhiờ̀u so với các kỹ thuọ̃t Khai phá dữ liợ̀u truyờ̀n thụ́ng bởi vì phải thực hiợ̀n trờn dữ liợ̀u văn bản vụ́n đã ở dạng phi cṍu trúc và có tính mờ (fuzzy). Một vớ dụ cho bài toỏn khai phỏ dữ liệu văn bản, khi phõn tớch cỏc bài bỏo nghiờn cứu khoa học, ta cú cỏc thụng tin sau: “stress là một bệnh liờn quan đến đau đầu” “stress xuất hiện cú thể do thiếu Magờ trong mỏu” “Canxi cú thể ngăn cản một số chứng đau đầu” “Magờ là một nguyờn tố điều hoà canxi tự nhiờn trong mỏu” Sau khi phõn tớch cỏc thụng tin quan trọng này, hệ thống cần phải đưa ra cỏc suy luõn cụ thể mang tớnh cỏch mạng: “Thiếu hụt Magờ cú thể gõy ra một số bệnh đau đầu” Rừ ràng ở đõy cú sự phõn tớch suy luận ở mức độ cao. Để đạt được khà năng như vậy cần phải cú những cụng trỡnh nghiờn cứu về trớ tuệ nhõn tạo tiờn tiến hơn. Bài toán Khai phá dữ liợ̀u văn bản là mụ̣t bài toán nghiờn cứu đa lĩnh vực, bao gụ̀m rṍt nhiờ̀u kỹ thuọ̃t cũng như các hướng nghiờn cứu khác nhau: thu thập thụng tin (information retrieval), phõn tích văn bản (text analysis), chiờ́t xuṍt thụng tin (information extraction), lọ̃p đoạn (clustering), phõn loại văn bản (categorization), hiờ̉n thị trực quan (visualization), cụng nghợ̀ cơ sở dữ liợ̀u, học máy (machine learning) và bản thõn các kỹ thuọ̃t Khai phá dữ liợ̀u. Trong đề tài này em chủ yếu đề cập đến hai bài toỏn cụ thể, đú là bài toỏn phõn loại dữ liệu văn bản (Text categorization) và bài toỏn thu thập thụng tin (information retrieval). Cỏc nghiờn cứu mới chỉ dừng lại ở bước tỡm hiểu, khảo sỏt, so sỏnh là tiền đề cho cỏc nghiờn cứu cụ thể sau này mà mục đớch trước mắt là phục vụ cho luận văn tốt nghiệp. Với một hệ thống Khai phỏ văn bản thường bao gồm ba bước chớnh: Bước tiền xử lý: Ở bước này, hệ thống sẽ chuyển văn bản từ dạng phi cấu trỳc về dạng cú cấu trỳc. Vớ dụ, với văn bản Tổ chức này to lắm, hệ thống sẽ cố gắng phõn tớch thành Tổ chức|này|to|lắm. Cỏc từ được lưu riờng rẽ một cỏch cú cấu trỳc để tiện cho việc xử lý. Loại bỏ cỏc thụng tin khụng cần thiết. Ở bước này, bộ phõn tớch tỡm cỏch loại bỏ cỏc thụng tin vụ ớch từ văn bản. Bước này phụ thuộc rất nhiều vào ngụn ngữ đang được phõn tớch và kỹ thuật sẽ được dựng để phõn tớch ỏ bước tiếp theo. Vớ dụ, nếu kỹ thuật phõn tớch văn bản chỉ dựa vào xỏc xuất xuất hiện từ khoỏ, khi đú ta cú thể loại bỏ cỏc từ phụ như: nếu, thỡ, thế nhưng, như vậy… Khai phỏ dữ liệu đó được giản lược với cỏc kỹ thuật khai phỏ dữ liệu (data mining) truyền thống. Cú rất nhiều kỹ thuật và phương phỏp tốt được sử dụng cho Text Mining để tỡm ra cỏc kiến trỳc mới, cỏc mẫu mới, và cỏc liờn kết mới. Cỏc bước tiền xử lý là cỏc kỹ thuật rất phức tạp nhằm phõn tớch một phõn lớp đặc biệt thành cỏc thuộc tớnh đặc biệt, sau đú tiến hành ỏp dụng cỏc phương phỏp khai phỏ dữ liệu kinh điển tức là phõn tớch thống kờ và phõn tớch cỏc liờn kết. Cỏc bước cũn lại sẽ khai phỏ cả văn bản đầy đủ từ tập cỏc văn bản, vớ dụ như phõn lớp văn bản. Mục tiờu cuối cựng của Text Mining thường là đường lối hiệu quả, hoàn thiện, và đặc trưng để trỡnh diễn và tỡm kiếm cỏc tập hợp rộng lớn của cỏc văn bản. Do đú, cỏc kỹ thuật chớnh của Text Mining cú thể được phõn phõn ra thành cỏc nhiệm vụ mà chỳng thực hiện khi xử lý khai phỏ văn bản: loại thụng tin mà chỳng cú thể trớch ra và loại phõn tớch được thực hiện bởi chỳng. Cỏc loại thụng tin được trớch ra cú thể là: Cỏc nhón: Giả sử, được liờn kết với mỗi văn bản là tập cỏc nhón cỏc thao tỏc khai phỏ tri thức được thực hiện trờn cỏc nhón của mỗi văn bản. Núi chung, cú thể giả sử rằng cỏc nhón tương ứng với cỏc từ khoỏ, mỗi một từ khoỏ cú quan hệ với một chủ đề cụ thể nào đú. Cỏc từ: Ở đõy giả sử rằng một văn bản được gỏn nhón với từng từ xuất hiện trong văn bản đú. Cỏc thuật ngữ: Ở đõy với mỗi văn bản tỡm thấy cỏc chuỗi từ, chuỗi từ đú thuộc về một lĩnh vực nào đú và do đú việc tỡm khai phỏ văn bản được thực hiện trờn cỏc khai niệm được gỏn nhón cho mỗi văn bản. Ưu điểm của phương phỏp này là cỏc thuật ngữ được tỏch ra ớt và cú xu hướng tập trung vào cỏc thụng tin quan trọng của văn bản hơn hai phương phỏp trước đõy. Cỏc loại kết hợp: Kết hợp thụng thường: Một số thuật toỏn trước đõy giả sử rằng dữ liệu nguyờn mẫu được tạo lập chỳ dõn để trợ giỳp cho cỏc kỹ thuật xử lý ngụn ngữ tự nhiờn. Cỏc cấu trỳc cú chỳ dẫn trờn thực tế cú thể được sử dụng như một cơ sở cho việc xử lý khai phỏ tri thức. Cỏc phõn cấp thuật ngữ: Ở đõy mỗi văn bản được đớnh với cỏc thuật ngữ lấy ra từ một phõn cấp cỏc thuật ngữ. Sau đú, một hệ thống sẽ phõn tớch sự