Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu Tiếng Việt

Sự phát triển nhanh chóng của khoa học, công nghệlàm cho kho kiến thức của con người ngày càng mởrộng. Ngày nay, dữliệu của con người một phần lớn ñược lưu giữdưới dạng tài liệu ñiện tửvà ñược lưu giữtrong các thiết bịlưu trữ. Với lượng dữliệu ñồsộnhư vậy, việc tìm kiếm và nắm bắt thông ñã trởthành một nhu cầu không thểthiếu ñối với mỗi con người. Trong các cơquan, doanh nghiệp, thậm chí là các thưviện hầu hết các văn bản, tài liệu, sách ñều ñược lưu trữdưới dạng tài liệu ñiện tử. Hiện nay các công cụhỗtrợcho việc tìm kiếm các tài liệu trong phạm vi một cơquan, doanh nghiệp thường rất hạn chếvềmặt chức năng cũng nhưkhảnăng xửlý tiếng Việt và văn bản tiếng Việt. Do ñặc thù của chữviết tiếng Việt và sựphát triển của nền tin học Việt Nam, các văn bản tiếng Việt ñược lưu trữvới nhiều bảng mã khác nhau làm cho việc tìm kiếm trởnên rất khó khăn. Các hệ thống tìm kiếm hiện nay ñều chưa chuẩn hóa bảng mã trong tài liệu, làm cho kết quảtìm kiếm có thểbịsai lệch. Các hệthống tìm kiếm hiện nay hầu hết ñều tìm theo từkhóa, không hỗtrợviệc tìm kiếm theo ngữnghĩa ñiều này làm hạn chểkhảnăng tìm kiếm cũng như khảnăng hỗtrợngười sửdụng trong quá trình tìm kiếm trên hệthống tìm kiếm

pdf13 trang | Chia sẻ: lvbuiluyen | Lượt xem: 3925 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu Tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG          TRẦN NGỌC ĐỨC TÌM HIỂU WEB NGỮ NGHĨA, XÂY DỰNG ỨNG DỤNG TÌM KIẾM TÀI LIỆU TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng – Năm 2012 2 Công trình ñược hoàn thành tại ĐẠI HỌC ĐÀ NẴNG          Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN Phản biện 1: TS. Nguyễn Trần Quốc Vinh Phản biện 2: PGS.TS. Lê Mạnh Thạnh Luận văn ñược bảo vệ tại Hội ñồng chấm Luận văn tốt nghiệp Thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 03 tháng 03 năm 2012 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng. 3 MỞ ĐẦU 1. Lý do chọn ñề tài Sự phát triển nhanh chóng của khoa học, công nghệ làm cho kho kiến thức của con người ngày càng mở rộng. Ngày nay, dữ liệu của con người một phần lớn ñược lưu giữ dưới dạng tài liệu ñiện tử và ñược lưu giữ trong các thiết bị lưu trữ. Với lượng dữ liệu ñồ sộ như vậy, việc tìm kiếm và nắm bắt thông ñã trở thành một nhu cầu không thể thiếu ñối với mỗi con người. Trong các cơ quan, doanh nghiệp, thậm chí là các thư viện hầu hết các văn bản, tài liệu, sách ñều ñược lưu trữ dưới dạng tài liệu ñiện tử. Hiện nay các công cụ hỗ trợ cho việc tìm kiếm các tài liệu trong phạm vi một cơ quan, doanh nghiệp thường rất hạn chế về mặt chức năng cũng như khả năng xử lý tiếng Việt và văn bản tiếng Việt. Do ñặc thù của chữ viết tiếng Việt và sự phát triển của nền tin học Việt Nam, các văn bản tiếng Việt ñược lưu trữ với nhiều bảng mã khác nhau làm cho việc tìm kiếm trở nên rất khó khăn. Các hệ thống tìm kiếm hiện nay ñều chưa chuẩn hóa bảng mã trong tài liệu, làm cho kết quả tìm kiếm có thể bị sai lệch. Các hệ thống tìm kiếm hiện nay hầu hết ñều tìm theo từ khóa, không hỗ trợ việc tìm kiếm theo ngữ nghĩa ñiều này làm hạn chể khả năng tìm kiếm cũng như khả năng hỗ trợ người sử dụng trong quá trình tìm kiếm trên hệ thống tìm kiếm. Từ thực tế ñó, việc xây dựng một hệ thống tìm kiếm có thể dễ dàng triển khai trong môi trường cơ quan, doanh nghiệp và có khả năng “hiểu” ngữ nghĩa tiếng Việt, xử lý văn bản tiếng Việt là cần thiết. Vì vậy tôi thực hiện ñề tài“Tìm hiểu web ngữ nghĩa xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt”. 4 2. Mục ñích nghiên cứu - Tìm hiểu về công nghệ, phương pháp xây dựng Web ngữ nghĩa và các vấn ñề có liên quan. - Tìm hiểu các phương pháp bóc tách dữ liệu tự ñộng bằng cách sử dụng các công cụ xử lý ngôn ngữ thông dụng. - Đề xuất giải pháp xây dựng và tiến hành xây dựng thử nghiệm hệ thống tìm kiếm thông tin tài liệu tiếng Việt dựa trên công nghệ Web ngữ nghĩa. - Đưa ra một số nhận ñịnh, ñánh giá về phương pháp ñã lựa chọn ñể thử nghiệm và khả năng phát triển ứng dụng vào thực tế. 3. Đối tượng và phạm vi nghiên cứu - Dữ liệu, tài liệu, thông tin văn bản ñược lưu trữ, truy cập thông qua máy tính và môi trường mạng máy tính. - Các công cụ mã nguồn mở ñược sử dụng ñể thao tác, xử lý ngôn ngữ tự nhiên trên các văn bản ñược lưu trữ trong máy tính. - Ứng dụng bóc tách và khai thác dữ liệu, phục vụ tìm kiếm theo ngữ nghĩa cho văn bản tiếng Việt. 4. Phương pháp nghiên cứu Luận văn sử dụng các phương pháp nghiên cứu như sau: - Thứ nhất, tìm hiểu và ñánh giá các kết quả nghiên cứu về các phương pháp xử lý ngôn ngữ tự nhiên, công nghệ Web ngữ nghĩa ñang ñược phát triển hiện nay. 5 - Thứ hai, từ kết quả thu ñược của bước thứ nhất, lựa chọn phương pháp xây dựng ứng dụng. - Thứ ba, từ phương pháp ñã lựa chọn, tìm kiếm công cụ thích hợp ñể xây dựng ứng dụng. Từ giải pháp và công cụ ñã lựa chọn ñược, tiến hành xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt. 5. Ý nghĩa khoa học và thực tiễn của ñề tài Về mặt khoa học, ñề tài tiếp cận vấn ñề xử lý ngôn ngữ tự nhiên một cách tự ñộng dựa trên công nghệ Web ngữ nghĩa. Điều này góp phần làm cho việc tìm kiếm trở nên chính xác và hiệu quả hơn. Phục vụ cho việc giải quyết bài toán bóc tách dữ liệu từ văn bản. Về mặt thực tiễn, ñề tài ñưa ra ñược phương pháp xây dựng một ứng dụng xử lý ngôn ngữ dựa trên những công cụ xử lý ngôn ngữ tự nhiên có sẵn và bước ñầu xây dựng ứng dụng minh họa. 6. Giải pháp Để xây dựng ñược ứng dụng tìm kiếm tài liệu tiếng Việt, ñề tài có thể có giải pháp như sau: - Xây dựng Ontology tiếng Việt cho một số lĩnh vực nhằm minh họa cho ứng dụng. - Lựa chọn công cụ ñể xây dựng chú giải cho các văn bản tiếng Việt dựa trên Ontology ñã có. - Xây dựng ứng dụng tìm kiếm ngữ nghĩa dựa trên chú giải ñã gán cho các văn bản tiếng Việt. 6 7. Cấu trúc của luận văn Sau phần mở ñầu, luận văn gồm có 3 chương và phần kết luận. Các chương của luận văn bao gồm: - Chương 1, “Tổng quan về Web ngữ nghĩa”. Chương này cung cấp cho chúng ta cái nhìn tổng quan về công nghệ Web hiện tại và Web ngữ nghĩa. Phân biệt những ñiểm khác nhau cơ bản giữa Web và Web ngữ nghĩa cũng như trình bày một số ngôn ngữ, công cụ và công nghệ hiện có ñể xây dựng ứng dụng Web ngữ nghĩa. - Chương 2, “Ontology và phương pháp xây dựng Ontology”. Chương này sẽ trình bày khái niệm, các thành phần, ngôn ngữ, phương pháp và công cụ ñể xây dựng Ontology . - Chương 3, “Xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt”. Chương này sẽ mô tả các bước xây dựng ứng dụng tìm kiếm tài liệu tiếng Việt và các kết quả chạy thử nghiệm. Phần kết luận, tổng hợp các kết quả nghiên cứu của luận văn. Các kết quả ñạt ñược, hạn chế của luận văn. Thông qua các kết quả ñạt ñược của luận văn, ñề xuất hướng phát triển tiếp theo cho ñề tài. 7 Chương 1 - TỔNG QUAN VỀ WEB NGỮ NGHĨA 1.1. Công nghệ Web hiện tại và những hạn chế Khối lượng khổng lồ các tài nguyên trên Web làm nảy sinh vấn ñề nghiêm trọng là làm thế nào ñể tìm kiếm chính xác tài nguyên mình mong muốn. Dữ liệu trong các file HTML – ngôn ngữ trình bày dữ liệu của công nghệ Web hiện tại- hữu ích trong một vài ngữ cảnh nhưng vô nghĩa ñối với những ngữ cảnh khác. Thêm vào ñó HTML không thể mô tả về dữ liệu ñóng gói trong nó. Hiện nay, hầu hết các công cụ tìm kiếm tài liệu trên Web ñược coi là tìm kiếm hiệu quả cũng chủ yếu tìm kiếm ñược trên bề nổi của Web . Trong khi ở tầng sâu của Web chứa một khối lượng thông tin khổng lồ và thường rất có giá trị cho các nhà nghiên cứu, các học giả hay ñơn thuần là những người thích tìm hiểu. Bên cạch ñó, các trang Web hiện nay có rất ít ñường liên kết với các trang Web khác nên việc tìm kiếm là khó khăn. Ngoài ra, thông tin tìm kiếm ñược không theo chủ ñề mà chỉ là vấn ñề tìm thoả theo từ khoá ñơn thuần, kết quả tìm kiếm phải do con người chọn lại theo chủ ñề mong muốn. Ví dụ, khi chúng ta biết tên một quốc gia và muốn tìm tên thủ ñô của quốc gia ñó. Vì mỗi quốc gia có một thủ ñô khác nhau và Web không biểu diễn ñược mối liên hệ này, nên chúng ta không nhận ñược ñiều chúng ta mong ñợi. Trái lại, ñối với Semantic Web, chúng ta có thể chỉ ra kiểu của mối liên hệ này; ví dụ, tên quốc gia có tên thủ ñô tương ứng. 8 Vì vậy, nếu như các thành phần chính yếu của dữ liệu trong Web trình bày theo dạng thức thông thường, thì rất khó sử dụng dữ liệu này một cách phổ biến ñể có thể mô tả ñược mối quan hệ như tương tự trên. Một thiếu sót của Web hiện nay là thiếu cơ cấu hiệu quả ñể chia sẻ dữ liệu khi ứng dụng ñược phát triển một cách ñộc lập. Do dó cần phải mở rộng Web ñể máy có thể hiểu, tích hợp dữ liệu, cũng như tái sử dụng dữ liệu thông qua các ứng dụng khác nhau. 1.2. Web có ngữ nghĩa Từ những hạn chế, vấn ñề về mặt khai thác dữ liệu của công nghệ Web hiện tại ñã thúc ñẩy sự ra ñời của ý tưởng Web ngữ nghĩa (Semantic Web ), một thế hệ mới của Web , mà chính cha ñẻ của World Wide Web là Tim Berners-Lee ñề xuất vào năm 1998. Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong ñó thông tin ñược ñịnh nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là ñể phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu ñược nhiều hơn thông tin trên Web , sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin (thông tin ñược tìm kiếm nhanh chóng và chính xác hơn), tích hợp dữ liệu (dữ liệu liên kết ñộng), và tự ñộng hóa các công việc. 1.3. Kiến trúc của Web ngữ nghĩa Web ngữ nghĩa là một tập hợp các ngôn ngữ. Tất cả các lớp của Web ngữ nghĩa ñược sử dụng ñể ñảm bảo ñộ an toàn và khai thác thông tin một cách tốt nhất. 9 Web ngữ nghĩa ñược xây dựng trên nền hệ thống web hiện tại. Web ngữ nghĩa ñược coi là sự mở rộng của Web hiện tại có bổ sung thêm ngữ nghĩa vào dữ liệu trên web. Hình 3 chỉ ra sơ ñồ kiến trúc của Web ngữ nghĩa. Hình 1.1: Kiến trúc của web ngữ nghĩa 1.4. Vai trò của các tầng trong Web ngữ nghĩa 1.4.1. Tầng ñịnh danh tài nguyên-URI URI - Uniform Resource Identifier, URI ñơn giản chỉ là một ñịnh danh Web giống như các chuỗi bắt ñầu bằng “http” hay “ftp” mà bạn thường xuyên thấy trên mạng. Bất kỳ ai cũng có thể tạo một URI, và có quyền sở hữu chúng. 10 1.4.2. Tầng XML và XML Schema XML là một mở rộng của ngôn ngữ ñánh dấu cho các các cấu trúc tài liệu bất kỳ. 1.4.3. Tầng RDF - RDF Schema RDF (Resource Description Framework) là nền tảng của Web ngữ nghĩa và xử lý metadata, ñược ñịnh nghĩa bởi tổ chức W3C. RDF cho phép trao ñổi thông tin giữa các ứng dụng trên Web mà máy có thể hiểu ñược. 1.4.4. Tầng Ontology Ontology là một tập các khái niệm và quan hệ giữa các khái niệm ñược ñịnh nghĩa cho một lĩnh vực nào ñó nhằm vào việc biểu diễn và trao ñổi thông tin. 1.4.5. Tầng logic Khai báo các nguyên tắc logic và cho phép máy tính suy diễn (bằng cách suy luận) bằng cách dùng những nguyên tắc này. 1.4.6. Tầng Proof Chúng ta sẽ xây dựng các hệ hiểu logic và dùng chúng ñể chứng minh. Mọi người trên thế giới có thể viết các khai báo logic. Sau ñó máy tính có thể theo những liên kết ngữ nghĩa này ñể kiểm chứng. 1.4.7. Tầng Trust Tầng này nhằm ñảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa. 11 1.5. Các ngôn ngữ ñược sử dụng trong Web ngữ nghĩa 1.5.1. XML–Ngôn ngữ ñánh dấu mở rộng XML là một ñặc tả cho các tài liệu mà máy tính ñọc ñược. Đánh dấu có nghĩa là các chuỗi ký tự nào ñó trong tài liệu có chứa thông tin chỉ ra vai trò nội dung của tài liệu. ñánh dấu mô tả sơ ñồ dữ liệu của tài liệu và cấu trúc logic. Các ñánh dấu này làm thông tin tự mô tả tùy vào cảm nhận. Các ñánh dấu này ñược mô tả dưới dạng các từ trong dấu ngoặc nhọn hay còn gọi là tag. 1.5.2. RDF - Biểu diễn dữ liệu về dữ liệu XML cung cấp cú pháp ñể mã hóa dữ liệu, RDF là một cơ cấu chỉ ra ñiều gì ñó về dữ liệu. Như tên gọi, RDF là một mô hình ñể biểu diễn dữ liệu về "mọi thứ trên Web". 1.5.2.1. Các khái niệm cơ bản Namespace và cách khai báo Qualified name (QName) và cách sử dụng Mô hình RDF Bộ ba RDF (RDF Tripple) Đồ thị RDF Dữ liệu nguyên thủy(Literal) 1.5.2.2. Cấu trúc RDF/XML Cú pháp RDF/XML cơ bản 12 RDF Container RDF Collection 1.5.2.3. Lược ñồ RDF- RDF Schema - Định nghĩa class (lớp) Các tài nguyên trên Web có thể chia thành các nhóm gọi là class. Các thành viên ( member) của nhóm ñược xem như là thể hiện của lớp ñó. Class cũng chính là tài nguyên. Nó ñược nhận ra thông qua các ñịnh danh URI và có thể ñược mô tả bằng cách sử dụng các RDF properties. - Định nghĩa thuộc tính (property) RDF Schema cũng cung cấp một bộ từ vựng ñể mô tả làm thế nào mà các thuộc tính (property) và lớp (class) có thể ñược sử dụng cùng với nhau trong dữ liệu RDF. 1.5.2.4. Truy vấn dữ liệu trong rdf SPARQL là một ngôn ngữ ñể truy cập thông tin từ các ñồ thị RDF. Nó cung cấp các tính năng sau: - Trích thông tin trong các dạng của URI, các nút rỗng và các dữ liệu nguyên thủy hay giá trị ñược ñịnh nghĩa từ dữ liệu nguyên thủy. - Trích thông tin từ các ñồ thị con. - Xây dựng một ñồ thị RDF mới dựa trên thông tin trong ñồ thị truy vấn. 13 Chương 2 - ONTOLOGY VÀ PHƯƠNG PHÁP XÂY DỰNG ONTOLOGY 2.1. Giới thiệu Ontology 2.1.1. Khái niệm Ontology Trong những năm gần ñây, thuật ngữ “Ontology” không chỉ ñược sử dụng ở trong các phòng thì nghiệm trên lĩnh vực trí tuệ nhân tạo mà ñã trở nên phổ biến ñối với nhiều miền lĩnh vực trong ñời sống . Đứng trên quan ñiểm của ngành trí tuệ nhân tạo, một Ontology là sự môt tả về những khái niệm và những quan hệ của các khái niệm ñó nhằm mục ñích thể hiện một góc nhìn về thế giới. Trên miền ứng dụng khác của khoa học, một Ontology bao gồm tập các từ vựng cơ bản hay một tài nguyên trên một miền lĩnh vực cụ thể, nhờ ñó những nhà nghiên cứu có thể lưu trữ, quản lý và trao ñổi tri thức cho nhau theo một cách tiện lợi nhất. Hiện nay tồn tại nhiều khái niệm về Ontology, trong ñó có nhiều khái niệm mâu thuẫn với các khác niệm khác, khóa luận này chỉ giới thiệu một ñịnh nghĩa mang tính khái quát và ñược sử dụng khá phổ biến ñược Kincho H. Law ñưa ra: “Ontology là biểu hiện một tập các khái niệm (ñối tượng), trong một miền cụ thể và những mối quan hệ giữa các khái niệm này”. Ontology chính là sự tổng hợp của một tập từ vựng chia sẻ và các miêu tả ý nghĩa của từ ñó theo cách mà máy tính hiểu ñược. 14 2.1.2. Các thành phần của Ontology Lớp (class) là một bộ những thực thể, các thực thể ñược mô tả logic ñề ñịnh nghĩa các ñối tượng của lớp; lớp ñược xây dựng theo cấu trúc phân cấp cha con như là một sự phân loại các ñối tượng. Thực thể ñược xem là thể hiện của một lớp, làm rõ hơn về lớp ñó và có thể ñược hiểu là một ñối tương nào ñó trong tự nhiên (England, Manchester United, bệnh sởi, thủy ñậu…). Thuộc tính (Property) thể hiện quan hệ nhị phân của các thực thể (quan hệ giữa hai thực thể) như liên kết hai thực thể với nhau. Ví dụ thuộc tính “làm cho” liên kết hai thực thể “người” và “công ty” với nhau. Thuộc tính (property) có 4 loại (1) Functional: Một thực thể chỉ liên quan nhiều nhất ñến một thực thể khác, ví dụ thuộc tính “có hương vị” ñối với các thực thể lớp “thức_ăn”; (2) Inverse Functional: Thuộc tính ñảo ngược của Functional, thuộc tính “là hương vị của”; (3) Transitive: Thực thể a quan hệ với thực thể b, thực thể b quan hệ với thực thể c thì thực thể a quan hệ với thực thể c; (4) Symmetric: Thực thể a quan hệ với thực thể b thì thực thể b quan hệ với thực thể a. Thuộc tính có 3 kiểu thể hiện: - Object Property: Liên kết thực thể này với thực thể khác - DataType Property: Liên kết thực thể với kiểu dữ liệu XML Schema, RDF literal - Annotation Property: Thêm các thông tin metadata về lớp, thuộc tính hay thực thể khác thuộc 2 kiểu trên. 15 2.1.3. Một số công trình liên quan tới xây dựng Ontology Ngày nay, Ontology ñược sử dụng rất nhiều trong các lĩnh vực liên quan ñến ngữ nghĩa như trí tuệ nhân tạo (AI), semantic web, kĩ nghệ phần mềm, v.v… Vì những ứng dụng của Ontology nên không chỉ riêng Việt Nam, trên thế giới ñã có nhiều dự án tập trung xây dựng Ontology ñối với từng miền dữ liệu khác nhau và phục vụ cho nhiều mục ñích ña dạng khác nhau. Đối với miền dữ liệu y tế có thể kể tới rất nhiều Ontology trong lĩnh vực y tế, sinh học ñã ñược ñưa ra bởi tổ chức The National Center for Biomedical Ontology. Dự án này ñã ñưa ra ñược rất nhiều Ontology trong y tế cũng như trong sinh học, ví dụ như Ontology về cell type, Gene, FMA, Human disease…danh sách các Ontology ñưa ra ñược hiển thị trong. Ngoài ra có thể kể tới Disease Ontology là một tập từ về y khoa ñược phát triển tại Bioinformatics Core Facility cùng với sự cộng tác của dự án NuGene Project tại trung tâm Center for Genetic Medicine. Ontology này ñược thiết kế với mục ñích sắp xếp các bệnh và các ñiều kiện tương ứng ñối với những code về y tế cụ thể như là ICD9CM, SNOMED và những cái khác….Disease Ontology cũng ñược sử dụng ñể liên kết những kiểu hình sinh vật mẫu ñối với các bệnh của con người cũng như trong việc khai phá dữ liệu y học. Disease Ontology ñược thực hiện như là một ñồ thị xoắn có hướng và sử dụng UMLS (Unified Medical Language System) là tập từ vựng ñể truy cập các Ontology về y tế khác như ICD9CM. Một ontology tiếng Anh ñược ñề cập rất nhiều trong lĩnh vực y tế trong thời gian gần ñây ñó là GENIA. Mục ñích chính mà ontology này hướng tới ñó là sự phản ứng lại của tế bào trong não người. 16 Ontology này chủ yếu tập trung trong các lĩnh vực y tế và cũng ñược sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên: truy hồi thông tin (Information Retrieval – IR), trích chọn thông tin, phân lớp và tóm tắt văn bản. DBpedia Ontology là một ontology tổng quát, bao trùm nhiều lĩnh vực. Ontology này ñược tạo ra bằng cách lấy thông tin phổ biến trên Wikipedia và xây dựng lại một cách thủ công. Hiện nay, DBpedia ñã có hơn 320 lớp phân cấp bao gồm nhiều lĩnh vực ñược mô tả bởi hơn 1650 thuộc tính khác nhau. 2.2. Phương pháp xây dựng Ontology 2.2.1. Xây dựng Ontology Ngày nay, việc nghiên cứu quá trình xây dựng ontology ngày càng ñược quan tâm nhiều hơn. Có rất nhiều nhóm sau quá trình nghiên cứu ñã ñưa ra các phương pháp khác nhau nhằm xây dựng Ontology. Nội dung chương này sẽ ñề cập ñến một số nguyên tắc cơ bản của việc xây dựng Ontology qua các các công ñoạn cụ thể sau ñây: Các bước cụ thể như sau: - Bước 1, xác ñịnh miền quan tâm và phạm vi của Ontology - Bước 2, xem xét việc kế thừa các Ontology có sẵn - Bước 3, liệt kê các thuật ngữ quan trọng trong Ontology - Bước 4, xây dựng các lớp và cấu trúc lớp phân cấp 17 - Bước 5, ñịnh nghĩa các thuộc tính và quan hệ cho lớp - Bước 6, ñịnh nghĩa các ràng buộc về thuộc tính và quan hệ của lớp - Bước 7, tạo các thực thể cho lớp 2.2.2. Ngôn ngữ xây dựng Ontology Hiện tại, các ngôn ngữ xây dựng ontology (ngôn ngữ ontology) ñiển hình bao gồm LOOM, LISP, Ontolingua, XML, SHOE, OIL, DAML+OIL và OWL. 2.2.2.1. RDFS (RDF-Schema) RDFS là một ngôn ngữ Ontology cơ bản. Nó ñược phát triển ở tầng trên của RDF cho nên bản thân RDF-Schema cũng chính là RDF, nó ñược mở rộng từ RDF và bổ sung thêm các tập từ vựng ñể hỗ trợ cho việc xây dựng các Ontology ñược dễ dàng. 2.2.2.2. OWL (Ontology Web Language) OWL là ngôn ngữ ontology khá mạnh, nó ra ñời sau RDFS nên biết kế thừa những lợi thế của ngôn ngữ này ñồng thời bổ sung thêm nhiều yếu tố giúp khắc phục ñược những hạn chế của RDFS. OWL giúp tăng thêm yếu tố logic cho thông tin và khả năng phân loại. 2.2.2.3. DAML + OIL DAML+ OIL ra ñời nhằm khắc phục những hạn chế về kiểu dữ liệu trong các ngôn ngữ Ontology trước ñó là RDF, RDFS. DAML + OIL (gọi tắt là DAML) là ngôn ngữ ñánh dấu cho các tài nguyên trên Web, có hỗ trợ suy luận. 18 2.2.3. Công cụ xây dựng Ontology Về mặt lý thuyết, người xây dựng và quản trị Ontology có thể không cần các công cụ hỗ trợ, thay vào ñó có thể thực hiện trực tiếp bằng các ngôn ngữ. Tuy nhiên, cách thứ hai sẽ không khả thi khi Ontology có kích thước lớn và cấu trúc phức tạp. Thêm vào ñó, việc xây dựng và quản trị Ontology không chỉ ñòi hỏi việc tạo cấu trúc lớp phân cấp, ñịnh nghĩa các thuộc tính, ràng buộc.., mà còn bao hàm việc giải quyết các bài toán liên quan trên nó. Có rất nhiều bài toán liên quan ñến một hệ thống Ontology như: - Trộn hai hay nhiều Ontology. - Chuẩn ñoán và phát hiện lỗi. - Kiểm tra tính ñúng ñắn và ñầy ñủ. - Ánh xạ qua lại giữa các Ontology. - Suy luận trên Ontology. - Sao lưu và phục hồi một Ontology. - Xóa, sửa và tinh chỉnh các thành bên trong Ontology. - Tách biệt Ontology với ngôn ngữ sử dụng (DAML, OWL,..). Những khó khăn trên ñã khiến các công cụ trở thành một thành phần không thể thiếu, quyết ñịnh ñến chất lượng của một hệ thống Ontology. Hiện có rất nhiều công cụ có khả năng hỗ trợ người thiết kế giải quyết những bài toán liên quan. Có thể kể ra một số như: Sesame, Protégé, Ontolingua, Chimaera, OntoEdit, OidEd.. 19 Nội dung phần này sẽ
Luận văn liên quan