Sự phát triển nhanh chóng của khoa học, công nghệlàm cho kho
kiến thức của con người ngày càng mởrộng. Ngày nay, dữliệu của
con người một phần lớn ñược lưu giữdưới dạng tài liệu ñiện tửvà
ñược lưu giữtrong các thiết bịlưu trữ. Với lượng dữliệu ñồsộnhư
vậy, việc tìm kiếm và nắm bắt thông ñã trởthành một nhu cầu không
thểthiếu ñối với mỗi con người.
Trong các cơquan, doanh nghiệp, thậm chí là các thưviện hầu
hết các văn bản, tài liệu, sách ñều ñược lưu trữdưới dạng tài liệu ñiện
tử. Hiện nay các công cụhỗtrợcho việc tìm kiếm các tài liệu trong
phạm vi một cơquan, doanh nghiệp thường rất hạn chếvềmặt chức
năng cũng nhưkhảnăng xửlý tiếng Việt và văn bản tiếng Việt.
Do ñặc thù của chữviết tiếng Việt và sựphát triển của nền tin
học Việt Nam, các văn bản tiếng Việt ñược lưu trữvới nhiều bảng
mã khác nhau làm cho việc tìm kiếm trởnên rất khó khăn. Các hệ
thống tìm kiếm hiện nay ñều chưa chuẩn hóa bảng mã trong tài liệu,
làm cho kết quảtìm kiếm có thểbịsai lệch. Các hệthống tìm kiếm
hiện nay hầu hết ñều tìm theo từkhóa, không hỗtrợviệc tìm kiếm
theo ngữnghĩa ñiều này làm hạn chểkhảnăng tìm kiếm cũng như
khảnăng hỗtrợngười sửdụng trong quá trình tìm kiếm trên hệthống
tìm kiếm
13 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 3945 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Tìm hiểu web ngữ nghĩa, xây dựng ứng dụng tìm kiếm tài liệu Tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
TRẦN NGỌC ĐỨC
TÌM HIỂU WEB NGỮ NGHĨA, XÂY DỰNG
ỨNG DỤNG TÌM KIẾM TÀI LIỆU TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng – Năm 2012
2
Công trình ñược hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN
Phản biện 1: TS. Nguyễn Trần Quốc Vinh
Phản biện 2: PGS.TS. Lê Mạnh Thạnh
Luận văn ñược bảo vệ tại Hội ñồng chấm
Luận văn tốt nghiệp Thạc sĩ kỹ thuật họp tại
Đại học Đà Nẵng vào ngày 03 tháng 03 năm 2012
Có thể tìm hiểu luận văn tại:
- Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng
- Trung tâm Học liệu, Đại học Đà Nẵng.
3
MỞ ĐẦU
1. Lý do chọn ñề tài
Sự phát triển nhanh chóng của khoa học, công nghệ làm cho kho
kiến thức của con người ngày càng mở rộng. Ngày nay, dữ liệu của
con người một phần lớn ñược lưu giữ dưới dạng tài liệu ñiện tử và
ñược lưu giữ trong các thiết bị lưu trữ. Với lượng dữ liệu ñồ sộ như
vậy, việc tìm kiếm và nắm bắt thông ñã trở thành một nhu cầu không
thể thiếu ñối với mỗi con người.
Trong các cơ quan, doanh nghiệp, thậm chí là các thư viện hầu
hết các văn bản, tài liệu, sách ñều ñược lưu trữ dưới dạng tài liệu ñiện
tử. Hiện nay các công cụ hỗ trợ cho việc tìm kiếm các tài liệu trong
phạm vi một cơ quan, doanh nghiệp thường rất hạn chế về mặt chức
năng cũng như khả năng xử lý tiếng Việt và văn bản tiếng Việt.
Do ñặc thù của chữ viết tiếng Việt và sự phát triển của nền tin
học Việt Nam, các văn bản tiếng Việt ñược lưu trữ với nhiều bảng
mã khác nhau làm cho việc tìm kiếm trở nên rất khó khăn. Các hệ
thống tìm kiếm hiện nay ñều chưa chuẩn hóa bảng mã trong tài liệu,
làm cho kết quả tìm kiếm có thể bị sai lệch. Các hệ thống tìm kiếm
hiện nay hầu hết ñều tìm theo từ khóa, không hỗ trợ việc tìm kiếm
theo ngữ nghĩa ñiều này làm hạn chể khả năng tìm kiếm cũng như
khả năng hỗ trợ người sử dụng trong quá trình tìm kiếm trên hệ thống
tìm kiếm.
Từ thực tế ñó, việc xây dựng một hệ thống tìm kiếm có thể dễ
dàng triển khai trong môi trường cơ quan, doanh nghiệp và có khả
năng “hiểu” ngữ nghĩa tiếng Việt, xử lý văn bản tiếng Việt là cần
thiết. Vì vậy tôi thực hiện ñề tài“Tìm hiểu web ngữ nghĩa xây dựng
ứng dụng tìm kiếm tài liệu tiếng Việt”.
4
2. Mục ñích nghiên cứu
- Tìm hiểu về công nghệ, phương pháp xây dựng Web ngữ nghĩa và
các vấn ñề có liên quan.
- Tìm hiểu các phương pháp bóc tách dữ liệu tự ñộng bằng cách sử
dụng các công cụ xử lý ngôn ngữ thông dụng.
- Đề xuất giải pháp xây dựng và tiến hành xây dựng thử nghiệm hệ
thống tìm kiếm thông tin tài liệu tiếng Việt dựa trên công nghệ
Web ngữ nghĩa.
- Đưa ra một số nhận ñịnh, ñánh giá về phương pháp ñã lựa chọn ñể
thử nghiệm và khả năng phát triển ứng dụng vào thực tế.
3. Đối tượng và phạm vi nghiên cứu
- Dữ liệu, tài liệu, thông tin văn bản ñược lưu trữ, truy cập thông
qua máy tính và môi trường mạng máy tính.
- Các công cụ mã nguồn mở ñược sử dụng ñể thao tác, xử lý ngôn
ngữ tự nhiên trên các văn bản ñược lưu trữ trong máy tính.
- Ứng dụng bóc tách và khai thác dữ liệu, phục vụ tìm kiếm theo
ngữ nghĩa cho văn bản tiếng Việt.
4. Phương pháp nghiên cứu
Luận văn sử dụng các phương pháp nghiên cứu như sau:
- Thứ nhất, tìm hiểu và ñánh giá các kết quả nghiên cứu về các
phương pháp xử lý ngôn ngữ tự nhiên, công nghệ Web ngữ
nghĩa ñang ñược phát triển hiện nay.
5
- Thứ hai, từ kết quả thu ñược của bước thứ nhất, lựa chọn
phương pháp xây dựng ứng dụng.
- Thứ ba, từ phương pháp ñã lựa chọn, tìm kiếm công cụ thích
hợp ñể xây dựng ứng dụng.
Từ giải pháp và công cụ ñã lựa chọn ñược, tiến hành xây dựng
ứng dụng tìm kiếm tài liệu tiếng Việt.
5. Ý nghĩa khoa học và thực tiễn của ñề tài
Về mặt khoa học, ñề tài tiếp cận vấn ñề xử lý ngôn ngữ tự nhiên
một cách tự ñộng dựa trên công nghệ Web ngữ nghĩa. Điều này góp
phần làm cho việc tìm kiếm trở nên chính xác và hiệu quả hơn. Phục
vụ cho việc giải quyết bài toán bóc tách dữ liệu từ văn bản.
Về mặt thực tiễn, ñề tài ñưa ra ñược phương pháp xây dựng một
ứng dụng xử lý ngôn ngữ dựa trên những công cụ xử lý ngôn ngữ tự
nhiên có sẵn và bước ñầu xây dựng ứng dụng minh họa.
6. Giải pháp
Để xây dựng ñược ứng dụng tìm kiếm tài liệu tiếng Việt, ñề tài
có thể có giải pháp như sau:
- Xây dựng Ontology tiếng Việt cho một số lĩnh vực nhằm
minh họa cho ứng dụng.
- Lựa chọn công cụ ñể xây dựng chú giải cho các văn bản tiếng
Việt dựa trên Ontology ñã có.
- Xây dựng ứng dụng tìm kiếm ngữ nghĩa dựa trên chú giải ñã
gán cho các văn bản tiếng Việt.
6
7. Cấu trúc của luận văn
Sau phần mở ñầu, luận văn gồm có 3 chương và phần kết luận.
Các chương của luận văn bao gồm:
- Chương 1, “Tổng quan về Web ngữ nghĩa”. Chương này
cung cấp cho chúng ta cái nhìn tổng quan về công nghệ Web
hiện tại và Web ngữ nghĩa. Phân biệt những ñiểm khác nhau
cơ bản giữa Web và Web ngữ nghĩa cũng như trình bày một
số ngôn ngữ, công cụ và công nghệ hiện có ñể xây dựng ứng
dụng Web ngữ nghĩa.
- Chương 2, “Ontology và phương pháp xây dựng
Ontology”. Chương này sẽ trình bày khái niệm, các
thành phần, ngôn ngữ, phương pháp và công cụ ñể xây
dựng Ontology .
- Chương 3, “Xây dựng ứng dụng tìm kiếm tài liệu tiếng
Việt”. Chương này sẽ mô tả các bước xây dựng ứng dụng tìm
kiếm tài liệu tiếng Việt và các kết quả chạy thử nghiệm.
Phần kết luận, tổng hợp các kết quả nghiên cứu của luận văn.
Các kết quả ñạt ñược, hạn chế của luận văn. Thông qua các kết quả
ñạt ñược của luận văn, ñề xuất hướng phát triển tiếp theo cho ñề tài.
7
Chương 1 - TỔNG QUAN
VỀ WEB NGỮ NGHĨA
1.1. Công nghệ Web hiện tại và những hạn chế
Khối lượng khổng lồ các tài nguyên trên Web làm nảy sinh vấn
ñề nghiêm trọng là làm thế nào ñể tìm kiếm chính xác tài nguyên
mình mong muốn. Dữ liệu trong các file HTML – ngôn ngữ trình bày
dữ liệu của công nghệ Web hiện tại- hữu ích trong một vài ngữ cảnh
nhưng vô nghĩa ñối với những ngữ cảnh khác. Thêm vào ñó HTML
không thể mô tả về dữ liệu ñóng gói trong nó. Hiện nay, hầu hết các
công cụ tìm kiếm tài liệu trên Web ñược coi là tìm kiếm hiệu quả
cũng chủ yếu tìm kiếm ñược trên bề nổi của Web . Trong khi ở tầng
sâu của Web chứa một khối lượng thông tin khổng lồ và thường rất
có giá trị cho các nhà nghiên cứu, các học giả hay ñơn thuần là những
người thích tìm hiểu. Bên cạch ñó, các trang Web hiện nay có rất ít
ñường liên kết với các trang Web khác nên việc tìm kiếm là khó
khăn. Ngoài ra, thông tin tìm kiếm ñược không theo chủ ñề mà chỉ là
vấn ñề tìm thoả theo từ khoá ñơn thuần, kết quả tìm kiếm phải do con
người chọn lại theo chủ ñề mong muốn.
Ví dụ, khi chúng ta biết tên một quốc gia và muốn tìm tên thủ
ñô của quốc gia ñó. Vì mỗi quốc gia có một thủ ñô khác nhau và
Web không biểu diễn ñược mối liên hệ này, nên chúng ta không nhận
ñược ñiều chúng ta mong ñợi. Trái lại, ñối với Semantic Web, chúng
ta có thể chỉ ra kiểu của mối liên hệ này; ví dụ, tên quốc gia có tên
thủ ñô tương ứng.
8
Vì vậy, nếu như các thành phần chính yếu của dữ liệu trong
Web trình bày theo dạng thức thông thường, thì rất khó sử dụng dữ
liệu này một cách phổ biến ñể có thể mô tả ñược mối quan hệ như
tương tự trên. Một thiếu sót của Web hiện nay là thiếu cơ cấu hiệu
quả ñể chia sẻ dữ liệu khi ứng dụng ñược phát triển một cách ñộc lập.
Do dó cần phải mở rộng Web ñể máy có thể hiểu, tích hợp dữ liệu,
cũng như tái sử dụng dữ liệu thông qua các ứng dụng khác nhau.
1.2. Web có ngữ nghĩa
Từ những hạn chế, vấn ñề về mặt khai thác dữ liệu của công
nghệ Web hiện tại ñã thúc ñẩy sự ra ñời của ý tưởng Web ngữ nghĩa
(Semantic Web ), một thế hệ mới của Web , mà chính cha ñẻ của
World Wide Web là Tim Berners-Lee ñề xuất vào năm 1998. Web
ngữ nghĩa là sự mở rộng của Web hiện tại mà trong ñó thông tin
ñược ñịnh nghĩa rõ ràng sao cho con người và máy tính có thể cùng
làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ
nghĩa là ñể phát triển các chuẩn chung và công nghệ cho phép máy
tính có thể hiểu ñược nhiều hơn thông tin trên Web , sao cho chúng
có thể hỗ trợ tốt hơn việc khám phá thông tin (thông tin ñược tìm
kiếm nhanh chóng và chính xác hơn), tích hợp dữ liệu (dữ liệu liên
kết ñộng), và tự ñộng hóa các công việc.
1.3. Kiến trúc của Web ngữ nghĩa
Web ngữ nghĩa là một tập hợp các ngôn ngữ. Tất cả các lớp
của Web ngữ nghĩa ñược sử dụng ñể ñảm bảo ñộ an toàn và khai
thác thông tin một cách tốt nhất.
9
Web ngữ nghĩa ñược xây dựng trên nền hệ thống web hiện tại. Web
ngữ nghĩa ñược coi là sự mở rộng của Web hiện tại có bổ sung thêm
ngữ nghĩa vào dữ liệu trên web. Hình 3 chỉ ra sơ ñồ kiến trúc của
Web ngữ nghĩa.
Hình 1.1: Kiến trúc của web ngữ nghĩa
1.4. Vai trò của các tầng trong Web ngữ nghĩa
1.4.1. Tầng ñịnh danh tài nguyên-URI
URI - Uniform Resource Identifier, URI ñơn giản chỉ là một
ñịnh danh Web giống như các chuỗi bắt ñầu bằng “http” hay “ftp” mà
bạn thường xuyên thấy trên mạng. Bất kỳ ai cũng có thể tạo một URI,
và có quyền sở hữu chúng.
10
1.4.2. Tầng XML và XML Schema
XML là một mở rộng của ngôn ngữ ñánh dấu cho các các
cấu trúc tài liệu bất kỳ.
1.4.3. Tầng RDF - RDF Schema
RDF (Resource Description Framework) là nền tảng của Web ngữ
nghĩa và xử lý metadata, ñược ñịnh nghĩa bởi tổ chức W3C. RDF
cho phép trao ñổi thông tin giữa các ứng dụng trên Web mà máy có
thể hiểu ñược.
1.4.4. Tầng Ontology
Ontology là một tập các khái niệm và quan hệ giữa các khái
niệm ñược ñịnh nghĩa cho một lĩnh vực nào ñó nhằm vào việc biểu
diễn và trao ñổi thông tin.
1.4.5. Tầng logic
Khai báo các nguyên tắc logic và cho phép máy tính suy diễn
(bằng cách suy luận) bằng cách dùng những nguyên tắc này.
1.4.6. Tầng Proof
Chúng ta sẽ xây dựng các hệ hiểu logic và dùng chúng ñể
chứng minh. Mọi người trên thế giới có thể viết các khai báo logic.
Sau ñó máy tính có thể theo những liên kết ngữ nghĩa này ñể kiểm
chứng.
1.4.7. Tầng Trust
Tầng này nhằm ñảm bảo tính tin cậy của các ứng dụng trên
Web ngữ nghĩa.
11
1.5. Các ngôn ngữ ñược sử dụng trong Web ngữ nghĩa
1.5.1. XML–Ngôn ngữ ñánh dấu mở rộng
XML là một ñặc tả cho các tài liệu mà máy tính ñọc ñược.
Đánh dấu có nghĩa là các chuỗi ký tự nào ñó trong tài liệu có chứa
thông tin chỉ ra vai trò nội dung của tài liệu. ñánh dấu mô tả sơ ñồ
dữ liệu của tài liệu và cấu trúc logic. Các ñánh dấu này làm thông
tin tự mô tả tùy vào cảm nhận. Các ñánh dấu này ñược mô tả
dưới dạng các từ trong dấu ngoặc nhọn hay còn gọi là tag.
1.5.2. RDF - Biểu diễn dữ liệu về dữ liệu
XML cung cấp cú pháp ñể mã hóa dữ liệu, RDF là một cơ cấu
chỉ ra ñiều gì ñó về dữ liệu. Như tên gọi, RDF là một mô hình ñể
biểu diễn dữ liệu về "mọi thứ trên Web".
1.5.2.1. Các khái niệm cơ bản
Namespace và cách khai báo
Qualified name (QName) và cách sử dụng
Mô hình RDF
Bộ ba RDF (RDF Tripple)
Đồ thị RDF
Dữ liệu nguyên thủy(Literal)
1.5.2.2. Cấu trúc RDF/XML
Cú pháp RDF/XML cơ bản
12
RDF Container
RDF Collection
1.5.2.3. Lược ñồ RDF- RDF Schema
- Định nghĩa class (lớp)
Các tài nguyên trên Web có thể chia thành các nhóm gọi là class.
Các thành viên ( member) của nhóm ñược xem như là thể hiện của
lớp ñó. Class cũng chính là tài nguyên. Nó ñược nhận ra thông qua
các ñịnh danh URI và có thể ñược mô tả bằng cách sử dụng các RDF
properties.
- Định nghĩa thuộc tính (property)
RDF Schema cũng cung cấp một bộ từ vựng ñể mô tả làm thế
nào mà các thuộc tính (property) và lớp (class) có thể ñược sử
dụng cùng với nhau trong dữ liệu RDF.
1.5.2.4. Truy vấn dữ liệu trong rdf
SPARQL là một ngôn ngữ ñể truy cập thông tin từ các ñồ thị
RDF. Nó cung cấp các tính năng sau:
- Trích thông tin trong các dạng của URI, các nút rỗng và các dữ
liệu nguyên thủy hay giá trị ñược ñịnh nghĩa từ dữ liệu nguyên
thủy.
- Trích thông tin từ các ñồ thị con.
- Xây dựng một ñồ thị RDF mới dựa trên thông tin trong ñồ thị
truy vấn.
13
Chương 2 - ONTOLOGY VÀ
PHƯƠNG PHÁP XÂY DỰNG ONTOLOGY
2.1. Giới thiệu Ontology
2.1.1. Khái niệm Ontology
Trong những năm gần ñây, thuật ngữ “Ontology” không chỉ
ñược sử dụng ở trong các phòng thì nghiệm trên lĩnh vực trí tuệ nhân
tạo mà ñã trở nên phổ biến ñối với nhiều miền lĩnh vực trong ñời
sống . Đứng trên quan ñiểm của ngành trí tuệ nhân tạo, một Ontology
là sự môt tả về những khái niệm và những quan hệ của các khái niệm
ñó nhằm mục ñích thể hiện một góc nhìn về thế giới. Trên miền ứng
dụng khác của khoa học, một Ontology bao gồm tập các từ vựng cơ
bản hay một tài nguyên trên một miền lĩnh vực cụ thể, nhờ ñó những
nhà nghiên cứu có thể lưu trữ, quản lý và trao ñổi tri thức cho nhau
theo một cách tiện lợi nhất.
Hiện nay tồn tại nhiều khái niệm về Ontology, trong ñó có
nhiều khái niệm mâu thuẫn với các khác niệm khác, khóa luận này
chỉ giới thiệu một ñịnh nghĩa mang tính khái quát và ñược sử dụng
khá phổ biến ñược Kincho H. Law ñưa ra: “Ontology là biểu hiện
một tập các khái niệm (ñối tượng), trong một miền cụ thể và những
mối quan hệ giữa các khái niệm này”. Ontology chính là sự tổng hợp
của một tập từ vựng chia sẻ và các miêu tả ý nghĩa của từ ñó theo
cách mà máy tính hiểu ñược.
14
2.1.2. Các thành phần của Ontology
Lớp (class) là một bộ những thực thể, các thực thể ñược mô tả
logic ñề ñịnh nghĩa các ñối tượng của lớp; lớp ñược xây dựng theo
cấu trúc phân cấp cha con như là một sự phân loại các ñối tượng.
Thực thể ñược xem là thể hiện của một lớp, làm rõ hơn về lớp ñó và
có thể ñược hiểu là một ñối tương nào ñó trong tự nhiên (England,
Manchester United, bệnh sởi, thủy ñậu…).
Thuộc tính (Property) thể hiện quan hệ nhị phân của các thực
thể (quan hệ giữa hai thực thể) như liên kết hai thực thể với nhau. Ví
dụ thuộc tính “làm cho” liên kết hai thực thể “người” và “công ty”
với nhau.
Thuộc tính (property) có 4 loại (1) Functional: Một thực thể chỉ
liên quan nhiều nhất ñến một thực thể khác, ví dụ thuộc tính “có
hương vị” ñối với các thực thể lớp “thức_ăn”; (2) Inverse Functional:
Thuộc tính ñảo ngược của Functional, thuộc tính “là hương vị của”;
(3) Transitive: Thực thể a quan hệ với thực thể b, thực thể b quan hệ
với thực thể c thì thực thể a quan hệ với thực thể c; (4) Symmetric:
Thực thể a quan hệ với thực thể b thì thực thể b quan hệ với thực thể
a.
Thuộc tính có 3 kiểu thể hiện:
- Object Property: Liên kết thực thể này với thực thể khác
- DataType Property: Liên kết thực thể với kiểu dữ liệu XML
Schema, RDF literal
- Annotation Property: Thêm các thông tin metadata về lớp,
thuộc tính hay thực thể khác thuộc 2 kiểu trên.
15
2.1.3. Một số công trình liên quan tới xây dựng Ontology
Ngày nay, Ontology ñược sử dụng rất nhiều trong các lĩnh vực
liên quan ñến ngữ nghĩa như trí tuệ nhân tạo (AI), semantic web, kĩ
nghệ phần mềm, v.v… Vì những ứng dụng của Ontology nên không
chỉ riêng Việt Nam, trên thế giới ñã có nhiều dự án tập trung xây
dựng Ontology ñối với từng miền dữ liệu khác nhau và phục vụ cho
nhiều mục ñích ña dạng khác nhau. Đối với miền dữ liệu y tế có thể
kể tới rất nhiều Ontology trong lĩnh vực y tế, sinh học ñã ñược ñưa ra
bởi tổ chức The National Center for Biomedical Ontology. Dự án
này ñã ñưa ra ñược rất nhiều Ontology trong y tế cũng như trong
sinh học, ví dụ như Ontology về cell type, Gene, FMA, Human
disease…danh sách các Ontology ñưa ra ñược hiển thị trong.
Ngoài ra có thể kể tới Disease Ontology là một tập từ về y
khoa ñược phát triển tại Bioinformatics Core Facility cùng với sự
cộng tác của dự án NuGene Project tại trung tâm Center for Genetic
Medicine. Ontology này ñược thiết kế với mục ñích sắp xếp các bệnh
và các ñiều kiện tương ứng ñối với những code về y tế cụ thể như là
ICD9CM, SNOMED và những cái khác….Disease Ontology cũng
ñược sử dụng ñể liên kết những kiểu hình sinh vật mẫu ñối với các
bệnh của con người cũng như trong việc khai phá dữ liệu y học.
Disease Ontology ñược thực hiện như là một ñồ thị xoắn có hướng và
sử dụng UMLS (Unified Medical Language System) là tập từ vựng
ñể truy cập các Ontology về y tế khác như ICD9CM.
Một ontology tiếng Anh ñược ñề cập rất nhiều trong lĩnh vực y
tế trong thời gian gần ñây ñó là GENIA. Mục ñích chính mà ontology
này hướng tới ñó là sự phản ứng lại của tế bào trong não người.
16
Ontology này chủ yếu tập trung trong các lĩnh vực y tế và cũng ñược
sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên: truy hồi thông
tin (Information Retrieval – IR), trích chọn thông tin, phân lớp và
tóm tắt văn bản.
DBpedia Ontology là một ontology tổng quát, bao trùm nhiều
lĩnh vực. Ontology này ñược tạo ra bằng cách lấy thông tin phổ biến
trên Wikipedia và xây dựng lại một cách thủ công. Hiện nay,
DBpedia ñã có hơn 320 lớp phân cấp bao gồm nhiều lĩnh vực ñược
mô tả bởi hơn 1650 thuộc tính khác nhau.
2.2. Phương pháp xây dựng Ontology
2.2.1. Xây dựng Ontology
Ngày nay, việc nghiên cứu quá trình xây dựng ontology ngày
càng ñược quan tâm nhiều hơn. Có rất nhiều nhóm sau quá trình
nghiên cứu ñã ñưa ra các phương pháp khác nhau nhằm xây dựng
Ontology.
Nội dung chương này sẽ ñề cập ñến một số nguyên tắc cơ bản
của việc xây dựng Ontology qua các các công ñoạn cụ thể sau ñây:
Các bước cụ thể như sau:
- Bước 1, xác ñịnh miền quan tâm và phạm vi của Ontology
- Bước 2, xem xét việc kế thừa các Ontology có sẵn
- Bước 3, liệt kê các thuật ngữ quan trọng trong Ontology
- Bước 4, xây dựng các lớp và cấu trúc lớp phân cấp
17
- Bước 5, ñịnh nghĩa các thuộc tính và quan hệ cho lớp
- Bước 6, ñịnh nghĩa các ràng buộc về thuộc tính và quan hệ
của lớp
- Bước 7, tạo các thực thể cho lớp
2.2.2. Ngôn ngữ xây dựng Ontology
Hiện tại, các ngôn ngữ xây dựng ontology (ngôn ngữ ontology)
ñiển hình bao gồm LOOM, LISP, Ontolingua, XML, SHOE, OIL,
DAML+OIL và OWL.
2.2.2.1. RDFS (RDF-Schema)
RDFS là một ngôn ngữ Ontology cơ bản. Nó ñược phát triển ở
tầng trên của RDF cho nên bản thân RDF-Schema cũng chính là
RDF, nó ñược mở rộng từ RDF và bổ sung thêm các tập từ vựng ñể
hỗ trợ cho việc xây dựng các Ontology ñược dễ dàng.
2.2.2.2. OWL (Ontology Web Language)
OWL là ngôn ngữ ontology khá mạnh, nó ra ñời sau RDFS nên
biết kế thừa những lợi thế của ngôn ngữ này ñồng thời bổ sung thêm
nhiều yếu tố giúp khắc phục ñược những hạn chế của RDFS. OWL
giúp tăng thêm yếu tố logic cho thông tin và khả năng phân loại.
2.2.2.3. DAML + OIL
DAML+ OIL ra ñời nhằm khắc phục những hạn chế về kiểu dữ
liệu trong các ngôn ngữ Ontology trước ñó là RDF, RDFS. DAML +
OIL (gọi tắt là DAML) là ngôn ngữ ñánh dấu cho các tài nguyên trên
Web, có hỗ trợ suy luận.
18
2.2.3. Công cụ xây dựng Ontology
Về mặt lý thuyết, người xây dựng và quản trị Ontology có thể
không cần các công cụ hỗ trợ, thay vào ñó có thể thực hiện trực tiếp
bằng các ngôn ngữ. Tuy nhiên, cách thứ hai sẽ không khả thi khi
Ontology có kích thước lớn và cấu trúc phức tạp. Thêm vào ñó, việc
xây dựng và quản trị Ontology không chỉ ñòi hỏi việc tạo cấu trúc lớp
phân cấp, ñịnh nghĩa các thuộc tính, ràng buộc.., mà còn bao hàm việc
giải quyết các bài toán liên quan trên nó. Có rất nhiều bài toán liên quan
ñến một hệ thống Ontology như:
- Trộn hai hay nhiều Ontology.
- Chuẩn ñoán và phát hiện lỗi.
- Kiểm tra tính ñúng ñắn và ñầy ñủ.
- Ánh xạ qua lại giữa các Ontology.
- Suy luận trên Ontology.
- Sao lưu và phục hồi một Ontology.
- Xóa, sửa và tinh chỉnh các thành bên trong Ontology.
- Tách biệt Ontology với ngôn ngữ sử dụng (DAML, OWL,..).
Những khó khăn trên ñã khiến các công cụ trở thành một thành
phần không thể thiếu, quyết ñịnh ñến chất lượng của một hệ thống
Ontology. Hiện có rất nhiều công cụ có khả năng hỗ trợ người thiết kế
giải quyết những bài toán liên quan. Có thể kể ra một số như: Sesame,
Protégé, Ontolingua, Chimaera, OntoEdit, OidEd..
19
Nội dung phần này sẽ