Thư viện xuất hiện từ khi loài người có nhu cầu cần lưu giữ thông tin. Ngày trước, xử lý thư viện chỉ đơn giản chỉ là nơi tàng trữ và phổ biến tài liệu (in trên giấy) đáp ứng nhu cầu đọc có tính chất tập thể và xã hội. Vốn tài liệu đó đòi hỏi phải bảo quản, xử lý theo nguyên tắc phù hợp với tính chất vật lý của giấy. Ngày nay, việc tin học hóa hoạt động thông tin thư viện đã làm thay đổi phương thức hoạt động của thư viện, từ thu nhâp, xử lý, lưu giữ thông tin phục vụ bạn đọc, đáp ứng nhu cầu ngày càng tăng của người dùng tin.
Đối với các thư viện truyền thống, sự bùng nổ Internet rõ ràng là đã đánh dấu một bước đột phá lớn về công nghệ. Sự đột phá này đã làm cho các thư viện tăng cường sử dụng kỹ thuật số, tạo điều kiện đổi mới nhưng đông thời cũng làm tăng thêm nỗi băn khoăn về việc tiếp tục các dịch vụ truyền thống.
Khái niệm thư viện số cho thấy “ một hệ thống thông tin trong đó tất cả các nguồn thông tin đều có sẵn dưới dạng có thể xử lý được bằng máy tính và trong đó tất cả các chức năng bổ sung, lưu trữ, bảo quản, tìm kiếm, truy nhập và hiện hình đều sử dụng kỹ thuật số”. Sự xuất hiện khái niệm này có liên quan trực tiếp tới sự bùng nổ Internet và với khả năng công nghệ xử lý và truy cập thông tin do website mang lại. Môi trường kỹ thuật Internet hiện nay thậm chí còn cho phép coi toàn thể các nguồn mạng một lúc nào đó như là một thư viện số ảo toàn cầu mà độc giả là toàn thể những người sử dụng Internet trên hành tinh này.
48 trang |
Chia sẻ: tuandn | Lượt xem: 2347 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng Website thư viện điện tử, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA CÔNG NGHỆ THÔNG TIN
Tel. (84-511) 3736 949, Fax. (84-511) 842 771
Website: itf.ud.edu.vn, E-mail: cntt@ud.edu.vn
LUẬN VĂN TỐT NGHIỆP KỸ SƯ
NGÀNH CÔNG NGHỆ THÔNG TIN
MÃ NGÀNH: 05115
ĐỀ TÀI:
XÂY DỰNG WEBSITE THƯ VIỆN ĐIỆN TỬ
Mã số: 04T4-001
Ngày bảo vệ: 16,17/06/2009
SINH VIÊN : NGUYỄN NHƯ BẢO
LỚP : 04T4
CBHD : Ts. NGUYỄN THANH BÌNH
ĐÀ NẴNG, 06/2009
LỜI CẢM ƠN
Luận văn tốt nghiệp đánh dấu bước ngoặt lớn trong mỗi cuộc đời sinh viên; để hoàn thành tốt đề tài luận văn tốt nghiệp này, em đã nhận được sự chỉ bảo, hướng dẫn tận tình từ phía các Thầy Cô giảng viên khoa Công Nghệ Thông Tin trường Đại học Bách Khoa, Đại học Đà Nẵng; sự giúp đỡ to lớn từ phía bạn bè đồng nghiệp và gia đình.
Đầu tiên, em xin cảm ơn tất cả các Thầy, Cô giảng viên của trường Đại học Bách Khoa, Đại học Đà Nẵng - những người đã dạy dỗ, truyền đạt kiến thức cho em trong suốt quãng thời gian em ngồi học trên ghế giảng đường; những người đã làm tăng thêm trong em niềm yêu thích tin học. Đặc biệt, em xin chân thành cảm ơn Thầy giáo Tiến sĩ Nguyễn Thanh Bình đã định hướng, tận tình hướng dẫn góp ý để em có thể hoàn thành đúng thời gian, đúng nội dung và đúng yêu cầu đặt ra của luận văn tốt nghiệp.
Thứ hai, em xin cảm ơn công ty Cổ phần giải pháp Tin học IFI-480 Trưng Nữ Vương-Đà Nẵng đã tạo mọi điều kiện để em hoàn thành tốt đợt thực tập, để rồi sau đó em tiếp tục phát triển làm luận văn tốt nghiệp.
Tiếp theo, em xin cảm ơn những người bạn, người anh, những người đã giúp đỡ em nhiệt tình xuyên suốt trong quá trình hoàn thành luận văn này.
Và cuối cùng, không thể thiếu trong lời cảm ơn này là bố mẹ và gia đình. Cảm ơn mọi người đã ở bên cạnh con, động viên, tạo mọi điều kiện tốt nhất để bản thân con có thể hoàn thành tốt luận văn này.
Mặc dù đã cố gắng hết sức, nhưng vì khả năng và thời gian có hạn, đề tài nghiên cứu chắc chắn còn có nhiều khiếm khuyết. Rất mong các Thầy, Cô giáo chỉ bảo giúp đỡ. Rất mong sự góp ý từ phía bạn bè và đồng nghiệp.
LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của thầy Ts. Nguyễn Thanh Bình.
Mọi tham khảo dùng trong luận văn này đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá,tôi xin chịu hoàn toàn trách nhiệm.
Sinh viên,
Nguyễn Như Bảo
NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN
NHẬN XÉT CỦA CÁN BỘ DUYỆT
MỤC LỤC
CÁC TỪ VIẾT TẮT
XML Ngôn ngữ định dạng mở rộng
(eXtensible Makup Language)
CSDL Cơ sở dữ liệu
(Database)
W3C Tổ chức độc lập định ra tiêu chuẩn cho trình duyệt Web, máy chủ và ngôn ngữ
(World Wide Web Consortium)
FDS Flex Data Service
CHƯƠNG 1
MỞ ĐẦU
Giới thiệu bối cảnh đề tài
Thư viện xuất hiện từ khi loài người có nhu cầu cần lưu giữ thông tin. Ngày trước, xử lý thư viện chỉ đơn giản chỉ là nơi tàng trữ và phổ biến tài liệu (in trên giấy) đáp ứng nhu cầu đọc có tính chất tập thể và xã hội. Vốn tài liệu đó đòi hỏi phải bảo quản, xử lý theo nguyên tắc phù hợp với tính chất vật lý của giấy. Ngày nay, việc tin học hóa hoạt động thông tin thư viện đã làm thay đổi phương thức hoạt động của thư viện, từ thu nhâp, xử lý, lưu giữ thông tin phục vụ bạn đọc, đáp ứng nhu cầu ngày càng tăng của người dùng tin.
Đối với các thư viện truyền thống, sự bùng nổ Internet rõ ràng là đã đánh dấu một bước đột phá lớn về công nghệ. Sự đột phá này đã làm cho các thư viện tăng cường sử dụng kỹ thuật số, tạo điều kiện đổi mới nhưng đông đồng
thời cũng làm tăng thêm nỗi băn khoăn về việc tiếp tục các dịch vụ truyền thống.
Khái niệm thư viện số cho thấy “ một hệ thống thông tin trong đó tất cả các nguồn thông tin đều có sẵn dưới dạng có thể xử lý được bằng máy tính và trong đó tất cả các chức năng bổ sung, lưu trữ, bảo quản, tìm kiếm, truy nhập và hiện hình đều sử dụng kỹ thuật số”. Sự xuất hiện khái niệm này có liên quan trực tiếp tới sự bùng nổ Internet và với khả năng công nghệ xử lý và truy cập thông tin do website mang lại. Môi trường kỹ thuật Internet hiện nay thậm chí còn cho phép coi toàn thể các nguồn mạng một lúc nào đó như là một thư viện số ảo toàn cầu mà độc giả là toàn thể những người sử dụng Internet trên hành tinh này.
Theo quyết định phê duyệt Quy hoạch phát triển ngành Thư viện Việt Nam tới năm 2010 và định hướng phát triển tới năm 2020 của Bộ Văn hóa – Thông tin có đoạn: “Ứng dụng khoa học công nghệ cao nhằm tự động hóa, hiện đại hóa trong khâu hoạt động của thư viện. Phát triển thư viện điện tử và thư viện kỹ thuật số”; đồng thời cùng với nhu cầu học tập mọi lúc mọi nơi của mọi người đã thúc đẩy em xây dựng website Thư viện điện tửđịnh dạng
”.
Ý nghĩa và mục đích của đề tài
Tên đề tài: “Xây dựng website Thư viện điện tử”
Đây là hệ thống hỗ trợ các thành viên của website có thể lưu trữ tài liệu, sách điện tử trực tuyến; cũng như khả năng tải về máy các tri thức trực tuyến mọi lúc, mọi nơi
Nhiệm vụ phải thực hiện
Mục tiêu nghiên cứu
Xây dựng cây mục tiêu như sau
Xây dựng website Thư viện điện tử
Tìm hiểu nghiệp vụ thư viện
Tìm hiểu kiến trúc Cairngorm
Tìm hiểu cách thức tổ chức, vận hành website
Xây dựng ứng dụng
Ô này nghĩa là gì ?
Cách thức tổ chức phân cấp theo XML
Xây dựng CSDL quan hệ
Liên lạc giữa client và server
Xây dựng tài liệu đặc tả
Phân tích thiết kế hướng đối tượng
C
o
d
i
n
g
Cách thức tổ chức, cấu trúc file
Ngôn ngữ Flex
Cách thức hoạt động của thư viện
Hoàn thiện 1 demo
Hình 1: Cây mục tiêu đề tài
Nhiệm vụ phải thực hiện
Mục tiêu nghiên cứu
Xây dựng cây mục tiêu như saucây mục tiêu này trình bày lặp lại !
Xây dựng website Thư viện điện tử
Tìm hiểu nghiệp vụ thư viện
Tìm hiểu kiến trúc Cairngorm
Tìm hiểu cách thức tổ chức, vận hành website
Xây dựng ứng dụng
Cách thức tổ chức phân cấp theo XML
Xây dựng CSDL quan hệ
Liên lạc giữa client và server
Xây dựng tài liệu đặc tả
Phân tích thiết kế hướng đối tượng
C
o
d
i
n
g
Cách thức tổ chức, cấu trúc file
Ngôn ngữ Flex
Cách thức hoạt động của thư viện
Hoàn thiện 1 demo
Hình 1: Cây mục tiêu đề tài
Kết quả dự kiến
Nắm vững các đặc trưng của tài liệu XML và ngôn ngữ Flex.
Nắm vững mô hình kiến trúc cairngormnên viết hoa chữ C
.
Cơ bản hiểu rõ về nghiệp vụ thư viện.
Xây dựng ứng dụng website dựa trên tài liệu đặc tả.
Tóm tắt phương pháp triển khai
Tìm hiểu cơ bản về nghiệp vụ thư viện.
Tìm hiểu ngôn ngữ Flex, mô hình kiến trúc cairngorm chủ yếu là trên internetnên viết hoa chữ I
.
Tìm hiểu phương pháp kỹ thuật để kết nối giữa client và server.
Xây dựng tài liệu đặc tả website.
Xây dựng hoàn thiện website dựa trên tài liệu đặc tả.
Bố cục trình bày
Chương 1 (Giới thiệu): giới thiệu bối cảnh đề tài. Chọn tên đề tài, mục đích và ý nghĩa của đề tài. Nhiệm vụ phải thực hiện (các mục tiêu nghiên cứu cụ thể và kết quả dự kiến). Tóm tắt phương pháp triển khai, tóm tắt nội dung, bố cục sẽ trình bày.
Chương 2 (Cơ sở lý thuyết):
Chương 3 (Phân tích và thiết kế hệ thống):
Chương 4 (Phát triển ứng dụng):
Chương 5 (Kết luận và hướng phát triển):
nên giới thiệu ngắn gọn nội dung mỗi chương
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT
Tổng quan về XML
XML là gì?
XML là ngôn ngữ tạo cấu trúc dữ liệu văn bản được phát triển từ đầu năm 1996 dựa theo và tận dụng những điểm mạnh của chuẩn SGML (Standard Generalized Markup Language: được coi như là siêu ngôn ngữ có khả năng sinh ngôn ngữ khác), cùng những kinh nghiệm có được từ ngôn ngữ HTML (HyperText Markup Language). SGML phát triển cho việc định cấu trúc và nội dung tài liệu điện tử do tổ chức ISO (International Organization for Standardization) chuẩn hóa năm 1986.
SGML là do IBM đưa ra nhưng được phát triển bởi W3C (World Wide Web Consortium: tổ chức độc lập định ra tiêu chuẩn cho định dạng Web, máy chủ và ngôn ngữ), nhưng đặc tả XML lại do Netscape, Microsoft và các thành viên dự án Text Encoding Intiative (TEI) xây dựng. Tổ chức W3C XML Special Interest Group có đại diện từ hơn 100 công ty cùng nhiều chuyên gia được mời khác. W3C chính thức thông qua chuẩn XML vào tháng 2/1998.
XML là một hệ thống có luật dùng cho việc thiết kế các khổ mẫu (format) cho văn bản giúp tạo cấu trúc cho dữ liệu. Trong thực tế XML không phải là một ngôn ngữ lập trình, XML giúp máy tính dễ dàng tạo dữ liệu, đọc dữ liệu, trao đổi dữ liệu và làm cho cấu trúc dữ liệu trở nên rõ ràng và dễ hiểu hơn, ngoài ra XML còn có thể mở rộng, có nền tảng hoàn toàn độc lập và hỗ trợ tính quốc tế hóa, nội địa hóa. XML hỗ trợ hoàn toàn unicode.
Đặc điểm của XML
XML cung cấp một phương tiện dùng văn bản (text) để mô tả thông tin và áp dụng một cấu trúc kiểu cây cho thông tin đó. Cơ bản mọi thông tin đều thể hiện dưới dạng văn bản, chen giữa là các thẻ đánh dấu (markup) với nhiệm vụ ký hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và các thuộc tính của các phần tử đó. Về mặt nào đó, XML tương tự với các biểu thức S (S-expression) của ngôn ngữ lập trình LISP ở chỗ chúng đều mô tả các cấu trúc cây mà trong đó mỗi nút có thể có một danh sách tính chất của riêng mình.
Đơn vị cơ sở của XML là các ký tự theo định nghĩa của bộ ký tự toàn cầu (Universal Character Set). Các ký tự được kết hợp theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều thực thể, mỗi thực thể mỗi thực thể thường là một phần nào đó của các ký tự thuộc tài liệu, được mã hóa dưới dạng một chuỗi các bit và lưu trữ trong một tệp văn bản (text file).
Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện. RFC3023 định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ liệu được biểu diễn bằng XML mà không nói gì đến ngữ nghĩa của dữ liệu.
Sự phổ biến của các phần mềm soạn thảo văn bản (word processor) đã hỗ trợ việc soạn thảo và bảo trì tài liệu XML một cách nhanh chóng. Trước XML, có rất ít ngôn ngữ mô tả dữ liệu với các đặc điểm đa năng, thân thiện với giao thức Internet, dễ học và dễ tạo. Thực tế, đa số các định dạng trao đổi dữ liệu thời đó đều chuyên dụng, có tính độc quyền, và có định dạng nhị phân (chuỗi bit thay vì chuỗi ký tự) khó dùng chung giữa các ứng dụng phần mềm hay giữa các nền (platform) khác nhau. Việc tạo và bảo trì trên các trình soạn thảo thông dụng lại càng khó khăn.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc. Ý nghĩa của các phần tử và thuộc tính có tính chất mở, có thể được định nghĩa bởi một giản đồ tùy biến được. XML cung cấp một cơ sở cú pháp cho việc tạo lập các ngôn ngữ đánh dấu dựa theo yêu cầu XML. Cú pháp chung của các ngôn ngữ đó là cố định, các tài liệu phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích cú pháp – parse) và hiểu bố cục tương đối của thông tin trong các tài liệu đó. Giản đồ chỉ bổ sung một tập các ràng buộc cho các quy tắc cú pháp. Các giản đồ thường hạn chế tên của phần tử, thuộc tính và các cấu trúc thứ bậc được phép. Ví dụ, chỉ cho phép một phần tử tên “ngày sinh” chứa một phần tử tên “ngày” và một phần tử có tên “tháng”, mỗi phần tử phải chứa đúng một ký tự. Đây là điểm khác biệt giữa XML và HTML. HTML có một bộ các phần tử và thuộc tính không mềm dẻo, chỉ có một tác dụng và nói chung là không thể dùng cho mục đích khác.
XML không hạn chế về việc nó được sử dụng như thế nào. Mặc dù XML về cơ bản là dạng văn bản, các phần mềm với chức năng trừu tượng hóa nó thành các định dạng khác, giàu thông tin hơn đã nhanh chóng xuất hiện, quá trình trừu tượng hóa này được thực hiện chủ yếu qua việc sử dụng các giản đồ định hướng kiểu dữ liệu (datatype-oriented schema) và khuôn mẫu lập trình hướng đối tượng (mà trong đó, mỗi tài liệu XML được thao tác như là một đối tượng). Những phần mềm như vậy có thể coi XML như là dạng văn bản đã được tuần tự hóa chỉ khi nó cần truyền dữ liệu qua mạng.
Lược đồ XML
Để định nghĩa kiểu tài liệu cho XML, ngoài DTD ta còn dùng lược đồ (schema).
Một nhóm những nhà cung cấp kể cả Microsoft đã có kế hoạch đưa ra một sự (tiếp cận thay thế DTD được gọi là lược đồ mà họ đã đệ trình lên W3C dưới dạng XML-Data giống như một DTD, một lược đồ cung cấp những qui tắc của một tài liệu và chỉ ra những nhãn nào được sử dụng, các thuộc tính của chúng là gì mối quan hệ giữa các nhãn với nhau...
Tuy nhiên, khác với DTD một lược đồ có thể định nghĩa nên những kiểu dữ liệu. Ví dụ: một DTD có thể có một nhãn được chỉ định dạng nhưng nội dung được chứa trong nhãn có thể là một số hoặc một chuỗi ký tự. Một lược đồ có thể bắt buộc chúng ta phải nhập vào một số. Cách tiếp cận này rõ ràng có lợi đặc biệt đối với việc trao đổi dữ liệu giữa các ứng dụng, các đối tượng hoặc những CSDL. Vấn đề đặt ra duy nhất là liệu nó sẽ bị ảnh hưởng theo đặc điểm kỹ thuật của DTD hay kết quả là một sự mở rộng riêng biệt đến XML.
Mô hình cài đặt lược đồ XML theo Microsoft: là một tài liệu XML bắt đầu bằng một phần tử . Lược đồ cho phép định nghĩa và khai báo kiểu dữ liệu thực sự mà tài liệu sử dụng. Các kiểu dữ liệu dùng với không gian tên đối tượng đã được định nghĩa sẵn. Để định nghĩa phần tử XML trong lược đồ ta dùng phần tử khai báo , còn để khai báo các phần tử con ta dùng . Thuộc tính eltOnly cho biết chỉ chứa phần tử thẻ. Các thuộc tính minOccurs và maxOccurs cho biết số lần xuất hiện của thẻ trong tài liệu.
Mô hình cài đặt lược đồ XML theo W3C: tập tin lược đồ có dạng filename.xsd. Khai báo không gian tên cho tài liệu tham chiếu đến tập tin lược đồ theo địa chỉ URL như sau:
Trong tài liệu XML, phần tử chứa các phần tử con có thêm thuộc tính gọi là kiểu phức (complex types), chỉ chứa dữ liệu đơn giản như chuỗi, ngày tháng, số gọi là kiểu đơn (simple types). Bản thân thuộc tính được xem là kiểu đơn. Tập tin lược đồ phải được thiết kế hợp khuôn dạng tuân theo cấu trúc XML. Trước hết ta định nghĩa không gian tên xsd cho lược đồ vào định danh duy nhất theo địa chỉ URL:
Không gian tên này sẽ được dùng cho khai báo thẻ và thuộc tính, ví dụ: , hay . Để tạo ra kiểu dữ liệu, có thể dùng thẻ cho kiểu phức, cho kiểu đơn hay cho kiểu chú giải trong lược đồ.
Khai báo các phần tử và kiểu dữ liệu: các kiểu dữ liệu đơn đã được định nghĩa sẵn. Để tạo một kiểu phức, ta dùng thẻ . Sau đó khai báo các phần tử sử dụng kiểu vừa tạo. Để chỉ định số lần xuất hiện các phần tử, ta dùng các thuộc tính minOccurs và maxOccurs. Để chỉ định giá trị mặc định cho phần tử, có thể sử dụng thuộc tính fixed và default của khai báo .
Chỉ định ràng buộc và trị mặc định cho thuộc tính: có thể chỉ định kiểu cho thuộc tính (không có kiểu phức hợp). Một số tùy chọn cho thuộc tính và giá trị gán cũng được sử dụng.
Tạo các kiểu đơn giản: có thể tự định nghĩa các kiểu đơn, nhưng nó phải dựa trên kiểu nội tại của đặc tả XML. Ta có thể tạo kiểu đơn thông qua giới hạn kiểu. Các thành phần giới hạn là minInclusive, maxInclusive, pattern và giới hạn kiểu liệt kê enumeration. Cũng có thể sử dụng các định nghĩa kiểu vô danh (anonymous type definition) bằng cách kèm theo phần tử hoặc bên trong khai báo , khi đó ta không cần gán giá trị tường minh cho thuộc tính type trong .
XML và HTML
Trong thực tế bản thân ngôn ngữ XML có nguồn gốc giống như ngôn ngữ định dạng siêu văn bản HTML (HyperText Markup Language) từ chuẩn ngôn ngữ định dạng văn bản tổng quát có cấu trúc SGML. Mỗi văn bản XML cũng sử các thẻ (tags), các từ được đặt trong ngoặc với ‘’ (mở và đóng) và dùng thuộc tính tên gọi của các phần tử (element) với mẫu name= “value”.
Trong khi HTML đặc biệt chú ý tới từng thẻ (tag) và thuộc tính (attribute) có ý nghĩa gì và phần văn bản giữa các thẻ đó hiển thị như thế nào trên trình duyệt thì XML sử dụng các thẻ chỉ để phân định ranh giới giữa các đoạn dữ liệu và coi việc đọc và xử lý dữ liệu hoàn toàn là nhiệm vụ của các ứng dụng. Nhưng khác với ngôn ngữ HTML, số lượng và tên gọi các phần tử trong XML là không hạn chế.
XML là một văn bản nhưng không giống với những loại văn bản thông thường mà ta có thể đọc được. Các chương trình dùng để tạo các dữ liệu được cấu trúc hóa thông thường được lưu dữ liệu trên đĩa cứng, sử dụng khuôn dạng text hay nhị phân. Một thuận lợi của khuôn dạng văn bản là cho phép người đọc có thể đọc nó với bất kỳ bộ soạn thảo văn bản nào tùy thích. Các khuôn dạng văn bản cũng cho phép tìm lỗi dễ dàng hơn trong các ứng dụng. Giống như HTML các file XML là những file văn bản được tạo ra không phải với mục đích đề đọc, nhưng vẫn có thể đọc nếu thấy cần thiết. Tuy nhiên XML có điểm không bằng HTML, các luật dùng trong XML rất hạn chế, chỉ cần quên một thẻ, hay một thuộc tính không đi kèm với nội dung sẽ làm cho toàn bộ file XML đó ngừng hoạt động, trong khi đó lỗi này ở file HTML có thể được bỏ qua.
XML được xem như là ngôn ngữ mạnh hơn HTML do nó mang lại thông tin đầy đủ về dữ liệu. XML cung cấp “siêu dữ liệu” metadata hay còn được gọi là “dữ liệu về dữ liệu” (data about data). XML cho phép các nhà phát triển và quản trị công nghệ thông tin mô tả thông tin có liên quan tới các nguồn thông tin khác. Đây là phương pháp khai thác thông tin lý tưởng trong môi trường trao đổi thông tin từ các máy chủ ứng dụng cũng như từ các ứng dụng với nhau. Cấu trúc chặt chẽ của XML (nội dung được đặt giữa các thẻ metadata) cho phép các ứng dụng dễ dàng tìm kiếm và sử dụng nội dung đã tạo. Môi trường tài liệu XML trở thành một kho dữ liệu hỏi-đáp (query data repository) tương tự như cơ sở dữ liệu. Ngôn ngữ XML là giải pháp tích hợp cho vấn đề trao đổi dữ liệu tự động giữa các kho thông tin trên mạng Internet.
Một biểu ghi XML đơn giản có dạng như sau:
encoding="utf-8" standalone="yes"?>
Kinh tế học vi mô
Ngô Đình Giao
Kinh tế vĩ mô
Thống kê
2006
Chuẩn trao đổi các dữ liệu trên Internet hiện nay đã được tổ chức tiêu chuẩn quốc gia của Mỹ thông qua nhằm thay thế cho các chuẩn cũ không còn phù đó là chuẩn ANSI/NISO Z39.85-2001.
Siêu dữ liệu - Metadata
Siêu dữ liệu là gì?
Siêu dữ liệu dùng để mô tả tài nguyên thông tin. Thuật ngữ “meta” xuất xứ là một từ Hy Lạp đùng để chỉ một cái gì đó có bản chất cơ bản hơn hoặc cao hơn. Vì vậy metadata là dữ liệu về dữ liệu.
Theo tiến sĩ Warwick Cathro (Thư viện Quốc gia Úc) thì “siêu dữ liệu là những thành phần mô tả tài nguyên thông tin hoặc hỗ trợ thông tin truy cập đến tài nguyên thông tin”. Cụ thể trong tài liệu thì siêu dữ liệu được xác định là “dữ liệu mô tả các thuộc tính của đối tượng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh và tổ chức. Siêu dữ liệu còn có thể được định nghĩa là dữ liệu có cấu trúc về dữ liệu”.
Theo Gail Hodge siêu dữ liệu là “thông tin có cấu trúc mà nó mô tả, giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiếm, sử dụng và quản lý hơn. Siêu dữ liệu được hiểu là dữ liệu về dữ liệu hoặc thông tin về thông tin”
Nói tóm lại thì siêu dữ liệu là thông tin mô tả tài nguyên thông tin.
Mục đích đầu tiên và yêu cầu cốt lõi nhất của siêu dữ liệu (metadata) là góp phần mô tả và tìm lại các tài liệu điện tử trên mạng Internet. Sự phát triển mạnh mẽ của Internet đã tạo ra sự bùng nổ của các loại dữ liệu đa dạng ở dạng số, văn bản, âm thanh, hình ảnh, tài liệu đa phương tiện. Những tài liệu này có thể truy cập được trên mạng Internet song việc tìm kiếm chúng một cách hiệu quả và khoa học như với các hệ thống thông tin trực tuyến là hết sức khó khăn. Để góp phần tăng cường chất lượng tìm kiếm các tài liệu số trên mạng Internet, người ta đã đưa ra giải pháp sử dụng siêu dữ liệu.
Thực ra trong hoạt động thông tin – thư viện truyền thống, từ lâu đã có những khái niệm liên quan đến siêu dữ liệu. Các bản thư mục chứa các dữ liệu mô tả đối tượng như cho sách , cho tạp chí thì chúng cũng được coi như là một dạng siêu dữ liệu. Với việc tự động hóa công tác biên mục, phiếu thư mục được thay thế bằng biểu ghi thư mục. Như vậy thành phần siêu dữ liệu còn có thể được trình bày trong biểu ghi, vì vậy biểu ghi này được coi là biểu ghi siêu dữ liệu (metadata record) của đối tượng được cơ sở dữ liệu quản lý. Với tài nguyên truyền thống trên giấy, thông tin mô tả được bố trí nằm ngoài đối tượng mà nó mô tả (Ví dụ, trên phiếu thư mục của mục lục thư viện, trong biểu ghi của CSDL). Nhờ những yếu tố mô tả như vậ