Một cơsởdữliệu là một tập hợp có tổchức (có cấu trúc) của các dữliệu
có liên quan với nhau. Cơsởdữliệu bao gồm 2 phần cơbản là các phần tửhay
từng phần dữliệu riêng biệt có chứa trong cơsởdữliệu (nội dung), và các cấu
trúc đểtổchức các phần dữliệu đó. Cảnội dung và các cấu trúc là những phần
đặc biệt quan trọng của các tài liệu cơsởdữliệu.
Ởmột hình thái đơn giản nhất của mình, một cơsởdữliệu là một cuốn sổ
đăng ký. Nhưvậy, một sốcơsởdữliệu có bản song trùng ởdưới dạng các sổ
đăng ký trên giấy truyền thống (chẳng hạn nhưsổ đăng ký ởgiáo xứvà các tài
liệu cá nhân khác) và các tệp (hồsơ). Một sốkhác có cấu trúc quá phức tạp để
có thểso sánh với bất kỳloại tài liệu nào ởthếgiới giấy truyền thống. Một cơsở
dữliệu được tổchức một cách lô gíc nhưlà một bảng với các cột hàng ngang và
hàng dọc. Các cơsởdữliệu hiện đại phức tạp hơn bao gồm một sốbảng có quan
hệqua lại với nhau và ngoài ra, còn có các chỉdẫn tham chiếu từthông tin ởmột
bảng này sang thông tin tương ứng ởbảng khác. Ví dụ, trong một cơsởdữliệu
vềngười lao động thông thường sẽcó một bảng với những thông tin cơbản về
từng người lao động, một bảng mô tảvịtrí công tác mà m ột người lao động có
thểnắm giữ, một bảng xác định từng phòng, ban mà một vịtrí có thểliên kết với
v.v. Sau đó, đối với từng người trong bảng người lao động sẽcó một chỉdẫn
tham chiếu vềvịtrí làm việc của người đó ởbảng vịtrí và từ đó có một chỉdẫn
tham chiếu tới phòng, ban (trong bảng phòng, ban) của vịtrí công tác đó.
Những chỉdẫn nhưvậy có nhiều kiểu khác nhau. Một sốtrong đó hoàn
toàn phụthuộc vào phần mềm và đôi khi là cảphần cứng. Tuy nhiên, đa sốcác
cơsởdữliệu hiện đại đã được chuẩn hoá dựa trên các nguyên tắc của các cơsở
dữliệu quan hệ- tức là, chỉdẫn từmột bảng này sang bảng khác chính là chìa
khoá nhận diện của yếu tốmà nó muốn đềcập tới - một nguyên tắc độc lập với
phần cứng và phần mềm.
Sựphát triển của các cơsởdữliệu đã đi từnhững cơsởdữliệu đơn giản
và chưa được chuẩn hoá (thếhệthứnhất) cho tới các cơsởdữliệu quan hệphức
tạp hơn và chuẩn hoá (thếhệthứba?). Tuy nhiên, cấu trúc lô gíc chính - các
bảng với các hàng ngang và hàng dọc và các chỉdẫn theo một dạng nào đó giữa
các bảng - thì hoàn toàn giống nhau và các cơsởdữliệu cũchưa chuẩn hoá
trong nhiều trường hợp có thể(và chắc hẳn là cần phải) được chuyển đổi sang
một cấu trúc cơsởdữliệu quan hệ đểxửlý chúng bằng các phần mềm tiêu
chuẩn. Tuy vậy, các cơsởdữliệu hiện đại ngày càng phát triển vượt ra ngoài
cấu trúc cơsởdữliệu quan hệ, chẳng hạn nhưchúng kết hợp các tệp văn bản,
các ảnh và âm thanh v.v. Những hệthống liên hợp thống nhất nhưvậy, bao
gồm cảhypertext, các hệthống đa phương tiện, các cơsởdữliệu phân tán và
các cơsởdữliệu hướng đối tượng sẽkhông được xem xét cụthể ở đây.
Lược dịch từ“Cẩm nang quản lý tài liệu điện tử”
TS. Nguyễn LệNhung 0912581997
www.vanthuluutru.com
46
Theo các nguyên tắc được thừa nhận rộng rãi trong việc phát triển hệ
thống thì một sơ đồlô gíc hay một mô hình dữliệu lô gíc sẽ được xây dựng và
nó xác định những dữliệu nào sẽ được đưa vào hệthống và chúng sẽ được tổ
chức nhưthếnào. Sơ đồ đó cần phải có trước khi bất kỳmột hoạt động áp dụng
cơsởdữliệu nào. Việc áp dụng, hay nói cách khác là cấu trúc lô gíc của cơsở
dữliệu, cần chứa đựng sơ đồlô gíc. Tuy nhiên, đôi khi cấu trúc lô gíc của cơsở
dữliệu không tuân thủmột cách chính xác theo sơ đồlô gíc do những khiếm
khuyết của các phần mềm hiện có.
Cảsơ đồlô gíc, có vai trò hướng dẫn cho việc thiết kếcơsởdữliệu, cũng
nhưcấu trúc lô gíc của cơsởdữliệu đó khi được áp dụng sẽphải được duy trì
trong cùng m ột khoảng thời gian mà bất kỳmột dữliệu nào được duy trì nhằm
bảo đảm rằng cơsởdữliệu có thể đóng một vai trò nhưmột hệthống tài liệu. Sơ
đồlô gíc đối với cơsởdữliệu cũng đồng thời là những thông tin bối cảnh đặc
biệt quan trọng, liên kết cơsởdữliệu với các chức năng hoạt động và các nhu
cầu mà nó phục vụ. Cấu trúc lô gíc của cơsởdữliệu, một khi được áp dụng, sẽ
là thông tin cấu trúc cần thiết đểtruy nhập, tiếp cận khai thác và diễn giải một
cách đúng đắn những dữliệu trong cơsởdữliệu.
Các cấu trúc cơsởdữliệu, ngoài những cấu trúc lô gíc nói trên, còn có
các cấu trúc trình bày/biểu thị. Trong khi các cấu trúc lô gíc dùng đểtổchức các
dữliệu đểlưu trữvà xửlý thì các cấu trúc trình bày là những cấu trúc có thể
nhìn thấy được mà các cá nhân sửdụng đểnhập dữliệu vào cơsởdữliệu và để
tiếp cận khai thác và xem dữliệu. Các cấu trúc này bao gồm các biểu mẫu, báo
cáo, bản câu hỏi, khuôn hình và các tệp thu được.
Nội dung (các dữliệu) của một cơsởdữliệu có thểvà thường là sẽthay
đổi theo thời gian. Trong thực tế, m ột trong những vấn đềchủyếu xét từkhía
cạnh lưu trữlà một sốcơsởdữliệu ít nhiều đều được cập nhật thường xuyên -
một bộphận của nội dung sẽbịxoá đi và thay thếbằng những thông tin mới. Đó
chính là thách thức lớn nhất đối với người làm lưu trữtrong việc xác định, lựa
chọn và nắm bắt những tài liệu mang tính chất cố định trong các hệthống như
vậy. Tuy nhiên, có rất ít lưu trữquốc gia trên thếgiới đã xây dựng các quy trình
và có kinh nghiệm tương đối lâu năm trong việc lựa chọn và bảo quản những tài
liệu loại này
2 trang |
Chia sẻ: ngtr9097 | Lượt xem: 2132 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Đề tài Tài liệu trong môi trường cơ sở dữ liệu (file word), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Lược dịch từ “Cẩm nang quản lý tài liệu điện tử”
TS. Nguyễn Lệ Nhung 0912581997
www.vanthuluutru.com
45
6. Tài liệu trong môi trường cơ sở dữ liệu
6.1. Các cơ sở dữ liệu - nội dung, cấu trúc và bối cảnh
Một cơ sở dữ liệu là một tập hợp có tổ chức (có cấu trúc) của các dữ liệu
có liên quan với nhau. Cơ sở dữ liệu bao gồm 2 phần cơ bản là các phần tử hay
từng phần dữ liệu riêng biệt có chứa trong cơ sở dữ liệu (nội dung), và các cấu
trúc để tổ chức các phần dữ liệu đó. Cả nội dung và các cấu trúc là những phần
đặc biệt quan trọng của các tài liệu cơ sở dữ liệu.
Ở một hình thái đơn giản nhất của mình, một cơ sở dữ liệu là một cuốn sổ
đăng ký. Như vậy, một số cơ sở dữ liệu có bản song trùng ở dưới dạng các sổ
đăng ký trên giấy truyền thống (chẳng hạn như sổ đăng ký ở giáo xứ và các tài
liệu cá nhân khác) và các tệp (hồ sơ). Một số khác có cấu trúc quá phức tạp để
có thể so sánh với bất kỳ loại tài liệu nào ở thế giới giấy truyền thống. Một cơ sở
dữ liệu được tổ chức một cách lô gíc như là một bảng với các cột hàng ngang và
hàng dọc. Các cơ sở dữ liệu hiện đại phức tạp hơn bao gồm một số bảng có quan
hệ qua lại với nhau và ngoài ra, còn có các chỉ dẫn tham chiếu từ thông tin ở một
bảng này sang thông tin tương ứng ở bảng khác. Ví dụ, trong một cơ sở dữ liệu
về người lao động thông thường sẽ có một bảng với những thông tin cơ bản về
từng người lao động, một bảng mô tả vị trí công tác mà một người lao động có
thể nắm giữ, một bảng xác định từng phòng, ban mà một vị trí có thể liên kết với
v.v... Sau đó, đối với từng người trong bảng người lao động sẽ có một chỉ dẫn
tham chiếu về vị trí làm việc của người đó ở bảng vị trí và từ đó có một chỉ dẫn
tham chiếu tới phòng, ban (trong bảng phòng, ban) của vị trí công tác đó.
Những chỉ dẫn như vậy có nhiều kiểu khác nhau. Một số trong đó hoàn
toàn phụ thuộc vào phần mềm và đôi khi là cả phần cứng. Tuy nhiên, đa số các
cơ sở dữ liệu hiện đại đã được chuẩn hoá dựa trên các nguyên tắc của các cơ sở
dữ liệu quan hệ - tức là, chỉ dẫn từ một bảng này sang bảng khác chính là chìa
khoá nhận diện của yếu tố mà nó muốn đề cập tới - một nguyên tắc độc lập với
phần cứng và phần mềm.
Sự phát triển của các cơ sở dữ liệu đã đi từ những cơ sở dữ liệu đơn giản
và chưa được chuẩn hoá (thế hệ thứ nhất) cho tới các cơ sở dữ liệu quan hệ phức
tạp hơn và chuẩn hoá (thế hệ thứ ba?). Tuy nhiên, cấu trúc lô gíc chính - các
bảng với các hàng ngang và hàng dọc và các chỉ dẫn theo một dạng nào đó giữa
các bảng - thì hoàn toàn giống nhau và các cơ sở dữ liệu cũ chưa chuẩn hoá
trong nhiều trường hợp có thể (và chắc hẳn là cần phải) được chuyển đổi sang
một cấu trúc cơ sở dữ liệu quan hệ để xử lý chúng bằng các phần mềm tiêu
chuẩn. Tuy vậy, các cơ sở dữ liệu hiện đại ngày càng phát triển vượt ra ngoài
cấu trúc cơ sở dữ liệu quan hệ, chẳng hạn như chúng kết hợp các tệp văn bản,
các ảnh và âm thanh v.v... Những hệ thống liên hợp thống nhất như vậy, bao
gồm cả hypertext, các hệ thống đa phương tiện, các cơ sở dữ liệu phân tán và
các cơ sở dữ liệu hướng đối tượng sẽ không được xem xét cụ thể ở đây.
Lược dịch từ “Cẩm nang quản lý tài liệu điện tử”
TS. Nguyễn Lệ Nhung 0912581997
www.vanthuluutru.com
46
Theo các nguyên tắc được thừa nhận rộng rãi trong việc phát triển hệ
thống thì một sơ đồ lô gíc hay một mô hình dữ liệu lô gíc sẽ được xây dựng và
nó xác định những dữ liệu nào sẽ được đưa vào hệ thống và chúng sẽ được tổ
chức như thế nào. Sơ đồ đó cần phải có trước khi bất kỳ một hoạt động áp dụng
cơ sở dữ liệu nào. Việc áp dụng, hay nói cách khác là cấu trúc lô gíc của cơ sở
dữ liệu, cần chứa đựng sơ đồ lô gíc. Tuy nhiên, đôi khi cấu trúc lô gíc của cơ sở
dữ liệu không tuân thủ một cách chính xác theo sơ đồ lô gíc do những khiếm
khuyết của các phần mềm hiện có.
Cả sơ đồ lô gíc, có vai trò hướng dẫn cho việc thiết kế cơ sở dữ liệu, cũng
như cấu trúc lô gíc của cơ sở dữ liệu đó khi được áp dụng sẽ phải được duy trì
trong cùng một khoảng thời gian mà bất kỳ một dữ liệu nào được duy trì nhằm
bảo đảm rằng cơ sở dữ liệu có thể đóng một vai trò như một hệ thống tài liệu. Sơ
đồ lô gíc đối với cơ sở dữ liệu cũng đồng thời là những thông tin bối cảnh đặc
biệt quan trọng, liên kết cơ sở dữ liệu với các chức năng hoạt động và các nhu
cầu mà nó phục vụ. Cấu trúc lô gíc của cơ sở dữ liệu, một khi được áp dụng, sẽ
là thông tin cấu trúc cần thiết để truy nhập, tiếp cận khai thác và diễn giải một
cách đúng đắn những dữ liệu trong cơ sở dữ liệu.
Các cấu trúc cơ sở dữ liệu, ngoài những cấu trúc lô gíc nói trên, còn có
các cấu trúc trình bày/biểu thị. Trong khi các cấu trúc lô gíc dùng để tổ chức các
dữ liệu để lưu trữ và xử lý thì các cấu trúc trình bày là những cấu trúc có thể
nhìn thấy được mà các cá nhân sử dụng để nhập dữ liệu vào cơ sở dữ liệu và để
tiếp cận khai thác và xem dữ liệu. Các cấu trúc này bao gồm các biểu mẫu, báo
cáo, bản câu hỏi, khuôn hình và các tệp thu được.
Nội dung (các dữ liệu) của một cơ sở dữ liệu có thể và thường là sẽ thay
đổi theo thời gian. Trong thực tế, một trong những vấn đề chủ yếu xét từ khía
cạnh lưu trữ là một số cơ sở dữ liệu ít nhiều đều được cập nhật thường xuyên -
một bộ phận của nội dung sẽ bị xoá đi và thay thế bằng những thông tin mới. Đó
chính là thách thức lớn nhất đối với người làm lưu trữ trong việc xác định, lựa
chọn và nắm bắt những tài liệu mang tính chất cố định trong các hệ thống như
vậy. Tuy nhiên, có rất ít lưu trữ quốc gia trên thế giới đã xây dựng các quy trình
và có kinh nghiệm tương đối lâu năm trong việc lựa chọn và bảo quản những tài
liệu loại này.