Yêu cầu có được thông tin nhanh chóng, chính xác phục vụ cho công việc không dễ gì có được bởi
vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều nơi (phù hợp với tổ chức phân cấp của các đơn vị), ở
nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ thống thông tin
đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây
dựng.
Đến nay, phương pháp xây dựng kho dữ liệu (Data Warehouse) đã phát triển cả về lý thuyết cũng
như thực tế. Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ để xây dựng, duy trì phát
triển kho dữ liệu. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ
trợ họ trong việc trích xuất các thông tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ. Do
đó việc nghiên cứu về Kho dữ liệu chuyên đề và xem xét khả năng ứng dụng trong việc xử lý dữ liệu là cần
thiết.
Hệ thống cơ quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát
nhân dân các cấp cũng được trang bị hệ thống các ứng dụng nghiệp vụ trong toàn ngành. Việc tập hợp và
quản trị các dữ liệu trên phạm vi toàn ngành để cung cấp cho quá trình “phân tích, đánh giá, kiểm tra, giám
sát, hỗ trợ ra quyết định” tình hình tội phạm trong từng giai đoạn là rất cần thiết. Đề tài này nghiên cứu về lý
thuyết, nắm chắc phương pháp luận và đưa ra phần thử nghiệm về trích rút thông tin theo yêu cầu của bài
toán cụ thể.
Luận văn bao gồm ba phần:
Chương I, giới thiệu chung về kho dữ liệu.
Chương II, cấu trúc kho dữ liệu và mô hình dữ liệu.
Chương III, ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân
dân tối cao.
25 trang |
Chia sẻ: tuandn | Lượt xem: 2223 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Tóm tắt Nghiên cứu kho dữ liệu chuyên đề và ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân dân tối cao, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Nguyễn Thị Minh Huệ
ĐỀ TÀI : NGHIÊN CỨU KHO DỮ LIỆU CHUYÊN ĐỀ VÀ ỨNG
DỤNG TRONG VIỆC TRÍCH RÚT THÔNG TIN QUẢN LÝ ÁN
HÌNH SỰ TẠI VIỆN KIỂM SÁT NHÂN DÂN TỐI CAO
Chuyên ngành: Khoa học máy tính
MÃ Số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012
Luậnvănđượchoànthànhtại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Ngườihướngdẫnkhoahọc: PGS.TS Đỗ Trung Tuấn
Phảnbiện 1: ……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
Phảnbiện 2: …………………………………………………………………………..
……………………………………………………………………………
……………………………………………………………………………
LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưuchín
hViễnthông
Vàolúc: .......giờ ....... ngày ....... tháng ....... .. năm ...............
Cóthểtìmhiểuluậnvăntại:
- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông
1
MỞ ĐẦU
Yêu cầu có được thông tin nhanh chóng, chính xác phục vụ cho công việc không dễ gì có được bởi
vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều nơi (phù hợp với tổ chức phân cấp của các đơn vị), ở
nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ thống thông tin
đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây
dựng.
Đến nay, phương pháp xây dựng kho dữ liệu (Data Warehouse) đã phát triển cả về lý thuyết cũng
như thực tế. Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ để xây dựng, duy trì phát
triển kho dữ liệu. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ
trợ họ trong việc trích xuất các thông tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ. Do
đó việc nghiên cứu về Kho dữ liệu chuyên đề và xem xét khả năng ứng dụng trong việc xử lý dữ liệu là cần
thiết.
Hệ thống cơ quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát
nhân dân các cấp cũng được trang bị hệ thống các ứng dụng nghiệp vụ trong toàn ngành. Việc tập hợp và
quản trị các dữ liệu trên phạm vi toàn ngành để cung cấp cho quá trình “phân tích, đánh giá, kiểm tra, giám
sát, hỗ trợ ra quyết định” tình hình tội phạm trong từng giai đoạn là rất cần thiết. Đề tài này nghiên cứu về lý
thuyết, nắm chắc phương pháp luận và đưa ra phần thử nghiệm về trích rút thông tin theo yêu cầu của bài
toán cụ thể.
Luận văn bao gồm ba phần:
Chương I, giới thiệu chung về kho dữ liệu.
Chương II, cấu trúc kho dữ liệu và mô hình dữ liệu.
Chương III, ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân
dân tối cao.
2
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
Trong chương này, luận văn nêu một số khái niệm cơ bản về kho dữ liệu.
1.1. Về kho dữ liệu
Định nghĩa kho dữ liệu: Có nhiều đinh nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ
liệu của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi
đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể. Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ
quyết định".
1.1.1. Mục đích của kho dữ liệu
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. Giúp cho tổ chức, xác định,
quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác.
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình như: có những quyết
định hợp lý, nhanh, hiệu quả, thu được lợi nhuận cao hơn…
1.1.2.. Các lợi ích của kho dữ liệu
Kho dữ liệu là một cơ sở dữ liệu được thiết kế đặc biệt cho các nhu cầu liên quan đến việc hỗ trợ ra
quyết định. Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:
Dữ liệu lưu trữ tập trung tại một nơi.
Thông tin luôn được cập nhật.
Truy xuất nhanh.
Không giới hạn kích thước.
Dễ hiểu
Rõ ràng và đồng nhất.
Dữ liệu chuẩn hoá.
1.1.3. Sử dụng kho dữ liệu
Kho dữ liệu được sử dụng theo ba cách chính:
1. Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công
cụ vấn đáp và báo cáo.
2. Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ truy
vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL
thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai.
3. Người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động
thực tiễn, đó chính là công nghệ khai phá dữ liệu (Data Mining). Đây chính là ứng dụng chính thứ ba của
kho dữ liệu.
1.2 Đặc điểm dữ liệu trong kho dữ liệu
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm:
3
1.2.1. Hướng chủ thể
1.2.2. Tích hợp
1.2.3. Ít thay đổi
1.2.4. Tích thời gian cụ thể
1.2.5. Dữ liệu chi tiết và dữ liệu tổng hợp
1.3 Nguyên lý cơ bản
Kiến trúc chung của một kho dữ liệu thường gồm nhiều vùng chứa dữ liệu nhỏ. Những vùng chứa dữ
liệu này được phân loại dựa trên cấu trúc bao gồm :
Vùng xử lí: Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu thu được từ nguồn trước khi
chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu. Trong các hình vẽ vùng này được viết tắt là
“STG”
Vùng chứa dữ liệu dạng chuẩn hoá: Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích
hợp từ nhiều nguồn khác nhau. Trong vùng này, dữ liệu được lưu trữ ở dạng chuẩn cao, thường là dạng
chuẩn 3. Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều
biến đổi phức tạp. Trong các hình vẽ vùng này được viết tắt là “NDS”
Vùng chứa dữ liệu hoạt động: Là vùng chứa dữ liệu dạng lai giữa vùng dữ liệu chuẩn hoá và cơ sở
dữ liệu hoạt động. Mục đích của nó ngoài việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn
được dùng như là cơ sở dữ liệu hoạt động tập trung.
Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều: Là vùng kho dữ liệu đầu cuối, phía người
dùng. Trong vùng này, dữ liệu được lưu trữ dưới dạng mô hình hoá đa chiều nhằm hỗ trợ các ứng dụng hay
truy vấn dạng phân tích đầu cuối.Trong các hình vẽ, vùng này được viết tắt là “DDS”, “DW” hay “DWH”.
Kho dữ liệu có rất nhiều loại kiến trúc. Từ đơn giản nhất, chỉ gồm một kho dữ liệu đầu cuối, đến rất
phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn. Tuy nhiên, hầu hết
các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:
1.3.1. Kiến trúc DDS đơn
Hình 3: Kiến trúc DSS đơn
Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu. Kiến trúc này
có thành phần chính là một kho dữ liệu trung tâm.
4
1.3.2. Kiến trúc NDS và DDS
Đây là một kiến trúc khá phổ biến. Kiến trúc này tương tự như kiến trúc DDS đơn, nhưng có thêm
một vùng chứa dữ liệu trung gian là vùng chứa dữ liệu chuẩn hoá NDS.
Hình 4: Kiến trúc NDS và DDS
1.3.3. Kiến trúc ODS và DDS
Kiến trúc này có nhiều điểm tương đồng với kiến trúc NDS và DDS. Vùng dữ liệu hoạt động này
cũng là một cơ sở dữ liệu dạng chuẩn hoá cao. Tuy nhiên, nó không lưu dữ liệu lịch sử. Vùng dữ liệu hoạt
động có cấu trúc nghiêng về dạng cơ sở dữ liệu phục vụ giao tác (OLTP) nhiều hơn. Nó đóng vai trò như là
một cơ sở dữ liệu tập trung mà ở đó, ứng dụng đầu cuối cho phép khai thác trên nó.
Hình 5: Kiến trúc ODS và DDS
1.3.3 Vùng xử lí
Thông thường, trong tất cả các kiến trúc kho dữ liệu, luôn có một vùng chứa dữ liệu gọi là vùng xử
lí. Dữ liệu được chuyển từ nhiều nguồn vào vùng xử lí mà không thông qua (hoặc rất ít) công đoạn xử lí nào.
Người ta có thể nạp trực tiếp dữ liệu từ nguồn vào kho dữ liệu đầu cuối.
5
Hình 6 : Vùng xử lý
1.3.4. Cơ sở dữ liệu chuẩn hoá
Hình 7: Mô hình dữ liệu được chuẩn hóa
Đối với kiến trúc NDS và DDS, vùng chứa dữ liệu dạng chuẩn hoá, còn được gọi là cơ sở dữ liệu
chuẩn hoá đóng vai trò là một cơ sở dữ liệu tập trung.
1.3.5. Kho dữ liệu đầu cuối
Hình 8: Kho dữ liệu đầu cuối
Đây là kiểu cấu trúc dựa trên mô hình khối đa chiều. Mỗi khối đa chiều là bao gồm một bảng dữ
kiện và các bảng chiều. Dữ kiện là các độ đo, các số liệu được tính toán từ các chiều. Cấu trúc dữ liệu này có
đặc trưng là phi chuẩn hoá. Đây là một đặc trưng quan trọng của kho dữ liệu mô hình hoá đa chiều.
1.4. Kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề (DM) là CSDL có những đặc điểm giống với Kho dữ liệu nhưng với quy mô
6
nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Datamart là kho dữ liệu hướng chủ đề. Có
thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc
1. Datamart phụ thuộc
2. Datamart độc lập.
1.5. Hệ hỗ trợ quyết định
1.5.1.Khái niệm
Hệ hỗ trợ quyết định là một hệ thống thuộc Hệ thống thông tin quản lý (MIS), có nhiệm vụ cung cấp
các thông tin hỗ trợ cho việc đề ra quyết định ở cấp chiến lược và chiến thuật trở nên dễ dàng, thuận tiện
hơn.
1.5.2. Các thành phần của một hệ thống hỗ trợ ra quyết định
Hình 9: Các thành phần của một hệ thống hỗ trợ ra quyết định
1. Dữ liệu: được trích lọc từ TPS hay MIS để diễn tả cho những sự kiện liên quan đến những vấn đề đang
cần giải quyết.
2. Mô hình: là một dạng dữ liệu đặc biệt dùng để mô tả khái quát các đặc trưng quan trọng nhất của các sự
kiện, vấn đề mà không cần phải diễn tả lại toàn bộ chi tiết. Giá trị của mô hình là để giảm bớt chi phí
nghiên cứu hoặc mô tả chi tiết cho các vấn đề. Tương tự như database, modelbase lưu trữ các mô hình
thống kê, tài chính, toán học mà DSS sử dụng để thực hiện tự động nhiều phân tích khác nhau trên vấn
đề để tìm lời giải.
3. Các phân hệ dựa vào kiến thức: Là bộ máy suy diễn dựa trên các quy tắc và sự kiện đã biết (từ dữ liệu,
mô hình và cơ sở kiến thức tổ chức). Máy tri thức trợ giúp thu thập lưu trữ và sử dụng tri thức để hổ trợ
tự động hoá việc phân tích, suy diễn, tổng hợp các sự kiện hướng đến giải pháp cho vấn đề.
4. Giao diện người dùng: DSS được sử dụng theo phương thức tương tác người – máy ở mức độ cao vì giải
pháp cho các bài toán bán cấu trúc cần được tinh chỉnh từng bước từ phía người sử dụng. Sự giao tiếp
người - máy càng thuận tiện bao nhiêu thì hiệu quả của DSS càng cao bấy nhiêu.
5. Người sử dụng: Người sử dụng của DSS đóng vai trò cung cấp kiến thức, hoặc ra các quyết định cho hệ
thống (tinh chỉnh giải pháp, chọn cách giải quyết) trong suốt quá trình tìm kiếm giải pháp.
1.5.3. Phân loại các hệ trợ giúp quyết định
Hệ xử lý tác vụ: mục đích chính của các Hệ xử lý tác vụ là giữ cho việc ghi nhận các giao tác được
chính xác. Hệ thống này được xây dựng chỉ có thể làm ra những quyết định đơn giản trong việc xác định dữ
7
liệu được ghi nhận là có hợp lệ hay không. Hệ xử lý tác vụ làm công việc hợp lệ hóa trước khi ghi nhận giao
tác để CSDL được làm sạch hơn.
Hình 10: Phân loại các Hệ thông tin quản lý
Hệ trợ giúp quyết định: bao gồm những hệ thống được thiết kế để trợ giúp các nhà quản lý ra quyết
định. Khác với hệ xử lý tác vụ phục vụ cho những hoạt động hàng ngày, DSS phục vụ cho những mục tiêu
dài hạn hơn và có thể cần đến một vài ý kiến, phán đoán đóng góp từ các chuyên gia. Hiện nay DSS có thể
được chia thành hai hướng cơ bản. Hướng đầu tiên dựa vào mô hình theo xu hướng của các Hệ trợ giúp
quyết định cũ.
Loại Hệ trợ giúp quyết định thứ hai là loại Hệ trợ giúp quyết định dựa vào dữ liệu. DSS trong cơ chế
vận hành của MIS:
Điều khiển theo chu kỳ đóng, dựa trên các quy tắc quản lý do tổ chức thiết lập. Quản lý dựa trên các kênh
thông tin nội bộ.
Điều khiển theo chu kỳ mở, dựa trên các tiêu chuẩn độc lập với tổ chức. Môi trường có tham gia vào hoạt
động quản lý.
1.5.4. Năng lực của hệ hỗ trợ ra quyết định
Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp
Phù hợp cho cá nhân lẫn nhóm.
Hỗ trợ cho các quyết định tuần tự, liên thuộc, được đưa ra một lần, vài lần hoặc lặp lại.
Hỗ trợ cho các giai đoạn của quá trình ra quyết định như tìm hiểu, thiết kế và chọn lựa.
Phù hợp cho một số các phong cách và quá trình ra quyết định. Dễ dùng và thân thiện với người dùng.
Có thể tiến hóa theo thời gian.
Nhằm vào nâng cao tính hiệu dụng (chính xác, thời gian tính, chất lượng) của quyết định thay vì tính hiệu
quả (giá phí của việc ra quyết định).
Người ra quyết định kiểm soát toàn bộ các bước của quá trình ra quyết định, DSS chỉ trợ giúp, không thay
thế người ra quyết định.
1.6 Các yêu cầu chức năng kho dữ liệu
1. Khả năng cân bằng.
2. Khả năng quản trị
8
3. Khả năng sẵn sàng
4. Khả năng mở rộng
5. Khả năng mềm dẻo
6. Khả năng tích hợp
7. Khả năng truy cập sử dụng được
8. Khả năng tin cậy
1.7. Kết luận
Chương trên trình bày một số khái niệm liên quan đến hệ thống trợ giúp quyết định và kho dữ liệu,
chuẩn bị cho xem xét chi tiết ở chương sau.
9
CHƯƠNG 2. CẤU TRÚC KHO DỮ LIỆU VÀ MÔ HÌNH DỮ LIỆU
Chương này sẽ trình bày về cấu trúc và các cách lựa chọn để tiến hành xây dựng kho dữ liệu. Mặc dù
không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc cho kho dữ liệu trước khi bắt đầu tiến hành.
Cấu trúc có thể được quyết định hoặc sửa đổi sau khi bắt đầu tiến hành.
2.1 Các lựa chọn về cấu trúc
2.1.1. Cấu trúc kho dữ liệu tổng thể
Cấu trúc dữ liệu tổng thể được trình bầy ở dưới đây là một cấu trúc hỗ trợ cho tất cả, hoặc một phần
lớn của một đơn vị có nhu cầu về một kho dữ liệu tích hợp đầy đủ với mức độ truy nhập cao và được sử dụng
xuyên suốt các ban ngành hoặc ngành nghề kinh doanh.
2.1.2. Cấu trúc kho dữ liệu chuyên đề độc lập
Hình 13: Cấu trúc kho dữ liệu chuyên đề độc lập
Cấu trúc kho dữ liệu chuyên đề độc lập có nghĩa là các kho dữ liệu chuyên đề đứng độc lập một
mình được điều khiển bởi một nhóm, phòng ban, hoặc ngành kinh doanh cụ thể và được xây dựng duy nhất
để đáp ứng các nhu cầu.
2.1.3. Cấu trúc Kho dữ liệu chuyên đề phụ thuộc
Một cấu trúc kho dữ liệu chuyên đề phụ thuộc là hệ thống các kho dữ liệu chuyên đề có trao đổi
thông tin chặt chẽ. Mặc dù các kho dữ liệu chuyên đề riêng biệt được thực hiện trong các nhóm làm việc, ban
ngành hoặc ngành nghề kinh doanh cụ thể, nhưng chúng cũng có thể được tích hợp, liên kết với nhau để tạo
ra dữ liệu có phạm vi rộng lớn hơn trong toàn doanh nghiệp hoặc toàn công ty.
2.2 Các lựa chọn thực hiện
2.2.1. Thực hiện từ trên xuống.
Thực hiện từ trên xuống đòi hỏi phải lập kế hoạch và công việc thiết kế hoàn thành trước khi bắt đầu
dự án.
Việc thực hiện từ trên xuống có thể tạo ra những xác định về dữ liệu thích hợp và việc thực hiện các
quy tắc kinh doanh xuyên xuốt đơn vị ngay từ khi bắt đầu. Tuy nhiên, chi phí cho việc lập kế hoạch và thiết
kế ban đầu là tương đối đáng kể. Nó là một quá trình đòi hỏi tiêu tốn nhiều thời gian và có thể làm trì hoãn
các hoạt động thực tế, lợi nhuận, và đầu tư có lợi tức. Phương thức quản lý từ trên xuống có thể làm việc tốt
kho có một tổ chức IS tập trung chịu trách nhiệm cho tất cả các hệ thống phần cứng.
10
2.2.2. Thực hiện từ dưới lên
Thực hiện từ dưới lên liên quan tới việc lập kế hoạch và thiết kế các kho dữ liệu chuyên đề mà
không cần chờ cho đến khi có một hạ tầng tổng thể hơn. Điều này không có nghĩa là sẽ không triển khai một
hạ tầng tổng thể hơn; mà sẽ xây dựng dần theo kiều mở rộng các kho dữ liệu chuyên đề ban đầu.
Phương thức thực hiện từ dưới lên đã trở thành sự chọn lựa của nhiều đơn vị, đặc biệt là các đơn vị
quản lý kinh doanh, bởi vì quá trình hoàn vốn sẽ diễn ra nhanh hơn. Nó có thể đem lại kết quả nhanh hơn vì
các kho dữ liệu chuyên đề có phần thiết kế ít phức tạp hơn so với kho dữ liệu tổng thể. Thêm vào đó, việc
thực hiện ban đầu thường ít tốn kém hơn về phần cứng và các nguồn lực khác so với việc triển khai một kho
dữ liệu tổng thể.
2.2.3. Phương thức kết hợp
Như chúng ta vừa xem xét, có cả hai mặt tích cực và tiêu cực cần phải cân nhắc khi thực hiện
phương thức từ trên xuống hoặc từ dưới lên. Trong nhiều trường hợp phương thức tốt nhất là kết hợp cả hai.
Điều này có thể khá phức tạp, nhưng với một người quản lý dự án tốt thì có thể làm được. Một trong những
chìa khóa của phương thức này là quyết định mức độ kế hoạch và thiết kế cần thiết cho phương thức tổng thể
để hỗ trợ cho việc tích hợp khi kho dữ liệu chuyên đề được xây dựng với phương thức từ dưới lên. Việc phát
triển một cơ sở hạ tầng ở mức cơ bản cho kho dữ liệu tổng thể, ngay từ ban đầu nên thận trọng ở mức kinh
doanh.
2.3. Mô hình dữ liệu cho kho dữ liệu
Trong phần này chúng ta xét tới hai kỹ thuật xây dựng mô hình dữ liệu cơ bản: xây dựng mô hình
ER và xây dựng mô hình theo chiều. Trong môi trường OLTP, kỹ thuật xây dựng mô hình ER là sự lựa chọn
đã qua thử thách. Vói sự ra đời của kho dữ liệu, xuất hiện yêu cầu cần có một loại kx thuật để hỗ trọ cho môi
trường phân tích dữ liệu. Mặc dù các mô hình ER có thể sử dụng để hỗ trợ môi trường kho dữ liệu, hiện nay
sự quan tâm về cách xây dựng mô hình theo chiều nhằm đáp ứng nhiệm vụ này cũng đã gia tăng.
2.3.1. Tại sao việc xây dựng mô hình dữ liệu là quan trọng
Theo cách truyền thống, người ta xây dựng mô hình dữ liệu phải sử dụng sơ đồ ER, được phát triển
như một phần của quy trình xây dựng mô hình dữ liệu, như một phương tiện thông tin liên lạc với nhà kinh
doanh - người sử dụng. Đồ thị ER là một công cụ có thể giúp phân tích các yêu cầu kinh doanh và thiết kế
cấu trúc dữ liệu sau này.
Các bước tiếp cận khác nhau của mô hình dữ liệu: việc xây dựng mô hình ER mô hình chiều, mặc dù
có liên quan nhưng lại khác nhau.
2.3.2. Các kỹ thuật xây dựng mô hình dữ liệu
Có hai loại kỹ thuật xây dựng mô hình dữ liệu thích hợp trong môi trường kho dữ liệu là xây dựng
mô hình ER và xây dựng mô hình chiều.
1. Việc xây dựng mô hình ER tạo ra một mô hình dữ liệu về một lĩnh vực quan tâm nhất định sử
dụng hai khái niệm cơ bản: các thực thể và các mối quan hệ giữa các thực thể đó. Các mô hình ER chi tiết
cũng bao gồm các thuộc tính, thuộc tính này có thể hoặc là đặc tính của thực thể hoặc là đặc tính của mối
quan hệ.
11
2. Việc xây dựng mô hình theo chiều sử dụng 3 khái niệm cơ bản: cho phép đo, thực tế và chiều. Cả
hai loại xây dựng mô hình ER và chiều đều có thể được sử dụng để tạo một mô hình trừu tượng của một chủ
đề. Mỗi loại đều có những hạn chế của mình về các khái niệm xây dựng mô hình và các quy ước ký hiệu..
2.3.3. Xây dựng mô hình ER
Các khái niệm cơ bản : Mô hình ER được thể hiện bằng sơ đồ ER sử dụng 3 biểu tượng đồ họa cơ
bản để hình thành khái niệm dữ liệu: thực thể, mối quan hệ và thuộc tính.
Hình 17: Ví dụ về các thực thể trong sơ đồ ER
Trong xây dựng mô hình ER, đặt tên cho các thực thể là rất quan trọng để hiểu và thông tin liên lạc
dễ dàng và rõ. Trong mô hình ER chi tiết, nhiệm vụ quan trọng nhất là xác định từ định danh duy nhất của
thực thể. Từ này được gọi là từ khóa gốc. Bổ sung cho các khái niệm xây dựng mô hình ER cơ bản, có 2
khái niệm khác cũng rất quan trọng: (i) Loại cha và con; và (ii) Thông báo ràng buộc
Hình 18 : Mô hình thực thể loại cha và con (supertype & subtype)
2.3.4 Xây dựng mô hình theo chiều
Về phương diện nào đó, việc xây dựng mô hình theo chiều đơn giản hơn có ý nghĩa hơn và dễ hiểu
hơn so với xây dựng mô hình ER. Các khái niệm cơ bản : Xây dựng mô hình theo chiều là một kỹ thuật để
tạo khái niệm và hình dung các mô hình dữ liệu như một bộ tiêu chuẩn được mô tả bằng các lĩnh vực kinh
doanh chung. Xây dựng mô hình theo chiều có một số khái niệm cơ bản:
Sự kiện
12
Chiều
Tiêu chuẩn đánh giá (các biến số)
Sự kiện : Sự kiện là thu thập các hạng mục dữ liệu liên quan, bao gồm cả các tiêu chuẩn đánh giá và
nội dung dữ liệu.
Chiều: Chiều là sự thu thập của các thành viên hoặc các đơn vị cùng loại để xem xét.
Những thao tác cơ bản cho OLAP : Xây dựng mô hình theo chiều chủ yếu hỗ trợ cho OLAP và đưa
ra quyết định.
Có 4 thao tác được sử dụng trong OLAP để phân tíc