Ngành công nghiệp viễn thông sau những năm phát triển đang lưu trữ một khối lượng dữ
liệu khổng lồ, bao gồm các dữ liệu như thông tin về khách hàng, chi tiết cuộc gọi, các dịch
vụ thuê bao, thông tin cảnh bảo tình trạng hệ thống mạng viễn thông, dữ liệu về hệ thống
cáp viễn thông v.v. Lượng dữ liệu khổng lồ này nếu được khai thác đúng cách sẽ là một lợi
thế cho các doanh nghiệp viễn thông trong việc tung ra các dịch vụ chăm sóc khách hàng
hay các ứng dụng mang tính thực tiễn cao, đồng nghĩa với việc tăng cơ hội cạnh tranh đối
với các doanh nghiệp khác. Từ đó yêu cầu đặt ra việc xây dựng kho dữ liệu từ những nguồn
dữ liệu trên phục vụ cho việc phân tích kinh doanh tại các đơn vị viễn thông. Tuy nhiên việc
xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi
kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Lưu trữ phân tán ở
nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều
hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những
hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống
thông tin hiện thời.
Kho dữ liệu thường bao gồm các thành phần khác nhau, mỗi thành phần có thiết kế,
kĩ thuật và công cụ riêng [6]. Trong đó hệ thống ETL là một thành phần chính chịu trách
nhiệm cho quá trình ETL ( Extract, Transform, Load) trong kho kho dữ liệu; cho phép trích
rút các dữ liệu từ nhiều nguồn khác nhau, làm sạch, tùy chỉnh và chuyển đổi, và cuối cùng
tải vào kho dữ liệu[1]. Việc xây dựng ETL chiếm đến 80% phát triển dự án và 55% thời
gian của kho dữ liệu [4]. Vì vậy việc đánh giá đúng vai trò của quá trình ETL từ đó có thể
thể mô hình hóa, thiết kế và tối ưu ETL trong việc xây dựng kho dữ liệu sẽ quyết định sự
thành bại của kho dữ liệu [6].
24 trang |
Chia sẻ: tuandn | Lượt xem: 4600 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Tóm tắt Nghiên cứu quy trình ETL trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYỄN ANH NGUYÊN
ĐỀ TÀI:
NGHIÊN CỨU QUY TRÌNH ETL TRONG KHO DỮ LIỆU ỨNG DỤNG
VÀO HỆ THỐNG DỮ LIỆU KINH DOANH TRONG DOANH NGHIỆP
VIỄN THÔNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI -2012
2
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ
Phản biện 1:………………………………………………………………………….
………………………………………………………………………….
………………………………………………………………………….
Phản biện 2:…………………………………………………………………………..
…………………………………………………………………………..
…………………………………………………………………………..
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Côngnghệ
Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
3
MỞ ĐẦU
1. Lý do chọn đề tài
Ngành công nghiệp viễn thông sau những năm phát triển đang lưu trữ một khối lượng dữ
liệu khổng lồ, bao gồm các dữ liệu như thông tin về khách hàng, chi tiết cuộc gọi, các dịch
vụ thuê bao, thông tin cảnh bảo tình trạng hệ thống mạng viễn thông, dữ liệu về hệ thống
cáp viễn thông v.v... Lượng dữ liệu khổng lồ này nếu được khai thác đúng cách sẽ là một lợi
thế cho các doanh nghiệp viễn thông trong việc tung ra các dịch vụ chăm sóc khách hàng
hay các ứng dụng mang tính thực tiễn cao, đồng nghĩa với việc tăng cơ hội cạnh tranh đối
với các doanh nghiệp khác. Từ đó yêu cầu đặt ra việc xây dựng kho dữ liệu từ những nguồn
dữ liệu trên phục vụ cho việc phân tích kinh doanh tại các đơn vị viễn thông. Tuy nhiên việc
xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi
kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Lưu trữ phân tán ở
nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều
hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những
hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống
thông tin hiện thời.
Kho dữ liệu thường bao gồm các thành phần khác nhau, mỗi thành phần có thiết kế,
kĩ thuật và công cụ riêng [6]. Trong đó hệ thống ETL là một thành phần chính chịu trách
nhiệm cho quá trình ETL ( Extract, Transform, Load) trong kho kho dữ liệu; cho phép trích
rút các dữ liệu từ nhiều nguồn khác nhau, làm sạch, tùy chỉnh và chuyển đổi, và cuối cùng
tải vào kho dữ liệu[1]. Việc xây dựng ETL chiếm đến 80% phát triển dự án và 55% thời
gian của kho dữ liệu [4]. Vì vậy việc đánh giá đúng vai trò của quá trình ETL từ đó có thể
thể mô hình hóa, thiết kế và tối ưu ETL trong việc xây dựng kho dữ liệu sẽ quyết định sự
thành bại của kho dữ liệu [6].
Với mục đích nghiên cứu về các quá trình ETL trong việc xây dựng kho dữ liệu, tôi chọn đề
tài “Nghiên cứu quy trình ETL trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh
doanh trong doanh nghiệp viễn thông”.
1. Mục đích của đề tài: Tiếp cận các phương pháp tìm hiểu các bước trong một quy trinh
xây dựng một hệ thống ETL, các phương án xử lý trong từng trường hợp cụ thể để có thể áp
dụng trong các bài toán thực tế.
2. Đối tượng và phạm vi nghiên cứu: Việc nghiên cứu sẽ tập trung vào lý thuyết xây
dựng hệ thống ETL, áp dụng vào xây dựng chức năng trích xuất với nguồn dữ liệu từ hệ
4
thống dữ liệu Vinaphone.
3. Phương pháp nghiên cứu: Tìm hiểu các tài liệu liên quan đến các kỹ thuật
ELT trong kho dữ liệu, các phương pháp xây dựng hệ thống ETL.
4. Kết cấu của luận văn
Luận văn gồm 3 chương
Chương 1: Tổng quan về ETL trong kho dữ liệu
Chương này trình bày các khái niệm, các thành phần, chức năng trong kho dữ liệu,
các ứng dụng cũng như những mô hình kho dữ liệu. Tổng quan về ETL, các thành phần và
vai trò ETL trong kho dữ liệu
Chương 2: Kiến trúc và các thành phần ETL
Chương này tập trung vào chi tiết các thành phần của ETL, các bước thực hiện của
một hệ thống ETL, những vấn đề gặp phải với mỗi thành phần cụ thể trong một hệ thống
ETL. Các biện pháp giải quyết với mỗi tình huống trong những bài toán cụ thể.
Chương 3: Xây dựng modul trích xuất dữ liệu trong ETL.
Chương cuối cùng của luận văn trình bày một thử nghiệm nhỏ áp dụng phần lý
thuyết đã nêu ở 2 chương trước. Đó là áp dụng thử nghiệm phương pháp trích xuất đã
nghiên cứu trong phần lý thuyết vào bài toán trích xuất dữ liệu từ hệ thống dữ liệu chi tiết
cước và dữ liệu của hệ thống trả trước.
5
CHƯƠNG 1. TỔNG QUAN VỀ ETL TRONG KHO DỮ LIỆU
1. Kho dữ liệu
1.1. Khái niệm kho dữ liệu
Định nghĩa do W.H.Inmon đưa ra : Kho dữ liệu (Data Warehouse) là tập hợp dữ liệu tích
hợp theo hướng chủ đề, tương đối ổn định,cập nhật định kỳ nhằm hỗ trợ quá trình tạo quyết
định.[2]
Như vậy, có thể thấy rằng thông thường một kho dữ liệu được xem như một cơ sở dữ liệu
được duy trì riêng biệt trên cơ sở dữ liệu từ nhiều nguồn cơ sở dữ liệu tác nghiệp.
1.1.2. Các đặc trưng của kho dữ liệu
Một kho dữ liệu được xác định là một cơ sở dữ liệu trong đó có chứa bốn đặc tính sau:
hướng chủ đề, tính ổn định, được tích hợp, gắn với thời gian.
1.1.3. Kiến trúc kho dữ liệu
Mô hình kiến trúc của hệ thống kho dữ liệu cơ bản gồm có ba thành phần: Dữ liệu
nguồn, vùng dữ liệu trung gian và kho dữ liệu .
Hình 1.1. Kiến trúc kho dữ liệu
1.1.3.1. Kho dữ liệu chủ đề (Datamart)
Kho dữ liệu chủ đề (Data Mart) cũng là một cơ sở dữ liệu có những đặc điểm giống
với kho dữ liệu nhưng quy mô của nó nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực,
một chuyên ngành cụ thể. Có 2 loại
- Datamart phụ thuộc.
6
- Datamart độc lập.
1.1.3.2. Siêu dữ liệu (MetaData)
Metadata là một loại “dữ liệu về dữ liệu”, nó được xây dựng nhằm mục đích mô tả
cấu trúc nội dung về dữ liệu bên trong cơ sở dữ liệu. Metadata có ý nghĩa đặc biệt quan
trọng trong việc xây dựng và tổ chức lưu trữ dữ liệu của Data Warehouse.
1.1.3.3. Cơ sở dữ liệu kho dữ liệu
Cơ sở dữ liệu tập trung là một nền tảng cơ bản của môi trường kho dữ liệu. Cơ sở dữ
liệu này hầu hết được cài đặt dựa trên công nghệ của Hệ thống quản trị cơ sở dữ liệu quan
hệ (RDBMS).
1.1.4. Các ứng dụng của kho dữ liệu
Kho dữ liệu được sử dụng theo ba cách chính:
Cách sử dụng truyền thống
Trong cách sử dụng này việc khai thác thông tin dựa trên các công cụ truy vấn và
báo cáo. Nhờ có việc trích lọc, tích hợp và chuyển đổi các dữ liệu thô sang dạng dữ
liệu có chất lượng cao và có tính ổn định.
Hỗ trợ trực tuyến (OLAP)
Nếu ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có
thể miêu tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân
tích dữ liệu, xem xét xem giả thuyết là đúng hay sai. Tuy nhiên phân tích trực tuyến
lại không có khả năng đưa ra giả thuyết. Do kích thước quá lớn và có tính chất phức
tạp nên khó có thể sử dụng Data Warehouse cho mục đích này.
Công nghệ khai phá dữ liệu (Data mining)
Trong hoàn cảnh hiện nay sự phát triển của dữ liệu đặt ra yêu cầu phải lưu trữ dữ
liệu phức tạp và có kích thước lớn. Việc khai phá dữ liệu trở thành một nhu cầu khoa
học và trong hoạt động thực tiễn.
1.1.5. Thiết kế CSDL cho kho dữ liệu
1.1.5.1. Giản đồ hình sao
7
Giản đồ hình sao được đưa ra lần đầu tiên bởi Raph Kimball như là một lựa chọn thiết kế
CSDL cho kho dữ liệu. Trong giản đồ hình sao, dữ liệu được xác định và phân loại theo 2
kiểu: sự kiện (bảng Fact) và chiều (các bảng Dimension: các bảng liên kết).
1.1.5.2. Giản đồ hình tuyết rơi
Giản đồ hình tuyết rơi là một sự mở rộng của giản đồ hình sao, tại đó mỗi cánh sao
không phải là một bảng Chiều mà là nhiều bảng. Trong dạng giản đồ này, mỗi bảng
theo chiều của giản đồ hình sao được chuẩn hóa hơn. Giản đồ hình tuyết rơi cải thiện năng
suất truy vấn, tối thiểu không gian đĩa cần thiết để lưu trữ dữ liệu và cải thiện năng suất
nhờ việc chỉ phải kết hợp những bảng có kích thước nhỏ hơn thay vì phải kết hợp
những bảng có kích thước lớn lại không chuẩn hóa. 1.1.5.3. Giản đồ kết hợp
Là kết hợp giữa giản đồ hình sao dựa trên bảng Sự kiện và những bảng Chiều không
chuẩn hóa theo các chuẩn 1, 2, 3 và giản đồ hình tuyết rơi trong đó tất cả các bảng Chiều
đều đã được chuẩn hóa.
1.2. ETL và vai trò ETL trong kho dữ liệu
1.2.1. Khái niệm ETL
Hệ thống ETL (Extract-Transform-Load) là nền tảng của kho dữ liệu. Một hệ thống
ETL được thiết kế cho việc trích xuất dữ liệu từ các hệ thống nguồn, chuyển đổi dữ liệu
đảm bảo các nguồn độc lập có thể tích hợp, và cuối cùng dữ liệu sau chuyển đổi được đưa
vào kho dữ liệu phục vụ mục đích phát triển ứng dụng hay phục vụ các mục đích kho dữ
liệu. [7, tr.xii]
1.2.1 Vai trò của ETL trong kho dữ liệu
Hệ thống ETL phải đóng một vai trò quan trọng trong việc cung cấp cho các ứng dụng
người sử dụng một khuôn dạng dữ liệu phù hợp. Bản chất Kho dữ liệu là quá trình lấy dữ
liệu từ các hệ thống LS và hệ thống cơ sở dữ liệu tác nghiệp và chuyển đổi thành thông tin
có tổ chức trong một định dạng thân thiện với người sử dụng; trên cơ sở đó có thể phân tích
dữ liệu và hỗ trợ quyết định kinh doanh. Quá bắt đầu từ các hệ thống nguồn đến khi dữ liệu
được đưa vào các bảng chiều hay bảng sự kiện sẽ chi phí ít nhất 70% thời gian, nỗ lực của
hầu hết các dự án kho dữ liệu. Trong tài liệu [7, tr.23] có đưa ra một định nghĩa về kho dữ
liệu nói lên vai trò của ETL trong kho dữ liệu
8
1.2.2 Các thành phần của ETL.
Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều cấu trúc dữ
liệu khác nhau như nhiều loại cơ sở dữ liệu, từ tệp dữ liệu excel hay từ tệp dữ liệu thô. Vì
thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn để xử lý.
Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn một mô hình
khác phù hợp và chuyển vào cơ sở dữ liệu đích.
Tải dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã được chuyển đổi vào kho dữ liệu. Dữ
liệu sau khi đã được chuyển đổi sẽ được tải vào kho dữ liệu.
9
CHƯƠNG 2. KIẾN TRÚC VÀ CÁC THÀNH PHẦN CỦA ETL.
2.1. Tổng quan ETL
2.1.1. Những đặc điểm chính của ETL
Mỗi chức năng ETL thực hiện một mục đích quan trọng. Khi muốn chuyển dữ liệu
từ hệ thống nguồn vào hệ thống thông tin được lưu trữ trong kho dữ liệu, việc thực hiện các
chức năng này đều cần thiết. Để thay đổi dữ liệu thành thông tin, trước tiên phải xác định
các dữ liệu. Sau khi xác định dữ liệu, không thể đơn giản là đổ dữ liệu vào kho. Dữ liệu
phải được trích xuất và qua các biến đổi phù hợp để được chuyển đổi thành thông tin. Sau
khi đã chuyển đổi dữ liệu, nó vẫn không hữu ích với người sử dụng cuối cùng cho đến khi
nó được chuyển vào kho dữ liệu. Tải dữ liệu là một chức năng cuối cùng. Như vậy ta phải
thực hiện cả 3 chức năng của ETL để chuyển đổi dữ liệu thành thông tin.
2.1.2. Các chi phí cho hệ thống ETL
Nói chung ta sẽ tiêu tốn khoảng 50-70% công sức của dự án vào các chức năng ETL.
2.1.3. Yêu cầu với ETL và các bước
ETL Cho bảng sự kiện
ETL cho bảng chiều
Viết các thủ tục cho tải tất cả dữ liệu
Tổ chức vùng xử lý dữ liệu và công cụ kiểm thử
Kế hoạch cho các bảng tổng hợp
Xác định các dữ liệu chuyển đổi và các luật làm sạch
Thiết lập các luật trích xuất dữ liệu
Chuẩn bị cho việc ánh xạ giữa các thành phần dữ liệu đích với dữ liệu nguồn
Xác định nguồn dữ liệu, cả dữ liệu trong và ngoài
Xác định các dữ liệu đích cần thiết trong kho dữ liệu
Hình 2.1. Các bước chính của một quy trình ETL.
2.1.4. Các yếu tố quan trọng đối với ETL
- Xác định được độ phức tạp và đa dạng của các hệ thống nguồn dữ liệu để có thể xây dựng
được các chức năng trích xuất và chuyển đổi phù hợp.
- Xác định được các kiểu tải và thời gian tải cho các loại dữ liệu để có phương án phù hợp.
10
2.2. Vùng dữ liệu trung gian
Trong tất cả các kiến trúc kho dữ liệu, luôn có một vùng chứa dữ liệu gọi là
vùng trung gian hay còn gọi là vùng xử lý. Dữ liệu được chuyển từ nhiều nguồn vào vùng
xử lí mà không thông qua (hoặc rất ít) công đoạn xử lí nào.
2.3. Trích xuất dữ liệu
2.3.1. Xác định nguồn dữ liệu
Xác định nguồn dữ liệu bao gồm việc xác định tất cả các nguồn dữ liệu thích hợp,
các dữ liệu cần thiết để đưa vào kho dữ liệu.
Hình 2.2. Các bước xác định nguồn dữ liệu
2.3.2. Các kỹ thuật trích xuất dữ liệu
2.3.2.1 Các loại kỹ thuật trích xuất
Dữ liệu trong hệ thống nguồn có thể rơi vào hai loại.
Giá trị hiện tại. Hầu hết các thuộc tính trong các hệ thống nguồn rơi vào loại này. Ở
đây giá trị được lưu trữ của một thuộc tính mô tả giá trị của thuộc tính ngay thời điểm này
của thời gian. Các giá trị tạm thời hoặc nhất thời. Khi các giao dịch xảy ra, các giá trị thay
đổi. Không có cách nào để biết bao lâu giá trị hiện tại sẽ giữ nguyên hay sẽ thay đổi.
11
Trạng thái định kì. Loại này không phổ biến như thể loại trước. Trong loại này, giá
trị của một thuộc tính được giữ như một trạng thái mỗi khi có thay đổi xảy ra. Tại mỗi thời
điểm, gíá trị trạng thái được lưu trữ với tham chiếu đến thời gian khi giá trị thay đổi.
Khi triển khai một hệ thống kho dữ liệu, các dữ liệu ban đầu với một thời gian nhất
định phải được chuyển vào kho dữ liệu, sau đó ta phải đưa vào các dữ liệu thay đổi sau tải
ban đầu. Nói rộng ra, có 2 loại chính của trích xuất dữ liệu là dữ liệu tĩnh và dữ liệu thay
đổi.Trích xuất dữ liệu tĩnh chiếm chủ yếu trong tải ban đầu, và trích xuất dữ liệu thay đổi
trong tải gia tăng.
Tải gia tăng có thể phân chia thành trích xuất theo thời gian thực hoặc trích xuất
chậm chậm. Trong thời gian thực nắm bắt dữ liệu có 3 tùy chọn, nắm bắt dữ liệu chậm ta có
2 tùy chọn.
2.3.2.2. Các kỹ thuật trích xuất dữ liệu thời gian thực
Nắm bắt dữ liệu qua bản ghi giao dịch. Tùy chọn này sử dụng bản ghi giao dịch của hệ
quản trị cơ sở dữ liệu được duy trì cho việc khôi phục khi có lỗi xảy ra. Mỗi giao dịch thêm,
cập nhật hay xóa một bản ghi trong bảng cơ sở dữ liệu, hệ quản trị cơ sở dữ liệu ngay lập
tức sinh ra một bản ghi log.
Nắm bắt thông qua trigger cơ sở dữ liệu. Tùy chọn này cũng được áp dụng cho các hệ
thống nguồn dữ liệu sử dụng ứng dụng cơ sở dữ liệu. Ta có thể tạo các trigger cho tất cả các
sự kiện mà ta cần nắm bắt. Đầu ra của trigger được ghi vào một tệp độc lập và sẽ được sử
dụng để trích xuất dữ liệu cho kho dữ liệu. việc tạo và duy trì trigger trong suốt các quá
trình của hệ thống nguồn sẽ tăng thêm các chi phí tài nguyên và thời gian của hệ thống
nguồn.
Nắm bắt trong các ứng dụng nguồn. Kỹ thuật này được xem như nắm bắt dữ liệu ứng dụng
hỗ trợ. Nói cách khác, các ứng dụng nguồn được thực hiện để hỗ trợ cho việc nắm bắt dữ
liệu cho kho dữ liệu. Ta phải chỉnh sửa các chương trình ứng dụng liên quan được viết cho
các têp và cơ sở dữ liệu nguồn
2.3.2.3. Các kỹ thuật trích xuất dữ liệu chậm
Nắm bắt dựa trên ngày tháng và nhãn thời gian. Mỗi khi một bản ghi được tạo ra hoặc cập
nhật nó có thẻ được đánh dấu bởi một nhãn biểu diễn bởi ngày và thời gian. Nhãn thời gian
cung cấp cơ sở cho việc chọn ra các bản ghi cho việc trích xuất.
Trích xuất bằng cách so sánh tập tin. Nếu các kỹ thuật trên không khả thi cho tập tin nguồn
cụ thể, khi đó kỹ thuật này được xem như biện pháp cuối cùng. Kỹ thuật này cũng được gọi
12
với tên khác là kỹ thuật so sánh sự khác nhau giữa ảnh chụp bởi vì nó so sánh 2 ảnh chụp
của nguồn dữ liệu.
2.3.2.4. Đánh giá các kỹ thuật trích xuất
2.4. Làm sạch và chuyển đổi dữ liệu
2.4.1 Các nhiệm vụ cơ bản của chuyển đổi dữ liệu
Trích chọn. Nhiệm vụ này nằm ở phần đầu của toàn bộ quá trình chuyển đổi. Có thể toàn
bộ hoặc một số bản ghi từ dữ liệu nguồn
Tách/Nhập. Nhiệm vụ này bao gồm các loại thao tác dữ liệu để thực hiện việc chọn các
phần dữ liệu nguồn.
Chuyển đổi. chuẩn hóa giữa dữ liệu trích xuất từ các nguồn khác nhau và tạo ra các trường
mà người dùng thể sử dụng và có thể hiểu được.
Tổng hợp. Khi việc lưu trữ dữ liệu tổng hợp được yêu cầu thay vì lưu trữ dữ liệu ở mức
thấp.
Làm giàu dữ liệu: Nhiệm vụ này sắp xếp và đơn giản hóa các trường riêng biết để làm cho
chúng trở nên hữu dụng hơn cho kho dữ liệu.
2.4.2 Các kiểu chuyển đổi dữ liệu
- Sửa lại định dạng.
- Giải mã các trường.
- Giá trị tính toán và giá trị thứ phát.
- Chia nhỏ các trường đơn.
- Gộp thông tin.
- Chuyển đổi Bộ ký tự.
- Chuyển đổi đơn vị đo lường.
- Chuyển đổi thời gian.
- Tổng hợp.
- Cơ cấu lại khóa.
- Xóa bản ghi trùng.
2.4.3. Tích hợp và hợp nhất dữ liệu
2.4.3.1. Xác định thực thể trong chuyển đổi dữ liệu.
Thực thể có thể xuất hiện trong nhiều hệ thống khác nhau, làm thế nào để tổng hơp
các nguồn này mà không sợ bị trùng lặp hay bị thiếu.
13
- Bước đầu tiên, tất cả các bản gi, không phân biệt có trùng nhau hay không, được
định danh duy nhất.
- Bước thứ hai là hợp các bản ghi trùng một cách định kỳ thông qua các giải thuật tự
động và kiểm tra thủ công.
2.4.3.2. Tích hợp nhiều nguồn dữ liệu.
Vấn đề này là kết quả của việc một phần tử dữ liệu có nhiều hơn một nguồn dữ liệu. Một
giải pháp đơn giản là đặt ưu tiên cho các nguồn và chọn nguồn có độ ưu tiên cao
2.4.4. Chuyển đổi các thuộc tính chiều
Trong phần này xem xét các loại thay đổi với thuộc tính chiều, các phương pháp để xử lý
các loại thay đổi dữ liệu chiều.
- Thay đổi loại 1 là sửa lỗi. Các loại này được áp dụng cho kho dữ liệu không cần
giữ tính lịch sử.
- Loại 2 thay đổi giữ tính lịch sử của kho dữ liệu.
- Loại 3 thay đổi là những thay đổi dự kiến nơi người dùng cần có khả năng phân
tích các số liệu trong cả 2 cách – có thay đổi, không thay đổi.
2.5. Tải dữ liệu
2.5.1. Các loại tải dữ liệu
Tải đầu tiên – tập hợp tất cả các bảng kho dữ liệu cho lần đầu tiên.
Tải bổ sung – áp dụng trên những thay đổi khi cần thiết một cách định kì
Làm tươi toàn bộ - xóa hoàn toàn nội dung của 1 hoặc nhiều bảng và tải lại với dữ liệu
mới ( Tải đầu tiên là một làm tươi toàn bộ).
2.5.1. Kỹ thuật và quy trình tải dữ liệu
Có 4 mô hình tải dữ liệu : Load, Append, Destructive Merge, Constructive Merge
Load. Nếu bảng mục tiêu đã tồn tại và dữ liệu đã tồn tại trong bảng, quá trình tải sẽ xóa dữ
liệu đã có và tải dữ liệu từ tập tin đến. Nếu bảng đã rỗng trước khi tải, tiến trình tải đơn giản
tải dữ liệu từ file đến.
Append. Ta có thể coi việc tải append giống như một mở rộng của Load. Nếu dữ liệu đã
tồn tại trong bảng, tiến trình append sẽ thêm vô điều kiện các dữ liệu vào, giữ nguyên dữ
liệu hiện có trong các bảng mục tiêu. Khi một bản ghi trùng với một bản ghi đã có, ta có thể
xác định cách xử lý dữ liệu đẩy trùng. Các bản ghi đầu vào có thể cho phép thêm vào như là
dữ liệu trùng. Trong trường hợp khác, bản ghi trùng ở đầu và bị loại bỏ trong quá trình
append.
14
Destructive Merge. Trong mô hình này,ta tải dữ liệu đầu vào vào bảng dữ liệu đích. Nếu
khóa chính của bản ghi đầu với giống khóa của một bản ghi đã có, khi đó nó cập nhật bản
ghi đích tương ứng. Nếu bản ghi đầu vào là một bản ghi mới không trùng khóa với bản ghi
đã có, khi đó bản ghi được thêm vào bảng dữ liệu đích.
Constructive Merge. Chế độ này hơi khác so với Destructive Merge. Nếu khóa chính của
một bản ghi trùng với khóa của bản ghi đã có, để lại bản ghi này, thêm bản ghi mới và đánh
dấu bản ghi thêm mới như bản ghi thay thế cho bản ghi cũ.
Cách áp dụng cho 3 loại tải của kho dữ liệu.
*) Quy trình tải cho từng loại
Tải ban đầu: Với lần chạy đầu tiên của tải ban đầu ta sử dụng kiểu tải Load, sau đó tiếp tục
với chế độ Append.
Tải gia tăng. Các ứng dụng liên tục thay đổi theo các hệ thống nguồn. Vì vậy, ta cần một
phương pháp để nắm bắt được chu kỳ thay đổi.
Nếu nhãn thời gian được xem như một phần khóa chính hoặc nếu nhãn thời gian,
khi đó cấu trúc này có thể được sử dụng để giữ chu kỳ tự nhiên của các thay đổi. Sử dụng
Constructive Merge.
Các bản ghi đã có có thể xóa bỏ và thay thế bằng dữ liệu mới. Chế độ này được áp
dụng cho bất kỳ bảng mục tiêu nào mà bảng mục tiêu lịch sử không quan