Tiểu luận Kho dữ liệu và hệ hỗ trợ quyết định

Chúng ta đang sống trong thời đại của nền kinh tế trí thức. Mọi hoạt động của ta muốn đạt hiệu quả cao thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác. Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của thực tế nghiên cứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công vượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ giải quyết những xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn. Các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Những hệ thống thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin. Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống thông tin hiện thời. Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhiều lĩnh vực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó được? Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệu cần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau. Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Không thể sử dụng được dữ liệu tìm thấy Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau là không đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rất khó khăn.

doc65 trang | Chia sẻ: tuandn | Lượt xem: 2142 | Lượt tải: 7download
Bạn đang xem trước 20 trang tài liệu Tiểu luận Kho dữ liệu và hệ hỗ trợ quyết định, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
GIỚI THIỆU Chúng ta đang sống trong thời đại của nền kinh tế trí thức. Mọi hoạt động của ta muốn đạt hiệu quả cao thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác. Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của thực tế nghiên cứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công vượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ giải quyết những xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn. Các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Những hệ thống thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin. Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống thông tin hiện thời. Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhiều lĩnh vực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó được? Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệu cần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau. Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Không thể sử dụng được dữ liệu tìm thấy Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau là không đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rất khó khăn. Duy trì những chương trình này gặp rất nhiều vấn đề. Một thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ. Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ ràng hoặc là không xác định được. Do sự phức tạp của công việc chuyển đổi cũng như toàn bộ quá trình bảo trì dẫn đến mã nguồn của các chương trình trở nên hết sức phức tạp. Khối lượng dữ liệu lưu trữ tăng rất nhanh. Không kiểm soát được khả năng chồng chéo dữ liệu trong các môi trường thông tin dẫn đến khối lượng dữ liệu tăng nhanh. Quản trị dữ liệu phức tạp. Thiếu những định nghĩa chuẩn, thống nhất về dữ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin. Một thành phần dữ liệu tồn tại ở nhiều nguồn khác nhau Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa dữ liệu CHƯƠNG 1: KHO DỮ LIỆU I. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU 1.1 Kho dữ liệu Kho dữ liệu (Data Warehouse - DW) là tập hợp các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng tạo quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể. Kho dữ liệu thường rất lớn, nó được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các hoạt động hàng ngày và được thu thập xử lí để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp (operational data) và hoạt động thu thập xử lí loại dữ liệu này được gọi là xử lí giao dịch trực tuyến (On_line Transaction Processing - OLPT). Ngược lại, kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập xử lí dữ liệu loại này còn gọi là hệ xử lí phân tích trực tuyến (On_Line Analytical Processing - OLAP). Theo John Ladley, công nghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau. 1.2 Mục đích của kho dữ liệu Mục đích của kho dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin của NSD. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình. Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau. Yêu cầu đối với kho dữ liệu: Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định. Tổng hợp và kết nối dữ liệu. Đồng bộ hoá các nguồn dữ liệu với DW. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. Quản lí siêu dữ liệu. Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề. Dùng trong các hệ thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt. 1.3 Đặc điểm của dữ liệu trong kho dữ liệu 1.3.1/ Tính tích hợp (Integration): Dữ liệu trong DW được tổ chức theo nhiều cách khác nhau sao cho phù hợp với các qui ước đặt tên, thống nhất về số đo, cơ cấu mã hoá và cấu trúc vật lý của dữ liệu, v.v. Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó. Tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ liệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất. 1.3.2/ Hướng chủ đề Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ chức dễ dàng xác định được những thông tin cần thiết trong từng hoạt động của mình. Điều này dẫn đến nội dung dữ liệu được lưu trữ trong DW không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định. 1.3.3/ Dữ liệu có tính lịch sử Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Dữ liệu được lưu trữ thành một loạt các snapshot (ảnh chụp dữ liệu), mỗi bản ghi phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn của một chủ điểm trong một giai đoạn. Do vậy cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu. Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu. Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ. 1.3.4/ Dữ liệu có tính ổn định (nonvolatility) Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai thao tác cơ bản: Nạp dữ liệu vào kho và truy cập vào vào các vùng trong DW. 1.3.5/ Dữ liệu không biến động Thông tin trong DW được tải vào sau khi dữ liệu trong hệ thống điều hành được cho là quá cũ. Tính không biến động thể hiện ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo, từ đó có được những quyết định hợp lý, phù hợp với các qui luật tiến hoá của tự nhiên. 1.3.6/ Dữ liệu tổng hợp Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong DW. Dữ liệu tổng hợp được tích lại qua nhiều giai đoạn khác nhau theo các chủ điểm như đã nêu trên. 1.4 Một số khái niệm cơ bản 1.4.1 Kho dữ liệu cục bộ (Datamart-DM) Kho dữ liệu cục bộ là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Datamart là kho dữ liệu hướng chủ đề. Các Datamart có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các datamart có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các Datamart hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các Datamart. Datamart là một kho dữ liệu thứ cấp các dữ liệu tích hợp của DW. Datamart được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area-SA) được tạo ra và giành cho một nhóm người sử dụng. Dữ liệu trong Datamart cho thông tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện thường xuyên nhất của datamart là một kho dữ liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một server riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định. Đôi khi datamart một cách đơn giản với công nghệ OLAP tạo ra các quan hệ theo dạng hình sao đặc biệt hoặc những siêu khối (hypercube) dữ liệu cho việc phân tích của một nhóm người có cùng mối quan tâm trên một phạm vi dữ liệu. Có hai loại Datamart: Datamart phụ thuộc: chứa những dữ liệu được lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Datamart. Datamart độc lập: được xây dựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn khác nhau. Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu. Mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều DM khó đồng nhất với nhau. 1.4.2 Siêu dữ liệu (Metadata) Metadata là dữ liệu về dữ liệu được sử dụng trong DW trả lời các câu hỏi ai, cái gì, khi nào, tại sao, như thế nào về dữ liệu. Nó đựoc sử dụng cho việc xây dựng, duy trì, quản lí và sử dụng DW. Có ba loại siêu dữ liệu: siêu dữ liệu nghiệp vụ, siêu dữ liệu kĩ thuật và siêu dữ liệu tác nghiệp. a/ Siêu dữ liệu nghiệp vụ (Business Metadata): chứa đựng những thông tin khiến cho người sử dụng dễ dàng hiểu được khung cảnh của thông tin được lưu trữ trong DW. b/ Siêu dữ liệu kĩ thuật (Technical Metadata): chứa đựng những thông tin về dữ liệu trong DW của những người thiết kế và quản trị khi tiến hành công việc phát triển và quản lí. c/ Siêu dữ liệu tác nghiệp (Operational Metadata - OM): giúp trong việc duy trì và triển khai DW. OM mô tả thông tin chứa đựng trong các bảng đích. Mô tả cốt lõi, khả năng tạo cơ sở dữ liệu đích, thông tin được lưu trữ hay trực tuyến, ngày làm tươi (refresh) dữ liệu, số lượng các bản ghi, lịch thực hiện các công việc và những người sử dụng có khả năng truy nhập vào data. 1.4.3 Kho dữ liệu tác nghiệp, cơ sở dữ liệu thao tác Kho dữ liệu tác nghiệp (Operational Database Store - ODS) là hệ thống tác nghiệp tích hợp căn bản dùng cho mục đích thực hiện công việc trợ giúp quyết định và phân tích trên dữ liệu giao dịch tác nghiệp. Điều đó khiến cho dữ liệu lưu trữ trong ODS biến động thường xuyên khi những dữ liệu liên quan trong các hệ thống tác nghiệp có sự thay đổi. ODS cung cấp một sự lựa chọn cho các ứng dụng trợ giúp quyết định tác nghiệp, truy nhập dữ liệu một cách trực tiếp từ các hệ thống xử lí các giao dịch trực tuyến. Đôi khi cũng có những sự nhập nhằng giữa ODS với DW. Trong tất cả các trường hợp, ODS cần phải được xây dựng riêng biệt và là một phần của DW. C ODS Applications Operational A B ES DW DSS EIS Sự phân biệt giữa ODS với DW -Một trong những sự khác nhau cơ bản và quan trọng nhất là ở nội dung và các cấu trúc dữ liệu được lưu trữ. ODS chứa những dữ liệu có giá trị hiện thời hoặc gần với dữ liệu hiện thời, còn DW chứa những dữ liệu lịch sử, có giá trị trong một quá khứ gần. ODS có thể cập nhật còn DW không cập nhật được. -Nói chung dữ liệu trong DW thường là rất lớn, nhiều hơn ở ODS ODS Current data Highly summarized Lightly summarized Current datail Old detail Data Warehouse -ODS chỉ tập trung lưu trữ những dữ liệu thuần nhất và có giá trị hiện thời còn DW có thể chứa rất nhiều dữ liệu ở nhiều mức độ khác nhau, những dữ liệu không thuần nhất. Sự phong phú về chủng loại dữ liệu trong DW -Về mặt công nghệ hỗ trợ cho hai hệ thống, ODS đòi hỏi phải là môi trường được phép cập nhật, ghi, thay đổi được những dữ liệu để phù hợp với nghiệp vụ và nhanh chóng trả lời được các yêu cầu của NSD. Ngược lại, Kho dữ liệu chỉ yêu cầu Load-and-Access + General purpose update + Fast response time ODS Changes Access Insert Delete Load Access + Load and Access + No update DW Hai môi trường khác nhau về công nghệ -Về mặt chức năng, ODS cung cấp một khung nhìn tập trung về dữ liệu gần với thời gian thực từ các hệ thống tác nghiệp. Kho dữ liệu tác nghiệp (ODS) là hệ thống hướng theo chủ đề, tích hợp, có thể thay đổi được, có thể cập nhật, tuyển tập các dữ liệu hiện tại hoặc gần với hiện tại hỗ trợ cho những quyết định tác nghiệp hàng ngày. Dữ liệu từ nhiều ứng dụng hiện tại cần được chuyển đổi để lưu vào kho dữ liệu tác nghiệp. Quá trình chuyển đổi dữ liệu bao gồm những bước: Biến đổi dữ liệu; Quyết định xem dữ liệu nào trong số các dữ liệu từ nhiều nguồn khác nhau là tốt nhất; Mã hoá/giải mã dữ liệu; Sửa đổi cấu trúc chính; Sửa đổi cấu trúc vật lý; Thay đổi lại các định dạng đối tượng cho phù hợp; Biểu diễn và tính toán lại dữ liệu. Hệ thống dữ liệu tác nghiệp và kho dữ liệu có các đặc tính chính như sau: Đặc trưng Dữ liệu thao tác Kho dữ liệu Mục đích Một ứng dụng tại mỗi thời điểm trong môi trường hiện tại hoặc chứa dữ liệu về một chủ đề ở từng thời điểm Một hay nhiều chủ đề ở cùng một thời điểm Các yêu cầu Biết tường tận Mơ hồ Ứng dụng chính Nghiệp vụ hàng ngày Trợ giúp quyết định, quản lý, tăng lợi nhuận, lợi thế cạnh tranh Truy cập dữ liệu Một số nhỏ các dòng dữ liệu tìm được trong mỗi là gọi. Tần xuất truy cập lớn vào những khối lượng dữ liệu vừa phải Tập dữ liệu rất lớn được đọc để tìm kiếm thông tin. Truy cập không thường xuyên vào khối lượng lớn dữ liệu Khối lượng dữ liệu Khối lượng dữ liệu vừa phải cho các công việc hàng ngày Khối lượng rất lớn dữ liệu cần để phân tích, thống kê, dự báo, lập kế hoạch, báo cáo, v.v. Duy trì dữ liệu Lưu giữ các dữ liệu nghiệp vụ hàng ngày Dữ liệu có tính lịch sử được duy trì dài hạn để đối sánh, phân tích, v.v. Khả năng thực hiện đồng thời Có thể trong từng phút Phần lớn xử lý tĩnh và dữ liệu không thay đổi Mức độ sẵn sàng của dữ liệu Độ sẵn sàng ở mức cao theo yêu cầu Không yêu cầu dữ liệu phải sẵn sàng cao Đơn vị công việc Nhỏ, quản lý được và dự đoán được từng đơn vị công việc Lớn, không đoán trước và các đơn vị cong việc hay thay đổi Hiệu quả công việc Hiệu quả cao Linh hoạt 1.5 Tổ chức lưu trữ dữ liệu trong kho Có hai cách lưu trữ dữ liệu theo đa chiều: Mô hình dữ liệu đa chiều MDD (MultiDimensional Database) sử dụng cấu trúc khối Cube để lưu trữ với kỹ thuật khai thác tương ứng là MOLAP. Lưu trữ theo mô hình dữ liệu quan hệ đa chiều sử dụng sơ đồ hình sao II. CÁC KIỂU DỮ LIỆU 2.1 Dữ liệu nghiệp vụ (Business data-BD) Dữ liệu nghiệp vụ là dữ liệu dùng để vận hành và quản lý một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của doanh nghiệp và những đối tượng trong thế giới thực như là khách hàng, địa điểm, sản phẩm v.v.. Nó được tạo ra và sử dụng bởi các hệ thống xử lý giao tác cũng như các hệ thống hỗ trợ quyết định (DSS). 2.1.1 Các tiêu chí để phân loại dữ liệu nghiệp vụ a/ Phương thức sử dụng trong nghiệp vụ: Dữ liệu được sử dụng trong nghiệp vụ để thực hiện hai mục tiêu lớn: -Dữ liệu tác nghiệp (operational data): vận hành công việc và liên quan tới các hoạt động hay quyết định mang tính ngắn hạn. -Dữ liệu mang tính thông tin (informational data): vận hành và quản lý doanh nghiệp trong một thời hạn dài. Dữ liệu tác nghiệp là dữ liệu gốc của một tổ chức, nó là nguồn của tất cả các dữ liệu mang tính thông tin. Cả dữ liệu tác nghiệp và dữ liệu thông tin đều được cấu trúc theo nhu cầu truy nhập và sử dụng. b/ Phạm vi dữ liệu: Dữ liệu có thể là: -Dữ liệu chi tiết: thường là các đối tượng hay các giao dịch cơ sở như sản phẩm, đơn hàng hay khách hàng -Dữ liệu tổng hợp: quản lý doanh nghiệp, thể hiện ở mức độ bao quát hoạt động nghiệp vụ c/ Dữ liệu đọc/ghi hay chỉ đọc: dữ liệu đọc/ghi khác với dữ liệu chỉ đọc một cách cơ bản ở các điểm sử dụng và quản lý: -Dữ liệu đọc/ghi : yêu cầu được thiết kế cẩn thận các tiến trình cập nhật nhằm đảm bảo toàn vẹn các luật nghiệp vụ. Cấu trúc của nó tối ưu cho việc ghi vào cơ sở dữ liệu hay vào file -Dữ liệu chỉ đọc: được thiết kế phục vụ cho việc sử dụng nhiều lần. d/ Dữ liệu theo thời gian: Tính chất theo thời gian của dữ liệu thể hiện vị trí của nó xét theo khía cạnh thời gian. -Dữ liệu hiện tại: là một khung nhìn của công việc nghiệp vụ vào thời điểm hiện tại. Có thể hiểu nó là dữ liệu tức thời và vì vậy sẽ thay đổi theo thời gian trên các hoạt động nghiệp vụ. -Dữ liệu tại thời điểm (point-in-time): là một snapshot của dữ liệu nghiệp vụ trong một thời điểm nhất định, phản ánh trạng thái của doanh nghiệp vào thời điểm đó. Dữ liệu này thể hiện một khung nhìn của quá khứ, nó có thể dùng để định kế hoạch hay dự đoán. -Dữ liệu định kỳ: Đây là một lớp dữ liệu mở rộng rất quan trọng. Nó thể hiện sự thay đổi của công việc nghiệp vụ trong mỗi giai đoạn thời gian. 2.1.2 Phân loại dữ liệu nghiệp vụ a/ Dữ liệu thời gian thực (real-time data): Dữ liệu chi tiết, tức thời dùng để vận hành công việc và được truy xuất theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước. Dữ liệu thời gian thực được tạo lập, thao tác và sử dụng dụng trong các ứng dụng thao tác hay sản xuất. Chúng có thể tổ chức thành các file hay CSDL. b/ Dữ liệu dẫn xuất (derived data): Dữ liệu xác định theo thời điểm (point-in-time) hoặc dữ liệu định kỳ, ở mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận được từ việc xử lý dữ liệu thời gian thực và dùng để quản lý công việc nghiệp vụ. Dữ liệu dẫn xuất là tập dữ liệu thường được sử dụng để trợ giúp quyết định. Dữ liệu mới có thể được suy dẫn từ tổ hợp của các trường hoặc các record dữ liệu có trước. c/ Dữ liệu tương hợp, hoà hợp (reconciled data): Dữ liệu tương hợp là một loại dữ liệu dẫn xuất đặc biệt, sinh ra bởi một tiến trình được thiết kế nhằm bảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến trình này thực hiện dựa vào dữ liệu thời gian thực tại mức chi tiết, duy trì hoặc tạo ra các dữ liệu lịch sử. 2.1.3 Dữ liệu nghiệp vụ phi cấu trúc (Untructured business data) Dữ liệu có cấu trúc thường có những đặc điểm: Mỗi thực thể có rất nhiều thuộc tính, hầu hết các trường thuộc tính đều có kích thước nhỏ, các thực thể có quan hệ với nhau. Dữ liệu phi cấu trúc có những đặc tính ngược lại, đó là những dữ liệu không thuần nhất, ví dụ: hình ảnh, âm thanh hay phim. Dữ liệu phi cấu trúc có kích thước lớn, khó thao tác và không được hỗ trợ tốt trong các cơ sở dữ liệu và các công cụ khác. Tuy vậy một kho chứa lại thường có dữ liệu loại này, nhưng nó chỉ được đưa vào kho sau khi đã hoàn thành việc đưa dữ liệu có cấu trúc vào kho. Dữ liệu thời gian thực phi cấu trúc tương ứng với các ảnh điện tử của các giao tác nghiệp vụ mà không dễ phân tách thành các trường dữ liệu cụ thể hơn. Dữ liệu dẫn xuất phi cấu trúc có thể được xem là tổng hợp hoặc trừu tượng hoá dữ liệu thời gian, như là dữ liệu có cấu trúc. 2.2 Siêu dữ liệu (Metadata) Siêu dữ liệu là dữ liệu về dữ liệu được sử dụng trong DW, trả lời các câu hỏi ai, cái gì, khi nào, tại sao, như thế nào về dữ liệu. Các thuộc tính này được sử dụng cho việc xây dựng, duy trì, quản lí và sử dụng kho dữ liệu. Siêu dữ liệu là một phần quan trọng nhất của kho dữ liệu. Siêu dữ liệu mô tả về dữ liệu được c