Đề tài Nghiên cứu, khai thác kho dữ liệu điểm tại trường đại học sư phạm kỹ thuật Hưng Yên dựa trên bộ công cụ bi của hệ quản trị cơ sở dữ liệu SQL server 2008

Theo báo cáo kế hoạch năm 2011 và 5 năm 2011-2015, Về tốc độ tăng trưởng quy mô học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ GD&ĐT giao hàng năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào tạo đảm bảo chi tiêu chất lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mô học sinh sinh viên tăng nhanh vào những năm cuối của kế hoạch 5 năm 2006-2010. Trong 5 năm qua Nhà trường đã xin phép để mở mới được 06 ngành đào tạo ở trình độ đại học: Công nghệ Cơ điện tử, Công nghệ kỹ thuật hóa học, Công nghệ kỹ thuật môi trường, Kế toán, Tiếng Anh và Công nghệ cơ điện. Xây dựng và thực hiện đào tạo nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của trường lên là 29, Tính đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường còn mở thêm nhiều ngành mới ở trình độ đại học: Công nghệ vật liệu, Tài chính – Ngân hàng, Tiếng Trung Quốc, Hàn Quốc. Quy mô đào tạo: tăng nhanh cả về số lượng lẫn chất lượng, năm 2010 số lượng sinhviên trên toàn trường là hơn 16000 sinh viên, dự kiến năm 2011, số lượng sinh viên sẽ tăng lên gần 18000sinh viên với tất cả các hệ đào tạo và ngành nghề khác nhau trong toàn trường.

pdf65 trang | Chia sẻ: lvbuiluyen | Lượt xem: 2335 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu, khai thác kho dữ liệu điểm tại trường đại học sư phạm kỹ thuật Hưng Yên dựa trên bộ công cụ bi của hệ quản trị cơ sở dữ liệu SQL server 2008, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ NHỊ NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008 LUẬN VĂN THẠC SĨ Hà Nội - 2011 -2- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ NHỊ NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008 Ngành: CÔNG NGHỆ THÔNG TIN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học TS. NGUYỄN HÀ NAM Hà Nội - 2011 -3- LỜI CAM ĐOAN Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi, trong đó có sự giúp đỡ rất lớn và đầy nhiệt tình của thầy hướng dẫn, các thầy/cô ở Khoa CNTT – Trường Đại học Công nghệ và các đồng nghiệp nơi tôi đang làm việc. Các nội dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực. Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được liệt kê tại phần tài liệu tham khảo ở cuối luận văn. Hà Nội, ngày 12 tháng 05 năm 2011 Tác giả Trịnh Thị Nhị -4- MỤC LỤC BẢNG CÁC CHỮ VIẾT TẮT .....................................................................................6 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU ..................................................................7 Chương 1 - GIỚI THIỆU ...........................................................................................11 1.1. Nhu cầu xây dựng kho dữ liệu về điểm..............................................................11 1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên: ..11 1.1.2. Phạm vi dự kiến của luận văn:................................................................12 1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam ............12 1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới .............................12 1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam ...............................12 1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được .................................13 1.3.1. Hướng tiếp cận của luận văn .....................................................................13 1.3.2. Dự kiến kết quả đạt được ..........................................................................13 1.4. Cấu trúc của luận văn ........................................................................................13 1.5. Kết luận chương 1 .............................................................................................13 Chương 2 - KHO DỮ LIỆU VÀ CÁC VẤN ĐỀ LIÊN QUAN..................................14 2.1. Cơ sở lý thuyết..................................................................................................14 2.1.1. Một số khái niệm về kho dữ liệu ...............................................................14 2.1.2. Mô hình dữ liệu sử dụng trong kho ...........................................................19 2.1.4. Các bước xây dựng kho dữ liệu.................................................................21 2.2. Khai phá dữ liệu..................................................................................................27 2.2.1. Khái niệm về khai phá dữ liệu...................................................................27 2.2.2. Khuynh hướng phát triển của lĩnh vực khai phá dữ liệu ............................28 2.3. Giới thiệu bộ công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008 ....................29 2.3.1. Business Intelligence (BI) .........................................................................29 2.3.2. Dịch vụ phân tích ......................................................................................29 2.3.3. Dịch vụ báo cáo ........................................................................................39 2.4. Kết luận chương 2...............................................................................................40 Chương 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN.........................41 3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu.............................................41 3.2. Xây dựng kho dữ liệu điểm của sinh viên............................................................42 3.2.1. Thông tin về dữ liệu điểm .........................................................................42 3.2.2 Kiến trúc của kho dữ liệu ...........................................................................46 3.2.3. Các chiều dữ liệu ......................................................................................47 3.2.4. Các bước cài đặt vật lý kho dữ liệu ...........................................................48 3.3. Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý ...............................................49 3.3.1. Yêu cầu báo cáo........................................................................................49 3.3.2. Lợi ích của báo cáo trong BI .....................................................................49 -5- 3.3.3. Xây dựng báo cáo và đưa ra kết quả..........................................................50 3.3.4. Tính ưu việt của báo cáo xây dựng từ kho dữ liệu .....................................55 3.4. Kết luận chương 3...............................................................................................56 Chương 4 - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU..........................................57 4.1. Ứng dụng kỹ thuật KPDL để dự báo, dự đoán.....................................................57 4.1.1. Yêu cầu dự báo, dự đoán xu thế ................................................................57 4.1.2. Ưu điểm của một số thuật toán khai phá trong BI......................................58 4.2. Xây dựng mô hình dự báo dựa trên Data Mining Tool ........................................58 4.2.1. Khảo sát dự đoán kết quả học tập của sinh viên ........................................58 4.2.2. Phân tích kết quả đạt được ........................................................................63 4.3. Kết luận chương 4...............................................................................................63 KẾT LUẬN – HƯỚNG PHÁT TRIỂN......................................................................64 Các mục tiêu đã thực hiện trong luận văn...................................................................64 Hướng phát triển ........................................................................................................64 TÀI LIỆU THAM KHẢO..........................................................................................65 -6- BẢNG CÁC CHỮ VIẾT TẮT Viết tắt Tên đầy đủ BI Business Intelligence CSDL Cơ sở dữ liệu CNTT Công nghệ thông tin HSSV Học sinh - sinh viên HOLAP Hybrid Online Analytical Processing KPDL Khai phá dữ liệu MOLAP Multidimensional Online Analytical Processing OLAP Online Analytical Processing ROLAP Relational - Online Analytical Processing SQL Structured Query Language SPKT Sư phạm Kỹ thuật T - SQL Transact - Structured Query Language -7- DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Hình 2.1 - Dòng dữ liệu trong kho dữ liệu.................................................................15 Hình 2.2 – Sơ đồ hình sao..........................................................................................17 Hình 2.3 – Sơ đồ bông tuyết ......................................................................................19 Hình 2.4 - Kiến trúc 3 tầng hệ thống kho dữ liệu........................................................20 Hình 2.5 – Ví dụ về mô hình dữ liệu 3 chiều..............................................................24 Hình 2.6 – Mô tả chi tiết các bước của quá trình khám phá tri thức............................28 Hình 2.7 - Cấu trúc của dịch vụ phân tích ..................................................................30 Hình 2.8 – Các thành phần của BI................................................................................1 Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật toán Cây quyết định........................33 Hình 2.10 – Entrophy cho thuộc tính “Quê quán” ......................................................33 Hình 2.11 – Entrophy cho thuộc tính “Điểm vào”......................................................34 Hình 2.12 – Entrophy cho thuộc tính “Kinh tế”..........................................................34 Hình 2.13 – Entrophy cho thuộc tính “Giới tính” .......................................................34 Hình 2.14 - Chọn nút phân nhánh của cây....................................................................1 Hình 2.15 – Bảng dữ liệu đầu vào con .......................................................................35 Hình 2.16 – Entrophy cho thuộc tính “Điểm vào”......................................................35 Hình 2.17 – Entrophy cho thuộc tính “Kinh tế”..........................................................35 Hình 2.18 – Entrophy cho thuộc tính “giới tính” ........................................................35 Hình 2.19 - Cây quyết định kết quả..............................................................................1 Hình 2.20 – Tính xác suất cho các thuộc tính .............................................................37 Hình 3.1 - Bảng tổng hợp kết quả học tập của một lớp ...............................................43 Hình 3.2 - Lược đồ thực thể - mối quan hệ của CSDL điểm sinh viên........................43 Hình 3.3 - Lược đồ CSDL điểm sinh viên dưới dạng quan hệ ....................................44 Hình 3.4 - Bảng các dữ liệu liên quan đến kho dữ liệu về điểm..................................45 Hình 3.5 - Chuẩn hóa, tối ưu dữ liệu làm nguồn cho kho dữ liệu điểm .......................46 Hình 3.6 – Nguồn của kho dữ liệu về điểm ................................................................47 Hình 3.7 – Các chiều của khối DiemSV-20-4 ............................................................48 Hình 3.8 – Kho dữ liệu về điểm của sinh viên............................................................49 Hình 3.9 - Cửa sổ tạo Report Server Project...............................................................50 Hình 3.10- Cửa sổ thiết lập kết nối.............................................................................51 Hình 3.11- Cửa sổ tạo Report Server Project..............................................................51 Hình 3.12 – Hiển thị kết quả của báo cáo thông thường dạng bảng ............................52 Hình 3.13- Báo cáo lực học của sinh viên thuộc mỗi khóa học dạng cột ....................52 Hình 3.14 – Báo cáo thống kê số lượng về giới tính dạng thanh.................................53 Hình 3.15 – Báo cáo điểm vào trung bình của sinh viên dạng hình dáng. ...................54 Hình 3.16 – Theo dõi điểm toán của sinh viên khóa k03 dạng Line............................54 Hình 3.17 – Theo dõi điểm tổng kết của sinh viên khóa k03 dạng Line......................54 Hình 3.18 – Học lực của sinh viên theo kỳ học ..........................................................55 -8- Hình 4.1 – Cấu trúc mô hình dùng cho các thuật toán: Decision Tree, Naïve Bayes, Neural Network ..................................................................................................58 Hình 4.2 – Mô hình khai phá cho 3 thuật toán............................................................59 Hình 4.3 – Cây phân nhánh khi dùng thuật toán Decision Tree ..................................59 Hình 4.4 – Cây không phân nhánh khi dùng thuật toán cây quyết định ......................59 Hình 4.5 – Mạng phụ thuộc khi dùng thuật toán Decision Tree..................................59 Hình 4.6 – Mạng phụ thuộc khi dùng thuật toán Naïve Bayes ....................................60 Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật toán Naïve Bayes .................60 Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật toán Naïve Bayes 60 Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật toán 61 Hình 4.10 – Ma trận phân lớp khi dùng ba thuật toán.................................................61 Hình 4.11 – Xây dựng mô hình dự đoán cho thuật toán Naïve Bayes .........................62 Hình 4.12 – Kết quả dự đoán khi dùng thuật toán Naïve Bayes..................................62 -9- LỜI CẢM ƠN Trước tiên tôi xin được bày tỏ sự trân trọng và lòng biết ơn sâu sắc đối với TS. Nguyễn Hà Nam - Phó phòng đào tạo - giảng viên Bộ môn Hệ thống thông tin - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian học và làm luận văn tốt nghiệp, Thầy đã dành nhiều thời gian qúi báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn. Trong thời gian làm việc với Thầy, tôi không những học hỏi được nhiều kiến thức bổ ích mà còn học được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc của Thầy. Tôi xin được cảm ơn PGS.TS Hà Quang Thụy và các Thầy/Cô ở Khoa Công nghệ thông tin – Trường Đại học Công nghệ đã giảng dạy chúng tôi trong quá trình học tập và góp ý cho tôi hoàn thiện trong quá trình làm luận văn. Tôi cũng xin được cảm ơn PGS.TS Nguyễn Quang Hoan đang công tác tại khoa Công nghệ thông tin – Trường đại học SPKT Hưng yên đã tận tình góp ý cho luận văn của tôi. Các thầy đã giúp tôi tiếp thu được những kiến thức bổ ích trong lĩnh vực mà mình nghiên cứu để có thể vận dụng các kiến thức đó vào trong trường - nơi tôi đang làm việc. Xin cảm ơn các bạn bè, đồng nghiệp và đặc biệt là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên tôi trong suốt quá trình học tập và nghiên cứu để hoàn thành tốt bản luận văn tốt nghiệp này. Mặc dù đã cố gắng hoàn thiện luận văn với tất cả sự nỗ lực của bản thân, nhưng chắc chắn không thể tránh khỏi những thiếu sót. Kính mong quý Thầy/Cô tận tình chỉ bảo. Tác giả -10- LỜI MỞ ĐẦU Trong nhiều năm gần đây, CNTT đã được ứng dụng rất rộng rãi trong nhiều lĩnh vực khác nhau như kinh doanh, giáo dục, nông nghiệp, y học…Trong lĩnh vực giáo dục, phần lớn các trường đã xây dựng được CSDL sinh viên để lưu trữ hồ sơ lý lịch, quá trình học tập, rèn luyện của HSSV. Trên CSDL đó đã có nhiều nghiên cứu, đánh giá về kết quả thi tuyển sinh, kết quả học tập, rèn luyện của HSSV nhưng mới chỉ dừng lại ở mức độ đơn giản, việc sinh ra các báo báo vẫn hoàn toàn thực hiện một các thủ công, thống kê kết quả học tập của HSSV mới chỉ thực hiện ở phần mềm excel tốn rất nhiều công sức nhưng chưa có nhiều nghiên cứu về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả học tập của HSSV.Thông qua đó dự báo, dự đoán kết quả học tập của HSSV. Nhằm góp phần trợ giúp các nhà quản lý có những quyết định nhanh, phù hợp để phát huy cái mới tích cực, hạn chế, ngăn chặn những sai sót trong công tác quản lý đào tạo. Do đó, việc nghiên cứu vấn đề nêu trên có vai trò rất quan trọng. Trường Đại học SPKT Hưng Yên nằm trong hệ thống các trường đại học thuộc GD&ĐT, đào tạo nhiều ngành nghề với nhiều hình thức đào tạo và nhiều hệ đào tạo khác nhau. Trường được phát triển trên cơ sở từ trường Cao đẳng SPKT Hưng Yên với bề dày hơn 35 năm. Kết quả học tập của HSSV là cơ sở để phòng Đào tạo phối hợp với các phòng, ban, khoa tổ chức năng đánh giá chất lượng người dạy và người học, báo cáo trình bộ giáo dục, từ đó trợ giúp cho Ban Giám hiệu nhà trường về định hướng đào tạo, kế hoạch chuyên môn, chỉ tiêu tuyển sinh các khóa tiếp theo…Hai năm gần đây, bộ giáo dục đã triển khai cho nhiều trường đại học sử dụng đồng bộ nhiều phần mềm cho công tác đào tạo như Edusoft: lập thời khóa biểu, quản lý hồ sơ sinh viên, quản lý điểm,…bước đầu đã thống nhất được các biểu mẫu, bảng điểm. Bên cạnh, trường cũng đã có nhiều phần mềm tiện ích khác: Quản lý vật tư, quản lý thực tập của sinh viên…Tuy nhiên những phần mềm này vẫn chưa giải quyết được câu trả lời về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả học tập của HSSV. Đây là một nhiệm vụ quan trọng trong công tác quản lý đào tạo, thu hút nhân tài. Hơn nữa, lượng HSSV thi vào trường ngày một đông, trường có 3 cơ sở với tổng diện tích sàn trên 30 ha, đây là thuận lợi và cũng là vấn đề lo lắng của trường trong việc lưu trữ dữ liệu, sinh ra các báo cáo nhiều chiều và đưa ra chiến lược đào tạo hàng năm. Do đó, đòi hỏi phải có nghiên cứu về vấn đề này để cải thiện tình hình quản lý đào tạo của trường cũng như giúp cho trường ngày một phát triển và thích ứng với trào lưu tin học hóa, và ngang tầm với các trường có bề dày lịch sử trong nước và quốc tế. Xuất phát từ vấn đề trên, chúng tôi thực hiện đề tài luận văn “Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của Hệ quản trị CSDL SQL Server 2008”. Với mong muốn góp phần trợ giúp, ra quyết định cho công tác quản lý đào tạo của trường Đại học SPKT Hưng Yên nói riêng và các trường chuyên nghiệp nói chung. -11- Chương 1 - GIỚI THIỆU 1.1. Nhu cầu xây dựng kho dữ liệu về điểm. 1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên: Theo báo cáo kế hoạch năm 2011 và 5 năm 2011- 2015, Về tốc độ tăng trưởng quy mô học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ GD&ĐT giao hàng năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào tạo đảm bảo chi tiêu chất lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mô học sinh sinh viên tăng nhanh vào những năm cuối của kế hoạch 5 năm 2006-2010. Trong 5 năm qua Nhà trường đã xin phép để mở mới được 06 ngành đào tạo ở trình độ đại học: Công nghệ Cơ điện tử, Công nghệ kỹ thuật hóa học, Công nghệ kỹ thuật môi trường, Kế toán, Tiếng Anh và Công nghệ cơ điện. Xây dựng và thực hiện đào tạo nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của trường lên là 29, Tính đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường còn mở thêm nhiều ngành mới ở trình độ đại học: Công nghệ vật liệu, Tài chính – Ngân hàng, Tiếng Trung Quốc, Hàn Quốc. Quy mô đào tạo: tăng nhanh cả về số lượng lẫn chất lượng, năm 2010 số lượng sinh viên trên toàn trường là hơn 16000 sinh viên, dự kiến năm 2011, số lượng sinh viên sẽ tăng lên gần 18000 sinh viên với tất cả các hệ đào tạo và ngành nghề khác nhau trong toàn trường. - Đầu tư trang thiết bị: Trong giai đoạn 2011-2015 tập trung các nguồn vốn: Ngân sách Nhà nước, vốn hợp pháp của Trường và các nguồn vốn khác đầu tư từ 25 tỷ35 tỷ mua sắm trang thiết bị phục vụ đào tạo cho các khoa: Công nghệ thông tin, Công nghệ Hoá học và Môi trường, Kinh tế, May và Thiết kế thời trang, Cơ khí, cơ khí động lực, Cơ điện tử, Điện - Điện tử, Sư phạm kỹ thuật và đặc biệt ngành Công nghệ vật liệu. Tính trung bình, số lượng máy tính sử dụng tốt trong toàn trường là hơn 600 máy tính. Tuy nhiên, số máy tính này vẫn khai thác chưa triệt để, chủ yếu vẫn là phục vụ cho công tác dạy học, soạn thảo văn bản đơn giản, chưa lưu trữ các phần mềm quản lý, các tiện ích. Hiện tại, việc lưu trữ dữ liệu về sinh viên mới chỉ ở mức đơn giản trên excel, các mẫu biểu giữa các khoa chưa được thống nhất dẫn đến việc tổng hợp và báo cáo chưa được thuận lợi và chính xác. Để khắc phục nhược điểm này, nhà trường đã có chiến lược chuẩn bị cho việc tổ chức và lưu trữ dữ liệu được tốt, bằng các quy định về các mẫu biểu, thống nhất các quy trình, bước đầu, đã triển khai các phần mềm xếp thời khóa biểu, quản lý sinh viên, quản lý điểm sinh viên. Nên việc quản lý, lưu trữ các thông tin có nhiều bất cập, nguy cơ thất lạc và mất mát cao dẫn đến việc xử lý các thông tin liên quan gặp nhiều khó khăn. Như vậy, với sự phát triển nhanh chóng về số lượng sinh viên qua các năm, một vấn đề quan tâm là việc