Theo báo cáo kế hoạch năm 2011 và 5 năm 2011-2015, Về tốc độ tăng trưởng
quy mô học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ
GD&ĐT giao hàng năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào
tạo đảm bảo chi tiêu chất lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mô học
sinh sinh viên tăng nhanh vào những năm cuối của kế hoạch 5 năm 2006-2010. Trong
5 năm qua Nhà trường đã xin phép để mở mới được 06 ngành đào tạo ở trình độ đại
học: Công nghệ Cơ điện tử, Công nghệ kỹ thuật hóa học, Công nghệ kỹ thuật môi
trường, Kế toán, Tiếng Anh và Công nghệ cơ điện. Xây dựng và thực hiện đào tạo
nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của trường lên là 29, Tính
đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường còn mở thêm nhiều
ngành mới ở trình độ đại học: Công nghệ vật liệu, Tài chính – Ngân hàng, Tiếng
Trung Quốc, Hàn Quốc. Quy mô đào tạo: tăng nhanh cả về số lượng lẫn chất lượng,
năm 2010 số lượng sinhviên trên toàn trường là hơn 16000 sinh viên, dự kiến năm
2011, số lượng sinh viên sẽ tăng lên gần 18000sinh viên với tất cả các hệ đào tạo và
ngành nghề khác nhau trong toàn trường.
65 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2426 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu, khai thác kho dữ liệu điểm tại trường đại học sư phạm kỹ thuật Hưng Yên dựa trên bộ công cụ bi của hệ quản trị cơ sở dữ liệu SQL server 2008, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRỊNH THỊ NHỊ
NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM
TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN
DỰA TRÊN BỘ CÔNG CỤ BI
CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008
LUẬN VĂN THẠC SĨ
Hà Nội - 2011
-2-
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRỊNH THỊ NHỊ
NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM
TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN
DỰA TRÊN BỘ CÔNG CỤ BI
CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008
Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học
TS. NGUYỄN HÀ NAM
Hà Nội - 2011
-3-
LỜI CAM ĐOAN
Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi, trong đó có sự giúp
đỡ rất lớn và đầy nhiệt tình của thầy hướng dẫn, các thầy/cô ở Khoa CNTT – Trường
Đại học Công nghệ và các đồng nghiệp nơi tôi đang làm việc. Các nội dung nghiên
cứu và kết quả trong đề tài này là hoàn toàn trung thực.
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được
liệt kê tại phần tài liệu tham khảo ở cuối luận văn.
Hà Nội, ngày 12 tháng 05 năm 2011
Tác giả
Trịnh Thị Nhị
-4-
MỤC LỤC
BẢNG CÁC CHỮ VIẾT TẮT .....................................................................................6
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU ..................................................................7
Chương 1 - GIỚI THIỆU ...........................................................................................11
1.1. Nhu cầu xây dựng kho dữ liệu về điểm..............................................................11
1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên: ..11
1.1.2. Phạm vi dự kiến của luận văn:................................................................12
1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam ............12
1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới .............................12
1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam ...............................12
1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được .................................13
1.3.1. Hướng tiếp cận của luận văn .....................................................................13
1.3.2. Dự kiến kết quả đạt được ..........................................................................13
1.4. Cấu trúc của luận văn ........................................................................................13
1.5. Kết luận chương 1 .............................................................................................13
Chương 2 - KHO DỮ LIỆU VÀ CÁC VẤN ĐỀ LIÊN QUAN..................................14
2.1. Cơ sở lý thuyết..................................................................................................14
2.1.1. Một số khái niệm về kho dữ liệu ...............................................................14
2.1.2. Mô hình dữ liệu sử dụng trong kho ...........................................................19
2.1.4. Các bước xây dựng kho dữ liệu.................................................................21
2.2. Khai phá dữ liệu..................................................................................................27
2.2.1. Khái niệm về khai phá dữ liệu...................................................................27
2.2.2. Khuynh hướng phát triển của lĩnh vực khai phá dữ liệu ............................28
2.3. Giới thiệu bộ công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008 ....................29
2.3.1. Business Intelligence (BI) .........................................................................29
2.3.2. Dịch vụ phân tích ......................................................................................29
2.3.3. Dịch vụ báo cáo ........................................................................................39
2.4. Kết luận chương 2...............................................................................................40
Chương 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN.........................41
3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu.............................................41
3.2. Xây dựng kho dữ liệu điểm của sinh viên............................................................42
3.2.1. Thông tin về dữ liệu điểm .........................................................................42
3.2.2 Kiến trúc của kho dữ liệu ...........................................................................46
3.2.3. Các chiều dữ liệu ......................................................................................47
3.2.4. Các bước cài đặt vật lý kho dữ liệu ...........................................................48
3.3. Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý ...............................................49
3.3.1. Yêu cầu báo cáo........................................................................................49
3.3.2. Lợi ích của báo cáo trong BI .....................................................................49
-5-
3.3.3. Xây dựng báo cáo và đưa ra kết quả..........................................................50
3.3.4. Tính ưu việt của báo cáo xây dựng từ kho dữ liệu .....................................55
3.4. Kết luận chương 3...............................................................................................56
Chương 4 - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU..........................................57
4.1. Ứng dụng kỹ thuật KPDL để dự báo, dự đoán.....................................................57
4.1.1. Yêu cầu dự báo, dự đoán xu thế ................................................................57
4.1.2. Ưu điểm của một số thuật toán khai phá trong BI......................................58
4.2. Xây dựng mô hình dự báo dựa trên Data Mining Tool ........................................58
4.2.1. Khảo sát dự đoán kết quả học tập của sinh viên ........................................58
4.2.2. Phân tích kết quả đạt được ........................................................................63
4.3. Kết luận chương 4...............................................................................................63
KẾT LUẬN – HƯỚNG PHÁT TRIỂN......................................................................64
Các mục tiêu đã thực hiện trong luận văn...................................................................64
Hướng phát triển ........................................................................................................64
TÀI LIỆU THAM KHẢO..........................................................................................65
-6-
BẢNG CÁC CHỮ VIẾT TẮT
Viết tắt Tên đầy đủ
BI Business Intelligence
CSDL Cơ sở dữ liệu
CNTT Công nghệ thông tin
HSSV Học sinh - sinh viên
HOLAP Hybrid Online Analytical Processing
KPDL Khai phá dữ liệu
MOLAP Multidimensional Online Analytical Processing
OLAP Online Analytical Processing
ROLAP Relational - Online Analytical Processing
SQL Structured Query Language
SPKT Sư phạm Kỹ thuật
T - SQL Transact - Structured Query Language
-7-
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU
Hình 2.1 - Dòng dữ liệu trong kho dữ liệu.................................................................15
Hình 2.2 – Sơ đồ hình sao..........................................................................................17
Hình 2.3 – Sơ đồ bông tuyết ......................................................................................19
Hình 2.4 - Kiến trúc 3 tầng hệ thống kho dữ liệu........................................................20
Hình 2.5 – Ví dụ về mô hình dữ liệu 3 chiều..............................................................24
Hình 2.6 – Mô tả chi tiết các bước của quá trình khám phá tri thức............................28
Hình 2.7 - Cấu trúc của dịch vụ phân tích ..................................................................30
Hình 2.8 – Các thành phần của BI................................................................................1
Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật toán Cây quyết định........................33
Hình 2.10 – Entrophy cho thuộc tính “Quê quán” ......................................................33
Hình 2.11 – Entrophy cho thuộc tính “Điểm vào”......................................................34
Hình 2.12 – Entrophy cho thuộc tính “Kinh tế”..........................................................34
Hình 2.13 – Entrophy cho thuộc tính “Giới tính” .......................................................34
Hình 2.14 - Chọn nút phân nhánh của cây....................................................................1
Hình 2.15 – Bảng dữ liệu đầu vào con .......................................................................35
Hình 2.16 – Entrophy cho thuộc tính “Điểm vào”......................................................35
Hình 2.17 – Entrophy cho thuộc tính “Kinh tế”..........................................................35
Hình 2.18 – Entrophy cho thuộc tính “giới tính” ........................................................35
Hình 2.19 - Cây quyết định kết quả..............................................................................1
Hình 2.20 – Tính xác suất cho các thuộc tính .............................................................37
Hình 3.1 - Bảng tổng hợp kết quả học tập của một lớp ...............................................43
Hình 3.2 - Lược đồ thực thể - mối quan hệ của CSDL điểm sinh viên........................43
Hình 3.3 - Lược đồ CSDL điểm sinh viên dưới dạng quan hệ ....................................44
Hình 3.4 - Bảng các dữ liệu liên quan đến kho dữ liệu về điểm..................................45
Hình 3.5 - Chuẩn hóa, tối ưu dữ liệu làm nguồn cho kho dữ liệu điểm .......................46
Hình 3.6 – Nguồn của kho dữ liệu về điểm ................................................................47
Hình 3.7 – Các chiều của khối DiemSV-20-4 ............................................................48
Hình 3.8 – Kho dữ liệu về điểm của sinh viên............................................................49
Hình 3.9 - Cửa sổ tạo Report Server Project...............................................................50
Hình 3.10- Cửa sổ thiết lập kết nối.............................................................................51
Hình 3.11- Cửa sổ tạo Report Server Project..............................................................51
Hình 3.12 – Hiển thị kết quả của báo cáo thông thường dạng bảng ............................52
Hình 3.13- Báo cáo lực học của sinh viên thuộc mỗi khóa học dạng cột ....................52
Hình 3.14 – Báo cáo thống kê số lượng về giới tính dạng thanh.................................53
Hình 3.15 – Báo cáo điểm vào trung bình của sinh viên dạng hình dáng. ...................54
Hình 3.16 – Theo dõi điểm toán của sinh viên khóa k03 dạng Line............................54
Hình 3.17 – Theo dõi điểm tổng kết của sinh viên khóa k03 dạng Line......................54
Hình 3.18 – Học lực của sinh viên theo kỳ học ..........................................................55
-8-
Hình 4.1 – Cấu trúc mô hình dùng cho các thuật toán: Decision Tree, Naïve Bayes,
Neural Network ..................................................................................................58
Hình 4.2 – Mô hình khai phá cho 3 thuật toán............................................................59
Hình 4.3 – Cây phân nhánh khi dùng thuật toán Decision Tree ..................................59
Hình 4.4 – Cây không phân nhánh khi dùng thuật toán cây quyết định ......................59
Hình 4.5 – Mạng phụ thuộc khi dùng thuật toán Decision Tree..................................59
Hình 4.6 – Mạng phụ thuộc khi dùng thuật toán Naïve Bayes ....................................60
Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật toán Naïve Bayes .................60
Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật toán Naïve Bayes 60
Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật toán 61
Hình 4.10 – Ma trận phân lớp khi dùng ba thuật toán.................................................61
Hình 4.11 – Xây dựng mô hình dự đoán cho thuật toán Naïve Bayes .........................62
Hình 4.12 – Kết quả dự đoán khi dùng thuật toán Naïve Bayes..................................62
-9-
LỜI CẢM ƠN
Trước tiên tôi xin được bày tỏ sự trân trọng và lòng biết ơn sâu sắc đối với TS.
Nguyễn Hà Nam - Phó phòng đào tạo - giảng viên Bộ môn Hệ thống thông tin - Khoa
Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian học và
làm luận văn tốt nghiệp, Thầy đã dành nhiều thời gian qúi báu và tận tình chỉ bảo,
hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn. Trong thời gian làm việc với
Thầy, tôi không những học hỏi được nhiều kiến thức bổ ích mà còn học được tinh thần
làm việc, thái độ nghiên cứu khoa học nghiêm túc của Thầy.
Tôi xin được cảm ơn PGS.TS Hà Quang Thụy và các Thầy/Cô ở Khoa Công
nghệ thông tin – Trường Đại học Công nghệ đã giảng dạy chúng tôi trong quá trình
học tập và góp ý cho tôi hoàn thiện trong quá trình làm luận văn. Tôi cũng xin được
cảm ơn PGS.TS Nguyễn Quang Hoan đang công tác tại khoa Công nghệ thông tin –
Trường đại học SPKT Hưng yên đã tận tình góp ý cho luận văn của tôi. Các thầy đã
giúp tôi tiếp thu được những kiến thức bổ ích trong lĩnh vực mà mình nghiên cứu để
có thể vận dụng các kiến thức đó vào trong trường - nơi tôi đang làm việc.
Xin cảm ơn các bạn bè, đồng nghiệp và đặc biệt là các thành viên trong gia đình
đã tạo mọi điều kiện tốt nhất, động viên tôi trong suốt quá trình học tập và nghiên cứu
để hoàn thành tốt bản luận văn tốt nghiệp này.
Mặc dù đã cố gắng hoàn thiện luận văn với tất cả sự nỗ lực của bản thân, nhưng
chắc chắn không thể tránh khỏi những thiếu sót. Kính mong quý Thầy/Cô tận tình chỉ
bảo.
Tác giả
-10-
LỜI MỞ ĐẦU
Trong nhiều năm gần đây, CNTT đã được ứng dụng rất rộng rãi trong nhiều
lĩnh vực khác nhau như kinh doanh, giáo dục, nông nghiệp, y học…Trong lĩnh vực
giáo dục, phần lớn các trường đã xây dựng được CSDL sinh viên để lưu trữ hồ sơ lý
lịch, quá trình học tập, rèn luyện của HSSV. Trên CSDL đó đã có nhiều nghiên cứu,
đánh giá về kết quả thi tuyển sinh, kết quả học tập, rèn luyện của HSSV nhưng mới chỉ
dừng lại ở mức độ đơn giản, việc sinh ra các báo báo vẫn hoàn toàn thực hiện một các
thủ công, thống kê kết quả học tập của HSSV mới chỉ thực hiện ở phần mềm excel tốn
rất nhiều công sức nhưng chưa có nhiều nghiên cứu về sự ảnh hưởng giữa kết quả
tuyển sinh, kết quả của từng môn học, giới tính… với kết quả học tập của
HSSV.Thông qua đó dự báo, dự đoán kết quả học tập của HSSV. Nhằm góp phần trợ
giúp các nhà quản lý có những quyết định nhanh, phù hợp để phát huy cái mới tích
cực, hạn chế, ngăn chặn những sai sót trong công tác quản lý đào tạo. Do đó, việc
nghiên cứu vấn đề nêu trên có vai trò rất quan trọng.
Trường Đại học SPKT Hưng Yên nằm trong hệ thống các trường đại học thuộc
GD&ĐT, đào tạo nhiều ngành nghề với nhiều hình thức đào tạo và nhiều hệ đào tạo
khác nhau. Trường được phát triển trên cơ sở từ trường Cao đẳng SPKT Hưng Yên với
bề dày hơn 35 năm. Kết quả học tập của HSSV là cơ sở để phòng Đào tạo phối hợp
với các phòng, ban, khoa tổ chức năng đánh giá chất lượng người dạy và người học,
báo cáo trình bộ giáo dục, từ đó trợ giúp cho Ban Giám hiệu nhà trường về định hướng
đào tạo, kế hoạch chuyên môn, chỉ tiêu tuyển sinh các khóa tiếp theo…Hai năm gần
đây, bộ giáo dục đã triển khai cho nhiều trường đại học sử dụng đồng bộ nhiều phần
mềm cho công tác đào tạo như Edusoft: lập thời khóa biểu, quản lý hồ sơ sinh viên,
quản lý điểm,…bước đầu đã thống nhất được các biểu mẫu, bảng điểm. Bên cạnh,
trường cũng đã có nhiều phần mềm tiện ích khác: Quản lý vật tư, quản lý thực tập của
sinh viên…Tuy nhiên những phần mềm này vẫn chưa giải quyết được câu trả lời về sự
ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả
học tập của HSSV. Đây là một nhiệm vụ quan trọng trong công tác quản lý đào tạo,
thu hút nhân tài. Hơn nữa, lượng HSSV thi vào trường ngày một đông, trường có 3 cơ
sở với tổng diện tích sàn trên 30 ha, đây là thuận lợi và cũng là vấn đề lo lắng của
trường trong việc lưu trữ dữ liệu, sinh ra các báo cáo nhiều chiều và đưa ra chiến lược
đào tạo hàng năm. Do đó, đòi hỏi phải có nghiên cứu về vấn đề này để cải thiện tình
hình quản lý đào tạo của trường cũng như giúp cho trường ngày một phát triển và thích
ứng với trào lưu tin học hóa, và ngang tầm với các trường có bề dày lịch sử trong nước
và quốc tế.
Xuất phát từ vấn đề trên, chúng tôi thực hiện đề tài luận văn “Nghiên cứu, khai
thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của
Hệ quản trị CSDL SQL Server 2008”. Với mong muốn góp phần trợ giúp, ra quyết
định cho công tác quản lý đào tạo của trường Đại học SPKT Hưng Yên nói riêng và
các trường chuyên nghiệp nói chung.
-11-
Chương 1 - GIỚI THIỆU
1.1. Nhu cầu xây dựng kho dữ liệu về điểm.
1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên:
Theo báo cáo kế hoạch năm 2011 và 5 năm 2011- 2015, Về tốc độ tăng trưởng
quy mô học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ
GD&ĐT giao hàng năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào
tạo đảm bảo chi tiêu chất lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mô học
sinh sinh viên tăng nhanh vào những năm cuối của kế hoạch 5 năm 2006-2010. Trong
5 năm qua Nhà trường đã xin phép để mở mới được 06 ngành đào tạo ở trình độ đại
học: Công nghệ Cơ điện tử, Công nghệ kỹ thuật hóa học, Công nghệ kỹ thuật môi
trường, Kế toán, Tiếng Anh và Công nghệ cơ điện. Xây dựng và thực hiện đào tạo
nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của trường lên là 29, Tính
đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường còn mở thêm nhiều
ngành mới ở trình độ đại học: Công nghệ vật liệu, Tài chính – Ngân hàng, Tiếng
Trung Quốc, Hàn Quốc. Quy mô đào tạo: tăng nhanh cả về số lượng lẫn chất lượng,
năm 2010 số lượng sinh viên trên toàn trường là hơn 16000 sinh viên, dự kiến năm
2011, số lượng sinh viên sẽ tăng lên gần 18000 sinh viên với tất cả các hệ đào tạo và
ngành nghề khác nhau trong toàn trường.
- Đầu tư trang thiết bị: Trong giai đoạn 2011-2015 tập trung các nguồn vốn: Ngân sách
Nhà nước, vốn hợp pháp của Trường và các nguồn vốn khác đầu tư từ 25 tỷ35 tỷ mua
sắm trang thiết bị phục vụ đào tạo cho các khoa: Công nghệ thông tin, Công nghệ Hoá
học và Môi trường, Kinh tế, May và Thiết kế thời trang, Cơ khí, cơ khí động lực, Cơ
điện tử, Điện - Điện tử, Sư phạm kỹ thuật và đặc biệt ngành Công nghệ vật liệu.
Tính trung bình, số lượng máy tính sử dụng tốt trong toàn trường là hơn 600
máy tính. Tuy nhiên, số máy tính này vẫn khai thác chưa triệt để, chủ yếu vẫn là phục
vụ cho công tác dạy học, soạn thảo văn bản đơn giản, chưa lưu trữ các phần mềm quản
lý, các tiện ích. Hiện tại, việc lưu trữ dữ liệu về sinh viên mới chỉ ở mức đơn giản trên
excel, các mẫu biểu giữa các khoa chưa được thống nhất dẫn đến việc tổng hợp và báo
cáo chưa được thuận lợi và chính xác. Để khắc phục nhược điểm này, nhà trường đã
có chiến lược chuẩn bị cho việc tổ chức và lưu trữ dữ liệu được tốt, bằng các quy định
về các mẫu biểu, thống nhất các quy trình, bước đầu, đã triển khai các phần mềm xếp
thời khóa biểu, quản lý sinh viên, quản lý điểm sinh viên. Nên việc quản lý, lưu trữ các
thông tin có nhiều bất cập, nguy cơ thất lạc và mất mát cao dẫn đến việc xử lý các
thông tin liên quan gặp nhiều khó khăn.
Như vậy, với sự phát triển nhanh chóng về số lượng sinh viên qua các năm, một
vấn đề quan tâm là việc