1.1 Giới thiệu:
Trong thời đại ngày nay, với sựphát triển vượt bậc của công nghệthông tin,
lượng dữliệu tại các hệthống thông tin ngày càng trởnên phong phú, đa dạng và
thực sựkhổng lồ. Trong tình hình đó, việc chắt lọc được những tri thức quý giá từ
những khối lượng dữliệu khổng lồnày càng có ý nghĩa hơn bao giờhết, đóng vai
trò chìa khóa thành công cho sựphát triển của các tổchức. Các tri thức tìm được có
thể được vận dụng đểcải thiện hiệu quảhoạt động của hệthống thông tin ban đầu,
hay đưa ra dự đoán giúp cải thiện những quyết định trong tương lai Các kỹthuật
khai khoáng dữliệu (data mining) ngày càng được quan tâm và các ứng dụng khai
khoáng dữliệu được ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sông, như
kinh tế, tài chính, y tế, khoa học, giáo dục Ngoài ra, các hệquản trịcơsởdữliệu
cũng đang được phát triển theo hướng hỗtrợcác hoạt động khai khoáng dữliệu
ngày càng tích cực hơn. Khái niệm sựthông minh kinh doanh (business
intelligence) được nhắc đến và hỗtrợrộng rãi trong các hệquản trịcơsởdữliệu và
các công cụphát triển ứng dụng.
Trong việc ứng dụng khai khoáng dữliệu vào các lĩnh vực khác nhau của đời
sống, khai khoáng dữliệu trong lĩnh vực giáo dục đang dần có được sựquan tâm
đúng mức của cảgiới khoa học và các tổchức giáo dục. Từviệc khai khoáng các
nguồn dữliệu truyền thống đến nguồn dữliệu từcác khóa học trực tuyến, các kỹ
thuật khai khoáng dữliệu trong giáo dục đào tạo đang được tập trung nghiên cứu tại
nhiều nơi tạo nên một cộng đồng riêng trong cộng đồng nghiên cứu vềlĩnh vực khai
khoáng dữliệu.
Tại Việt Nam, việc nghiên cứu khai khoáng dữliệu trong lĩnh vực giáo dục
đào tạo còn rất ít. Việc định hướng và hoạch định chính sách trong giáo dục đào tạo
là một nhu cầu bức thiết hiện nay. ðối tượng của giáo dục đào tạo là con người, là
thếhệtrẻ, là lực lượng kếthừa của việc xây dựng, bảo vệvà phát triển đất nước
trong tương lai. Chính vì vậy, việc định hướng và xây dựng chính sách trong giáo
dục đào tạo cần phải được hỗtrợbởi các công cụkhoa học đểtránh những sai lầm
đáng tiếc. Trong sốnhững công cụhỗtrợ đó, khai khoáng dữliệu là một công cụ
hữu ích và có tính khoa học cao, giúp các nhà quản lý giáo dục có được những tri
thức quý giá phục vụcho công tác quản lý.
Luận văn này, qua việc nghiên cứu các phương pháp khai khoáng dữliệu
ứng dụng vào lĩnh vực giáo dục đào tạo, cũng muốn đóng góp một phần nhỏvào sự
phát triển của cơsở đào tạo.
1.2 Mục tiêu
- Nghiên cứu phương pháp khai khoáng tìm luật kết hợp trên dữliệu giáo dục.
- Ứng dụng thực hiện nghiên cứu trên dữliệu kết quảhọc tập của sinh viên
trường ðH Tôn ðức Thắng, nhằm hỗtrợ đánh giá và dự đoán kết quảhọc
tập của sinh viên, qua đó nâng cao chất lượng đào tạo.
1.3 Nội dung thực hiện của luận văn
- Tìm hiểu khai khoáng dữliệu và các giải thuật khai khoáng dữliệu cơbản.
Trong đó, tập trung vào các thuật toán theo phương pháp luật kết hợp.
- Tìm hiểu cơsởdữliệu điểm của sinh viên trường ðại học Tôn ðức Thắng.
- Xây dựng ứng dụng phù hợp với thực tế.
1.4 ðóng góp của luận văn
Luận văn đã tìm hiểu việc khai khoáng dữliệu trong môi trường giáo dục
đào tạo, nắm vững phương pháp khai khoáng bằng luật kết hợp và các phương pháp
đánh giá độthú vịcủa luật, đồng thời khai khoáng luật theo hướng luật kết hợp cho
nhóm con vào bài toán giáo dục. Qua việc rút trích được những luật hữu ích, luận
văn giúp ích được việc phát hiện các bất thường giữa các môn học và hỗtrợcông
tác dựbáo kết quảhọc tập cho sinh viên.
1.5 Cấu trúc luận văn
Luận văn gồm 5 chương, được tổchức nhưsau:
Chương 1: Mở đầu
Chương 2: Tổng quan vềbài toán khai khoáng dữliệu giáo dục đào tạo
Chương 3: Khai khoáng dữliệu bằng luật kết hợp.
Chương 4: Chương trình và kết quả.
Chương 5: Kết luận và hướng phát triển
14 trang |
Chia sẻ: tuandn | Lượt xem: 1943 | Lượt tải: 2
Bạn đang xem nội dung tài liệu Luận văn Nghiên cứu và ứng dụng phương pháp khai khoáng luật kết hợp trên dữ liệu giáo dục, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
-57-
CHƯƠNG 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ
4.1 Giới thiệu bài toán
ðại học Tôn ðức Thắng ñược thành lập hơn 10 năm và có quy mô gần
28000 sinh viên, gồm 10 khoa chuyên ngành và 1 phòng trung học chuyên nghiệp.
Dữ liệu về kết quả học tập của sinh viên hơn 10 năm qua là rất lớn. Tính ñến hết
học kỳ 1 năm học 2007-2008, nguồn dữ liệu về ñiểm của sinh viên với các môn học
ñã là hơn 900.000 mẫu tin cho khối sinh viên chính quy. Tại trường còn có các môn
học mà sinh viên toàn trường ñều phải học, ñó là các môn tiếng Anh, các môn toán
cao cấp, các môn tin học văn phòng, các môn triết. Và hiện nay, sau khi trường ñã
chuyển sang mô hình công lập tự chủ tài chính và ñang tiến hành mở rộng quy mô
ñào tạo với các cơ sở mới ñược xây dựng ở phường Tân Phong, quận 7 và cơ sở
Nha Trang ñã ñi vào hoạt ñộng, số lượng sinh viên của trường sẽ phát triển nhanh
chóng. ðó chính là ñộng cơ thúc ñẩy luận văn tiến hành nghiên cứu khai khoáng dữ
liệu ñể khai thác nguồn dữ liệu to lớn này. Tác giả muốn nghiên cứu về mối quan
hệ giữa sinh viên và các môn học, cùng với việc tìm ra các mối quan hệ tiềm tàng
bên trong khối dữ liệu khổng lồ. Việc nghiên cứu này sẽ góp phần trong việc dự báo
kết quả học tập của sinh viên, qua ñó có thể giúp việc cải thiện chất lượng ñào tạo
tại trường.
4.2 Quy trình khám phá tri thức:
Luận văn tiến hành quy trình khai khoáng dữ liệu theo các bước sau ñây:
Hình 4.1: Quy trình khai khoáng dữ liệu giáo dục
Dữ liệu
Foxpro
Tiền
xử lý
Dữ liệu
SQL Server
Khai
khoáng
Tập
luật
Ứng
dụng
Lượng giá
mẫu
Kho
luật
Biểu diễn
tri thức
-58-
4.2.1 Giai ñoạn tiền xử lý:
Làm sạch dữ liệu: Tại giai ñoạn này thực hiện chuẩn hóa dữ liệu, xử lý dữ
liệu bị thiếu mất, dữ liệu không thích hợp, ñiển hình là việc chuẩn hóa dữ liệu về
ñiểm thi của sinh viên về dạng số thay cho các dạng chuỗi khác nhau.
Tích hợp dữ liệu: do dữ liệu ñược cung cấp thuộc một nguồn duy nhất và
theo một ñịnh dạng duy nhất, nên trong quy trình của chương trình không thực hiện
bước này.
Lựa chọn dữ liệu: luận văn chỉ chọn dữ liệu liên quan ñến kết quả học tập
của sinh viên ñể nghiên cứu, gồm dữ liệu về sinh viên, dữ liệu về các môn học, dữ
liệu về ñiểm của sinh viên.
Chuyển ñổi dữ liệu: dữ liệu gốc ở dạng Foxpro trên nền DOS, ñược
chuyển sang hệ quản trị SQL Server 2005.
Kết quả của bước này là một cơ sở dữ liệu gồm 7 bảng như sau:
Hình 4.2: Lược ñồ quan hệ của các bảng trong cơ sở dữ liệu
-59-
Trong ñó, lượng dữ liệu của các bảng như sau:
Tinh: 64 mẫu tin
He: 2 mẫu tin
Khoa: 10 mẫu tin
Lop: 319 mẫu tin
Monhoc: 1434 mẫu tin
Sinhvien: 18106 mẫu tin
Diem: 926583 mẫu tin
Chuẩn bị dữ liệu khai khoáng: tiến hành chọn các bảng, các thuộc tính
cần thiết ñể chạy thuật toán khai khoáng. Tại bước này, luận văn tạo ra hai view dữ
liệu chính: một là view sinh viên khoa CNTT-TUD với ñầy ñủ các môn học gồm
2435 bản ghi với 139 thuộc tính, hai là view sinh viên toàn trường với các môn học
chung là Toán, Ngoại ngữ, Triết, Tin học văn phòng gồm 18106 bản ghi với 118
thuộc tính.
4.2.2 Giai ñoạn khai khoáng:
- Chọn thuật toán khai khoáng luật kết hợp: FP-Growth, với phương án tìm tất
cả luật, ngưỡng ñộ hỗ trợ tối thiểu là 0.03 và ñộ tin cậy tối thiểu là 0.4.
- Bên cạnh ñó, thuật toán SD-Map thực hiện khai khoáng nhóm con cũng ñược
dùng ñể hỗ trợ công tác sinh luật với vế phải ñược xác ñịnh trước.
4.2.3 Giai ñoạn lượng giá mẫu:
- Xây dựng 2 bộ lọc luật: (1) lọc dựa trên ràng buộc về nhóm môn học và thứ
tự trước sau của các cặp môn học, (2) lọc dựa trên các ñộ ño khách quan là
chỉ số cosine và lift.
- Luật sau khi ñã qua 2 bộ lọc, sẽ ñược ñánh giá bởi chuyên gia trước khi
chuyển sang kho luật.
-60-
4.2.4 Giai ñoạn biểu diễn tri thức:
- Dựa trên các luật trong kho luật, chương trình có thể khuyến cáo về các sự
bất thường giữa các môn học.
ðể tìm sự bất thường trong kết quả học tập giữa các môn học của sinh viên,
chương trình xây dựng một mô hình về sự bất thường và giải pháp ñề nghị tương
ứng. Cụ thể, xét luật X Y thuộc tập luật thu ñược và X là môn học trước của
Y. Nếu có sự chênh lệch về xếp loại giữa X và Y từ 2 mức trở lên (ví dụ: X
trung bình, Y giỏi), luật XY cho thấy có sự bất thường giữa kết quả học tập
của X và Y.
- Ứng dụng kho luật ñể tiến hành dự báo kết quả học tập cho sinh viên.
Từ tập luật thu ñược, chương trình tạo ra một ñồ thị giữa các môn học với
các ñỉnh là các môn học, các cạnh có hướng tương ứng với các luật thu ñược, ví
dụ: cạnh XY ứng với có luật XY trong tập luật thu ñược. ðồ thị ñược lưu
trữ dưới dạng ma trận kề, tạm gọi là ma trận luật. Trước ñó, chương trình cũng
ñã xây dựng một ñồ thị có hướng dựa trên danh sách ràng buộc giữa các môn
học. ðồ thị này cũng ñược lưu trữ dạng ma trận kề, tạm gọi là ma trận chuẩn.
Sau ñó, chương trình thực hiện phép AND giữa ma trận luật và ma trận chuẩn ñể
tạo ra ma trận luật chuẩn hóa và dùng ñể tìm ñường ñi phục vụ công tác dự báo.
Chương trình cho phép người dùng thực hiện 2 dạng dự báo: có vế trái và
tìm kiếm vế phải (chiều xuôi), có vế phải và tìm kiếm vế trái (chiều ngược). Kết
quả dự báo có 2 dạng: trực tiếp (nếu tìm thấy ñường ñi từ vế trái sang vế phải)
và từ xa (chưa tìm thấy ñường ñi, vẫn còn nhiều tiềm ẩn bên trong).
4.3 Một số kết quả
4.3.1 Tập luật ñược tạo ra
Sau khi khai khoáng trên dữ liệu sinh viên khoa CNTT-TUD, tập thô thu
ñược khoảng hơn 15000 luật, sau ñó còn khoảng 6700 luật sau khi thực hiện ràng
-61-
buộc trên các vế của luật. Trong số này, sau khi tiến hành lọc bằng số cosine và lift,
tập luật thu ñược còn khoảng 6600.
Trong tập luật thu ñược, do ñặc thù của dữ liệu giáo dục, tập luật thu ñược có
3370 luật có ñộ hỗ trợ trên ngưỡng 0.1, 226 luật có ñộ hỗ trợ trên ngưỡng 0.2, và
chỉ có 3 luật có ñộ hỗ trợ trên ngưỡng 0.3. ðiều này cho thấy việc ñặt ngưỡng ñộ hỗ
trợ tối thiểu cao, sẽ có thể gây mất nhiều luật tốt.
Trong khi tìm kiếm sự bất thường giữa các môn học, chương trình thu ñược
một số kết quả, tiêu biểu là các luật sau:
Bảng 4.1: Kết quả tìm sự bất thường giữa các môn học của ngành CNTT
STT VẾ TRÁI VẾ PHẢI
HỖ
TRỢ
TIN
CẬY COSINE LIFT
6242
PT thiết kế hệ thống thông tin =
TRUNG BINH, Cơ sở dữ liệu
nâng cao = TRUNG BINH
ðồ án môn học 1
= GIOI
0.069 0.445 0.439 2.912
6335
Quản lý dự án phần mềm =
TRUNG BINH
ðồ án môn học 1
= GIOI
0.077 0.434 0.46 2.839
6399
ðồ họa máy tính = TRUNG
BINH, Lập trình Windows =
TRUNG BINH
ðồ án môn học 1
= GIOI
0.073 0.425 0.442 2.782
6414
PT thiết kế hệ thống thông tin =
TRUNG BINH, Phái = Nam
ðồ án môn học 1
= GIOI
0.068 0.424 0.426 2.774
6426
PT thiết kế hệ thống thông tin =
TRUNG BINH, Lý thuyết hệ ñiều
hành = TRUNG BINH
ðồ án môn học 1
= GIOI
0.067 0.423 0.424 2.764
6464
PT thiết kế hệ thống thông tin =
TRUNG BINH, Phân tích thiết kế
thuật giải = TRUNG BINH
ðồ án môn học 1
= GIOI
0.079 0.418 0.457 2.732
6488
PT thiết kế hệ thống thông tin =
TRUNG BINH
ðồ án môn học 1
= GIOI
0.097 0.415 0.503 2.715
6531
ðồ họa máy tính = TRUNG
BINH, Lập trình web = TRUNG
BINH
ðồ án môn học 1
= GIOI
0.074 0.411 0.438 2.687
6561
PT thiết kế hệ thống thông tin =
TRUNG BINH, Mạng máy tính =
TRUNG BINH
ðồ án môn học 1
= GIOI
0.072 0.407 0.43 2.661
6572
PT thiết kế hệ thống thông tin =
TRUNG BINH, Cấu Trúc dữ liệu
và Thuật giải = TRUNG BINH
ðồ án môn học 1
= GIOI
0.070 0.406 0.424 2.656
6601
Lập trình Windows = TRUNG
BINH, Phân tích thiết kế thuật giải
= TRUNG BINH
ðồ án môn học 1
= GIOI
0.091 0.401 0.481 2.625
6608
ðồ họa máy tính = TRUNG
BINH, Cơ sở dữ liệu nâng cao =
TRUNG BINH
ðồ án môn học 1
= GIOI
0.084 0.401 0.46 2.621
-62-
Tri thức mô tả này cho thấy có sự bất thường trong môn học “ðồ án môn học
1”. ðiều này ñặt ra vấn ñề cho nhà giáo dục: liệu yêu cầu và ñánh giá của môn “ðồ
án môn học 1” này có thỏa ñáng hay chưa? Giảng viên thường cảm tính trong việc
cho ñiểm môn học này? Liệu môn “ðồ án môn học 1” có cần thiết?
“ðồ án môn học 1” là môn giúp sinh viên nâng cao kỹ năng thông qua việc
thực hiện một ñồ án dựa trên kiến thức ñã học về: công nghệ phần mềm, phân tích
thiết kế hệ thống thông tin, lập trình Windows, lập trình Hướng ñối tượng,… Vì
vậy, việc loại bỏ môn này là không thể. Tuy nhiên, luận văn ñề xuất một yêu cần cụ
thể hơn ñối với môn này. Cụ thể là ñồ án này phải có yêu cầu về kiến thức, về kỹ
năng ñạt ñược sau khi hoàn thành ñồ án. Ngoài ra, phải có một khung ñiểm rõ ràng
cho việc ñánh giá. Việc ñánh giá môn học này, trước ñến nay vẫn phụ thuộc vào
từng giảng viên hướng dẫn. ðiều này dẫn ñến việc chấm cảm tính và ñánh giá theo
sự “thân quen”.
Như vậy, trong chương trình ñào tạo ngành CNTT, cần có sự thay ñổi ñối
với môn “ðồ án môn học 1” ñể môn này ñược ñánh giá ñúng và thực sự hiệu quả
trong ñào tạo sinh viên.
Chuyển sang xem xét luật liên quan ñến thông tin cá nhân của sinh viên khoa
CNTT-TUD, chương trình có ñược một vài luật thú vị sau:
Bảng 4.2: Quan hệ trong thông tin cá nhân sinh viên ngành CNTT
STT VẾ TRÁI VẾ PHẢI HỖ TRỢ TIN CẬY COSINE LIFT
5979 Phái = Nam Tỉnh = TPHCM 0.373 0.474 0.621 1.07
6589 Phái = Nu Tỉnh = TPHCM 0.086 0.404 0.275 0.913
Trong hai luật này, chỉ có luật số 5979 ñược thông qua do thỏa ñiều kiện lọc
với cosine và lift. Luật 6589 có số cosine nhỏ hơn 0.65 và số lift dưới 1 nên cần xét
lại. Khi xét lại ñộ hỗ trợ và ñộ tin cậy, luật 6589 có ñộ hỗ trợ quá thấp và ñộ tin cậy
chỉ xấp xỉ 0.4 nên bị loại. Ta thu ñược luật: nếu sinh viên khoa CNTT-TUD có giới
tính là nam thì ña số là cư dân TPHCM. Một diễn giải khác là, sinh viên nam ở
khoa CNTT-TUD là thường là cư dân của TPHCM.
-63-
Liên quan ñến việc ñánh giá sinh viên học kém, chương trình có một số luật
thu ñược như sau:
Bảng 4.3: Các luật thu ñược từ dữ liệu khoa CNTT-TUD
STT VẾ TRÁI VẾ PHẢI
HỖ
TRỢ
TIN
CẬY COSINE LIFT
345
Phân tích thiết kế thuật giải
= KEM, Lập trình nâng cao
= KEM
Tổ chức máy tính =
KEM 0.070 0.867 0.576 4.920
469
Lập trình nâng cao = KEM,
Tổ chức máy tính = KEM
Cấu Trúc dữ liệu và
Thuật giải = KEM 0.087 0.858 0.584 4.064
937 Ngôn ngữ lập trình = KEM
Phân tích thiết kế
thuật giải = KEM 0.090 0.826 0.675 5.254
1145
Ngôn ngữ lập trình =
KEM, Phái = Nam
Phân tích thiết kế
thuật giải = KEM 0.077 0.813 0.619 5.169
3591
Toán cao cấp A2 = KEM,
Phái = Nam
Toán cao cấp A3 =
KEM 0.087 0.681 0.622 4.580
4034 Tổ chức máy tính = KEM
Phân tích thiết kế
thuật giải = KEM 0.119 0.649 0.688 4.129
4168 Lập trình nâng cao = KEM
Cấu Trúc dữ liệu và
Thuật giải = KEM 0.110 0.639 0.568 3.026
4179
Lập trình nâng cao = KEM,
Phái = Nam
Cấu Trúc dữ liệu và
Thuật giải = KEM 0.092 0.638 0.518 3.022
4763 Lập trình nâng cao = KEM
Tổ chức máy tính =
KEM 0.101 0.587 0.571 3.328
4765
Cấu Trúc dữ liệu và Thuật
giải = KEM, Phái = Nam
Tổ chức máy tính =
KEM 0.109 0.586 0.591 3.325
4951
Cấu Trúc dữ liệu và Thuật
giải = KEM
Tổ chức máy tính =
KEM 0.125 0.570 0.624 3.235
5054
Tổ chức máy tính = KEM,
Cấu Trúc dữ liệu và Thuật
giải = KEM
Hệ ñiều hành Unix =
KEM 0.070 0.563 0.497 3.640
5176
Phân tích thiết kế thuật giải
= KEM
Ngôn ngữ lập trình =
KEM 0.090 0.552 0.675 5.254
5255
Cấu Trúc dữ liệu và Thuật
giải = KEM, Phái = Nam
Phân tích thiết kế
thuật giải = KEM 0.101 0.544 0.581 3.460
5343
Phân tích thiết kế thuật giải
= KEM, Phái = Nam
Ngôn ngữ lập trình =
KEM 0.077 0.537 0.616 5.118
5383 Toán cao cấp A3 = KEM
Toán cao cấp A4 =
KEM 0.082 0.533 0.555 3.891
5448
Cấu Trúc dữ liệu và Thuật
giải = KEM
Phân tích thiết kế
thuật giải = KEM 0.115 0.527 0.611 3.352
5466
Toán cao cấp A3 = KEM,
Phái = Nam
Toán cao cấp A4 =
KEM 0.070 0.526 0.510 3.838
5639 Tổ chức máy tính = KEM
Ngôn ngữ lập trình =
KEM 0.093 0.508 0.658 4.837
-64-
5651
Cấu Trúc dữ liệu và Thuật
giải = KEM, Phái = Nam
Hệ ñiều hành Unix =
KEM 0.094 0.507 0.545 3.279
5817 Toán cao cấp A2 = KEM
Toán cao cấp A4 =
KEM 0.072 0.490 0.498 3.576
5838
Cấu Trúc dữ liệu và Thuật
giải = KEM
Hệ ñiều hành Unix =
KEM 0.107 0.488 0.570 3.157
5931
Lập trình nâng cao = KEM,
Phái = Nam
Phân tích thiết kế
thuật giải = KEM 0.069 0.479 0.450 3.043
6002
Phân tích thiết kế thuật giải
= KEM, Phái = Nam
Hệ ñiều hành Unix =
KEM 0.067 0.471 0.445 3.050
6011
Tổ chức máy tính = KEM,
Phái = Nam
Hệ ñiều hành Unix =
KEM 0.074 0.470 0.467 3.043
6032
Phân tích thiết kế thuật giải
= KEM Cơ sở dữ liệu = KEM 0.076 0.469 0.624 5.279
6056 Lập trình nâng cao = KEM
Phân tích thiết kế
thuật giải = KEM 0.080 0.466 0.479 2.960
6073
Phân tích thiết kế thuật giải
= KEM
Hệ ñiều hành Unix =
KEM 0.076 0.463 0.468 3.000
6135 Tổ chức máy tính = KEM
Hệ ñiều hành Unix =
KEM 0.084 0.458 0.490 2.967
6463
Phân tích thiết kế thuật giải
= KEM
Công nghệ phần mềm
= KEM 0.068 0.418 0.618 5.799
6560
Cấu Trúc dữ liệu và Thuật
giải = KEM, Phái = Nam
Ngôn ngữ lập trình =
KEM 0.076 0.407 0.532 3.877
6592 Lập trình nâng cao = KEM
Ngôn ngữ lập trình =
KEM 0.070 0.404 0.509 3.846
Xét luật 345: sinh viên học kém môn Lập trình nâng cao và môn Phân tích
thiết kế thuật giải thì sẽ học kém môn Tổ chức máy tính. Luật này có số cosine nhỏ
hơn 0.65 nhưng có số lift là 4.92 rất cao so với 1, chứng tỏ vế trái và vế phải của
luật có liên quan chặt chẽ. Luật ñược chấp nhận.
Một cái nhìn tổng quát hơn, các luật ñược nêu trên ñây ñều có hệ số lift khá
cao, chứng tỏ vế trái và vế phải của các luật có liên quan. Việc học kém các môn ở
vế trái sẽ dẫn ñến học kém các môn ở vế phải.
Bảng 4.4 dưới ñây cho thấy một số luật thông thường thu ñược từ kết quả
học tập trung bình của sinh viên.
Bảng 4.4: Một số luật thông thường từ khoa CNTT-TUD
STT VẾ TRÁI VẾ PHẢI
HỖ
TRỢ
TIN
CẬY COSINE LIFT
2254 Tổ chức máy tính = Cấu Trúc dữ liệu và 0.261 0.750 0.710 2.001
-65-
TRUNG BINH Thuật giải = TRUNG
BINH
4785
Toán rời rạc = TRUNG
BINH
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH 0.090 0.584 0.367 1.559
3585
Toán rời rạc = TRUNG
BINH
Cơ sở dữ liệu =
TRUNG BINH 0.104 0.681 0.439 1.916
2466
Lập trình nâng cao =
TRUNG BINH
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH 0.191 0.739 0.603 1.972
3140
Lập trình nâng cao =
TRUNG BINH
Cơ sở dữ liệu =
TRUNG BINH 0.182 0.704 0.590 1.982
2466
Lập trình nâng cao =
TRUNG BINH
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH 0.191 0.739 0.603 1.972
3777
Lập trình nâng cao =
TRUNG BINH
Lập trình hướng ñối
tượng = TRUNG BINH 0.172 0.668 0.598 2.147
5775
Lập trình nâng cao =
TRUNG BINH
Lập trình Windows =
TRUNG BINH 0.128 0.494 0.490 1.950
1938
Lập trình nâng cao =
TRUNG BINH
Phân tích thiết kế thuật
giải = TRUNG BINH 0.198 0.766 0.616 1.988
6258
Lập trình nâng cao =
TRUNG BINH
ðồ họa máy tính =
TRUNG BINH 0.115 0.444 0.445 1.791
3185
Cơ sở dữ liệu = TRUNG
BINH
Công nghệ phần mềm =
TRUNG BINH 0.259 0.702 0.700 1.961
6126
Cơ sở dữ liệu = TRUNG
BINH
PT thiết kế hệ thống
thông tin = TRUNG
BINH 0.169 0.459 0.578 2.048
1076
Lập trình Windows =
TRUNG BINH
Công nghệ phần mềm =
TRUNG BINH 0.215 0.817 0.688 2.282
6067
Lập trình Windows =
TRUNG BINH
Trí tuệ nhân tạo =
TRUNG BINH 0.122 0.464 0.553 2.603
6191
Lập trình Windows =
TRUNG BINH
Quản lý dự án phần
mềm = TRUNG BINH 0.119 0.453 0.551 2.641
590
Lập trình hướng ñối
tượng = TRUNG BINH
Hệ ñiều hành Unix =
TRUNG BINH 0.274 0.850 0.775 2.274
1450
Lập trình hướng ñối
tượng = TRUNG BINH
Công nghệ phần mềm =
TRUNG BINH 0.256 0.795 0.741 2.219
2140
Lập trình hướng ñối
tượng = TRUNG BINH
Cơ sở dữ liệu =
TRUNG BINH 0.244 0.755 0.707 2.126
2736
Lập trình hướng ñối
tượng = TRUNG BINH
Cơ sở dữ liệu nâng cao
= TRUNG BINH 0.234 0.725 0.773 2.648
3708
Lập trình hướng ñối
tượng = TRUNG BINH
Lý thuyết hệ ñiều hành
= TRUNG BINH 0.217 0.673 0.708 2.398
3860
Lập trình hướng ñối
tượng = TRUNG BINH
Lập trình Unix =
TRUNG BINH 0.214 0.662 0.748 2.719
4014
Lập trình hướng ñối
tượng = TRUNG BINH
Lập trình Windows =
TRUNG BINH 0.210 0.651 0.721 2.567
4287
Lập trình hướng ñối
tượng = TRUNG BINH
ðồ họa máy tính =
TRUNG BINH 0.203 0.629 0.705 2.541
5493 Lập trình hướng ñối Thi tốt nghiệp ( Cơ sở) 0.169 0.524 0.668 2.742
-66-
tượng = TRUNG BINH = TRUNG BINH
5779
Lập trình hướng ñối
tượng = TRUNG BINH
PT thiết kế hệ thống
thông tin = TRUNG
BINH 0.159 0.494 0.582 2.204
6273
Lập trình hướng ñối
tượng = TRUNG BINH
Trí tuệ nhân tạo =
TRUNG BINH 0.143 0.442 0.584 2.479
6322
Lập trình hướng ñối
tượng = TRUNG BINH
Quản lý dự án phần
mềm = TRUNG BINH 0.140 0.436 0.587 2.540
3313
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
Cơ sở dữ liệu =
TRUNG BINH 0.270 0.696 0.714 1.957
3273
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
Lập trình hướng ñối
tượng = TRUNG BINH 0.271 0.698 0.766 2.243
3670
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
Ngôn ngữ lập trình =
TRUNG BINH 0.262 0.675 0.682 1.839
4294
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
Cơ sở dữ liệu nâng cao
= TRUNG BINH 0.244 0.629 0.736 2.297
4638
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
Lý thuyết hệ ñiều hành
= TRUNG BINH 0.232 0.597 0.690 2.129
5092
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
Lập trình Windows =
TRUNG BINH 0.217 0.559 0.680 2.205
5229
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
ðồ họa máy tính =
TRUNG BINH 0.212 0.547 0.672 2.207
6554
Cấu Trúc dữ liệu và
Thuật giải = TRUNG
BINH
Trí tuệ nhân tạo =
TRUNG BINH 0.159 0.408 0.592 2.289
5025
PT thiết kế hệ thống
thông tin = TRUNG
BINH
Quản lý dự án phần
mềm = TRUNG BINH 0.131 0.565 0.646 3.296
5754
PT thiết kế hệ thống
thông tin = TRUNG
BINH
Thi tốt nghiệp ( Cơ sở)
= TRUNG BINH 0.115 0.496 0.538 2.600
3984
Trí tuệ nhân tạo =
TRUNG BINH
Thi tốt nghiệp ( Cơ sở)
= TRUNG BINH 0.121 0.653 0.631 3.421
6223
Trí tuệ nhân tạo =
TRUNG BINH
Thi tốt nghiệp ( Chuyên
ngành) = TRUNG
BINH 0.083 0.449 0.523 3.423
ðối với dữ liệu sinh viên toàn trường, chương trình tiến hành khai khoáng
trên kết quả các môn học chung cho toàn trường, ñó là các môn thuộc nhóm Toán,
Ngoại ngữ, Triết và Tin học văn phòng. Chương trình có một số kết quả như sau:
-67-
Số lượng luật thu ñược chưa qua lọc là 700. sau khi lọc qua các ràng buộc, số
lượng luật còn khoảng 300. Chương trình thu ñược tập luật cuối sau khi lọc với
cosine và lift với số lượng là 45.
Trong nỗ lực tìm kiếm sự bất thường giữa các môn học, chương trình thu
ñược các luật sau:
Bảng 4.5: Tìm sự bất thường trong các môn học chung
STT VẾ TRÁI VẾ PHẢI
HỖ
TRỢ
TIN
CẬY COSINE LIFT
82
Thực hành internet = GIOI,
Anh văn giao tiếp 3 =
TRUNG BINH
Anh văn giao tiếp
4 = TRUNG
BINH 0.027 0.711 0.381 0.744
87
Thực hành internet = GIOI,
Anh văn giao tiếp 2 =
TRUNG BINH
Anh văn giao tiếp
3 = TRUNG
BINH 0.023 0.705 0.336 0.678
Tuy nhiên, khi ñánh giá trên cơ sở hai số cosine và lift, các luật này không
thỏa mãn yêu cầu. Tuy nhiên, các luật này cũng ñáng ñược lưu tâm bởi các nhà giáo
dục, vì chúng có ñộ tin cậy cao (>0.7).
Dưới ñây là một số luật thu ñược sau khi ñã chọn lọc và ñánh giá qua toàn
quy trình lượng giá:
Bảng 4.6: Một số luật thu ñược trong các môn học chung
STT VẾ TRÁI VẾ PHẢI
HỖ
TRỢ
TIN
CẬY COSINE LIFT
44 Toán cao cấp A1 = KEM
Toán cao cấp A3
= KEM 0.024 0.746 0.493 1.400
93 Toán cao cấp A2 = KEM
Toán cao cấp A3
= KEM 0.036 0.699 0.584 1.312
113 Anh văn giao tiếp 3 = KEM
Anh văn giao
tiếp 4 = KEM 0.028 0.680 0.564 1.563
115
Anh văn giao tiếp 3 =
TRUNG BINH
Anh văn giao
tiếp 4 = TRUNG
BINH 0.098 0.6