Mục đích của luận án này là nghiên cứu tổng quan
về khai thác dữ liệu, nghiên cứu một số thuật toán khai
thác luật kết hợp trong đó đi sâu vào nghiên cứu, thử
nghiệm ứng dụng vào phân tích tài chính ngân hàng, giúp
chuyên gia có được những thông tin có tính chất qui luật,
trợ giúp quyết định hiệu quả.
Nội dung luận văn được chia thành 3 chương:
Chương 1: Tổng quan về hoạt động kinh doanh của
ngân hàng thương mại: Giới thiệu tổng quan về hoạt động
của ngân hàng, các chức năng của ngân hàng thương mại;
Những quy chế đặc thù đối với hoạt động ngân hàng; Tìm
hiểu bảng cân đối kế toán ngân hàng và các chỉ số tài
chính.
Chương 2: Cơ sở lý thuyết về khai thác dữ liệu: Tổ
chức và khai thác dữ liệu truyền thống; khai thác dữ liệu
và quá trình phát hiện tri thức, các dạng dữ liệu có thể
khai thác dữ liệu, nhiệm vụ của khai thác dữ liệu, các
phương pháp khai thác dữ liệu.
Chương 3: Nghiên cứu luật kết hợp: Trong chương
này đi sâu vào nghiên cứu luật kết hợp nhị phân.
24 trang |
Chia sẻ: tuandn | Lượt xem: 1772 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Tóm tắt Nghiên cứu ứng dụng luật kết hợp trong phân tích tài chính và kinh doanh ngân hàng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------------------
NGUYỄN THỊ NGUYỆT
NGHIÊN CỨU ỨNG DỤNG LUẬT KẾT HỢP
TRONG PHÂN TÍCH TÀI CHÍNH VÀ KINH DOANH
NGÂN HÀNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Người hướng dẫn khoa học: PGS. TS NGUYỄN BÁ TƯỜNG
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012
1
MỞ ĐẦU
Mục đích của luận án này là nghiên cứu tổng quan
về khai thác dữ liệu, nghiên cứu một số thuật toán khai
thác luật kết hợp trong đó đi sâu vào nghiên cứu, thử
nghiệm ứng dụng vào phân tích tài chính ngân hàng, giúp
chuyên gia có được những thông tin có tính chất qui luật,
trợ giúp quyết định hiệu quả.
Nội dung luận văn được chia thành 3 chương:
Chương 1: Tổng quan về hoạt động kinh doanh của
ngân hàng thương mại: Giới thiệu tổng quan về hoạt động
của ngân hàng, các chức năng của ngân hàng thương mại;
Những quy chế đặc thù đối với hoạt động ngân hàng; Tìm
hiểu bảng cân đối kế toán ngân hàng và các chỉ số tài
chính.
Chương 2: Cơ sở lý thuyết về khai thác dữ liệu: Tổ
chức và khai thác dữ liệu truyền thống; khai thác dữ liệu
và quá trình phát hiện tri thức, các dạng dữ liệu có thể
khai thác dữ liệu, nhiệm vụ của khai thác dữ liệu, các
phương pháp khai thác dữ liệu.
Chương 3: Nghiên cứu luật kết hợp: Trong chương
này đi sâu vào nghiên cứu luật kết hợp nhị phân.
2
Chương 1: TỔNG QUAN VỀ HOẠT ĐỘNG KINH
DOANH CỦA NGÂN HÀNG THƯƠNG MẠI
1.1. Kinh doanh ngân hàng – một loại hình kinh
doanh đặc biệt
1.1.1. Ngân hàng - một trung gian tài chính
Để hiểu được chức năng đặc biệt của ngân hàng
trong nền kinh tế, chúng ta hãy hình dung một thế giới
giản đơn trong đó không tồn tại hoạt động của hệ thống
ngân hàng. Trong một thế giới như vậy, những khoản tiết
kiệm của dân chúng chỉ có thể được sử dụng hoặc là dưới
dạng tiền mặt; hoặc là dưới dạng đầu tư chứng khoán vào
các công ty. Nói một cách khái quát, các công ty phát
hành chứng khoán để đầu tư vào các tài sản thực, như nhà
xưởng, máy móc, nguyên liệu...Hình 1.1 mô tả luồng tiền
tiết kiệm được luân chuyển từ dân chúng đến các công ty
và ngược lại các chứng khoán là cổ phiểu và trái phiếu
(CP & TP) được luân chuyển từ phía công ty đến dân
chúng.
Công ty
(những người cần
vốn)
Dân chúng
(những người gửi tiết
kiệm)
CP&
Vốn
3
Hình 1.1 Các luồng vốn và chứng khoán trong một thế giới
không có ngân hàng.
Hình 1.2 chỉ ra bức tranh thực tế của thế giới mà
chúng ta đang sống, biểu diễn các lượng vốn luân chuyển
trong nền kinh tế, qua đó cho thấy vai trò, vị trí của hệ
thống ngân hàng là trung gian giữa người đầu tư và các
công ty là như thế nào.
Hình 1.2 Các luồng vốn luân chuyển trong một thế giới mà
các hệ thống ngân hàng tồn tại và phát triển
Ngân hàng thực hiện hai chức năng cơ bản đó là:
chức năng luân chuyển tài sản và chức năng cung cấp các
dịch vụ thanh toán, môi giới và chuyển tài sản; và chức
năng cung cấp các dịch tư vấn.
1.1.2. Các chức năng của ngân hàng thương mại
- Tạo tiền;
- Thanh toán;
Ngân hàng
(nhà trung
gian)
Ngân hàng
(nhà luân
chuyển tài
sản)
Dân
chúng
Các công
ty
Vốn
Chứng chỉ
TG
CP
&TP
Vốn
4
- Huy động tiết kiệm;
- Mở rộng tín dụng;
- Tài trợ ngoại thương;
- Dịch vụ ủy thác;
- Bảo quản an toàn vật có giá;
- Dịch vụ kinh kỹ;
1.1.3. Những quy chế đặc thù đối với hoạt động
ngân hàng
- Qui chế về an toàn trong hoạt động kinh
doanh ngân hàng;
- Qui chế về chính sách tiền tệ;
- Qui chế về phân phối tín dụng;
- Qui chế về bảo vệ người tiêu dùng;
- Qui chế về bảo vệ người đầu tư;
- Qui chế về thành lập ngân hàng và cấp
giấy phép kinh doanh.
1.2. Tìm hiểu bảng cân đối kế toán ngân hàng và các
chỉ số tài chính
1.2.1. Các khái niệm
1.2.2. Nội dung và kết cấu bảng cân đối kế toán
1.2.3. Mô tả các khoản mục trên bảng cân đối kế
toán
1.2.4. Các chỉ số tài chính chủ yếu của ngân hàng
5
Chương 2: CƠ SỞ LÝ THUYẾT VỀ KHAI THÁC DỮ
LIỆU
2.1. Tổ chức và khai thác dữ liệu truyền thống
2.2. Bước phát triển tiếp theo của việc tổ chức và
khai thác các cơ sở dữ liệu
2.3. Khai thác dữ liệu và quá trình phát hiện tri thức
2.4. Các dạng dữ liệu có thể khai thác dữ liệu
Khai thác dữ liệu có khả năng chấp nhận một số
kiểu dữ liệu khác nhau điển hình như sau:
- Cơ sở dữ liệu quan hệ (relational databases).
- Cơ sở dữ liệu đa chiều (multidimention
structures, data warehouses, data mart).
- Cơ sở dữ liệu giao tác (transactional databases).
- Cơ sở dữ liệu quan hệ - hướng đối tượng (object
relational databases).
- Dữ liệu không gian và thời gian (spatial,
temporal, and time-series data).
- Cơ sở dữ liệu đa phương tiện (Multimedia
databases).
2.5. Nhiệm vụ chính của khai thác dữ liệu
- Phân lớp (Classification).
- Hồi quy (regression).
6
- Phân nhóm (Clustering).
- Tóm tắt (summarization).
- Mô hình hóa phụ thuộc (Dependency Modeling).
2.6. Các phương pháp khai thác dữ liệu
Quá trình khai thác dữ liệu là quá trình phát hiện
mẫu, trong đó, giải thuật khai thác dữ liệu tìm kiếm các
mẫu đáng quan tâm theo dạng xác định như các luật, cây
phân lớp, quy hồi, phân nhóm, v.v…
2.6.1. Các thành phần của giải thuật khai thác dữ
liệu
- Biểu diễn mô hình.
- Đánh giá mô hình.
- Tìm kiếm mô hình.
2.6.2. Một số phương pháp khai thác dữ liệu phổ
biến
2.6.2.1. Phương pháp quy nạp.
2.6.2.2. Cây quyết định và luật.
2.6.2.3. Phát hiện các luật kết hợp.
2.6.2.4. Các phương pháp phân lớp và hồi quy
phi tuyến.
2.6.2.5. Phân nhóm và phân đoạn (Clustering
and Segmentation).
2.6.2.6. Các phương pháp dựa trên mẫu.
7
2.6.2.7. Mô hình phụ thuộc dựa trên đồ thị xác
suất.
2.6.2.8. Khai thác dữ liệu dạng văn bản (Text
Mining).
2.6.2.9. Mạng neuron.
2.6.2.10. Giải thuật di truyền.
2.7. Phương pháp khai thác áp dụng trong luận văn
Trong luận văn này, phương pháp khai thác dữ liệu
đã được áp dụng chủ yếu là phương pháp khai thác luật
kết hợp nhị phân có cải tiến bằng cách xác định những
thuộc tính về phải để khám phá những luật thật sự quan
tâm, thuật toán khám phá luật kết hợp nhị phân sẽ được
trình bày trong chương 3.
8
Chương 3: KHÁM PHÁ LUẬT KẾT HỢP
3.1. Ý nghĩa của luật kết hợp
Luật kết hợp là một phương pháp phổ biến và quan
trọng trong khai thác dữ liệu.
Độ hỗ trợ (support) và độ tin cậy (confidence) là
hai thước đo cho một luật kết hợp.
3.2. Một số hướng tiếp cận trong khai thác luật kết
hợp
- Luật kết hợp nhị phân (Binary association rule hoặc
Boolean association rule).
- Luật kết hợp có thuộc tính số và thuộc tính hạng
mục (quantitative and categorical association rule).
- Luật kết hợp tiếp cận theo hướng tập thô (mining
association rules base on rought set).
- Luật kết hợp nhiều mức (multi-level association
rule).
- Luật kết hợp mờ (fuzzy assocication rule).
- Luật kết hợp với thuộc tính được đánh trọng số
(association rule with weighted items).
- Khai thác luật kết hợp song song (parallel mining
of association rules).
3.3. Phát biểu bài toán khai thác luật kết hợp
9
3.3.1. Dữ liệu để khai thác
Cho I = {i1, i2, i3,.., in} là tập bao gồm n mục
(Item – còn gọi là thuộc tính - attribute). X I được gọi
là tập mục (itemset).
T = {t1, t2,.., tm} là tập gồm m giao tác
(Transaction – còn gọi là bản ghi - record).
R là một quan hệ nhị phân trên I và T (hay R
IxT). Nếu giao tác t có chứa mục i thì ta viết (i, t) R
(hoặc iRt). Ta sẽ ký hiệu DM = (T, I, R) là dữ liệu (ngữ
cảnh) để khai thác.
Ví dụ về cơ sở dữ liệu (dạng giao tác): I = {A, B,
C, D, E},
T = {1, 2, 3, 4, 5, 6}, thông tin về các giao tác cho
ở bảng sau:
Bảng 3.1.a Ví dụ về một cơ sở dữ liệu dạng giao tác –
(D) DM
T I = {A, B, C, D, E}
1 A B D E
2 B C E
3 A B D E
4 A B C E
5 A B C D E
6 B C D
10
Trong một số trường hợp để cho tiện ta biểu diễn
bảng 3.1.a dưới dạng bảng nhị phân 0, 1 như sau:
Bảng 3.1.b Ví dụ về một cơ sở dữ liệu dạng giao tác –
(D) DM
A B C D E
t1 1 1 0 1 1
t2 0 1 1 0 1
t3 1 1 0 1 1
t4 1 1 1 0 1
t5 1 1 1 1 1
t6 0 1 1 1 0
3.3.2. Độ hỗ trợ của tập mục X
Cho ngữ cảnh khai thác dữ liệu D = (T, I, R); X
I. Gọi T(X) là tập giao tác chứa X. Độ hỗ trợ (support) của
một tập mục X, ký hiệu s(X) là tỷ số của số lượng giao tác
trong cơ sở dữ liệu D chứa X trên tổng số các giao tác
trong cơ sơ dữ liệu D. Hay
s(X) = Card (T(X)) / Card (T) =
T
XT )(
.
3.3.4. Luật kết hợp X => Y
Cho DM = (T, I, R) là dữ liệu để khai thác.
X, Y I là các tập mục thỏa mãn điều kiện
YX .
11
Luật kết hợp của X và Y, ký hiệu X=>Y, đây là
luật chỉ khả năng xuất hiện Y khi X xuất hiện.
Luật kết hợp có hai độ đo gắn với nó là: độ hỗ trợ
và độ tin cậy (confidence) của luật.
Độ hỗ trợ của luật kết hợp X => Y
Độ hỗ trợ của luật kết hợp X => Y, ký hiệu s(X =>
Y) là tỷ số của số các giao tác trong D có chứa X Y trên
số tất cả giao tác trong D. Hay
s(X => Y) = card (T(X Y))/card(T) =
T
YXT )(
;
trong đó T(X) là tập giao tác chứa tập mục X.
Độ tin cậy của luật kết hợp X => Y
Độ tin cậy (confidence) của luật X => Y, ký hiệu
conf(X => Y) là tỷ số các giao tác trong D có chứa X Y
trên số các giao tác chứa X. Hay
Conf(X => Y) = card(T(X Y))/card(T(X)) =
)(
)(
XT
YXT
;
3.5. Luật kết hợp có thuộc tính số và thuộc tính hạng
mục
Khai thác luật kết hợp với thuộc tính số và thuộc
tính hạng mục (quantitative and categorical association
12
rule) là một trong những hướng tiếp cận quan trọng trong
lĩnh vực khai thác luật kết hợp. Đặc biệt trong phân tích
dữ liệu ngân hàng.
Ví dụ ta xét tập 24 tài khoản của 24 khách hàng
như sau:
Bảng 3.4 Cơ sở dữ liệu chi tiết của 24 giao dịch tiền gửi
tiết kiệm trong ngân hàng
TAI
KHOAN
LOAI
TG
TIEN
GUI
DATE
GUI
DATE
RUT
DATE
DH
TIEN
RUT
D
H
T
H
G
T
033240235
78.32 1
800,000,
000
1/2/20
04
7/2/20
04
4/2/20
04
829,059,
200 0 0 1
033260007
29.41 1
350,000,
000
1/2/20
04
7/2/20
04
7/2/20
04
356,300,
000 1 0 0
033240751
60.37 1
343,000,
000
1/5/20
04
10/5/2
004
4/5/20
04
362,070,
672 0 0 1
033240751
42.37 1
300,000,
000
1/5/20
04
11/5/2
004
4/5/20
04
300,000,
000 0 0 1
033260007
27.30 1
300,000,
000
1/6/20
04
7/7/20
04
7/6/20
04
305,400,
000 0 0 1
033240003
85.36 1
300,000,
000
1/6/20
04
2/12/2
004
4/6/20
04
300,000,
000 0 1 0
033260853
32.31 1
1,000,00
0,000
1/8/20
04
7/8/20
04
7/8/20
04
1,018,00
0,000 1 0 0
033260235
99.32 1
440,000,
000
1/8/20
04
7/8/20
04
7/8/20
04
447,920,
000 1 0 0
033240751
95.37 1
720,000,
000
1/8/20
04
4/8/20
04
4/8/20
04
732,960,
000 1 0 0
033240752
14.37 1
3,980,00
0,000
1/9/20
04
10/8/2
004
4/9/20
04
3,980,00
0,000 0 0 1
033240007
52.41 1
390,000,
000
1/12/2
004
4/12/2
004
4/12/2
004
397,020,
000 1 0 0
033260236
17.32 1
360,000,
000
1/13/2
004
7/13/2
004
7/13/2
004
366,480,
000 1 0 0
033240003
90.36 1
300,000,
000
1/13/2
004
5/20/2
004
4/13/2
004
305,670,
000 0 0 1
033240008
20.35 1
600,000,
000
1/14/2
004
2/25/2
004
4/14/2
004
600,000,
000 0 1 0
033240008
00.35 1
300,000,
000
1/14/2
004
3/15/2
004
4/14/2
004
300,000,
000 0 1 0
033240752
54.37 1
5,000,00
0,000
1/14/2
004
4/14/2
004
4/14/2
004
5,090,00
0,000 1 0 0
13
033240007
63.41 1
300,000,
000
1/14/2
004
4/14/2
004
4/14/2
004
305,400,
000 1 0 0
033240853
66.31 1
337,000,
000
1/15/2
004
7/15/2
004
4/15/2
004
343,066,
000 0 0 1
033240752
62.37 1
370,000,
000
1/15/2
004
4/29/2
004
4/15/2
004
376,660,
000 0 0 1
033240007
66.41 1
300,000,
000
1/15/2
004
4/15/2
004
4/15/2
004
305,400,
000 1 0 0
033240236
40.32 1
400,000,
000
1/16/2
004
4/16/2
004
4/16/2
004
407,200,
000 1 0 0
033240236
41.32 1
350,000,
000
1/16/2
004
5/17/2
004
4/16/2
004
356,300,
000 0 0 1
033240772
74.37 1
400,000,
000
1/16/2
004
4/16/2
004
4/16/2
004
407,200,
000 1 0 0
033240236
61.32 1
450,000,
000
1/19/2
004
4/21/2
004
4/19/2
004
458,100,
000 0 0 1
Cơ sở dữ liệu có các thuộc tính như sau:
- Thuộc tính TAIKHOAN(tài khoản) là thuộc tính
hạng mục.
- Thuộc tính LOAITG(loại tiền gửi) là thuộc tính nhị
phân: 1 là TG kỳ hạn và 0 là TG không kỳ hạn.
- Thuộc tính TIENGUI(tiền gửi) và TIENRUT(tiền
rút) là thuộc tính số.
- Thuộc tính DATEGUI(ngày gửi), DATERUT(ngày
rút) và DATEDH (ngày đến hạn) là thuộc tính số.
- Thuộc tính DH (rút đúng hạn), TH (rút trước hạn)
và GT (gửi tiếp) là thuộc tính nhị phân: 1 là đúng, 0
là không đúng.
Với cơ sở dữ liệu như bảng 3.4 ta có thể rút ra các
luật kết hợp như sau:
14
Luật 1: (LOAITG: kỳ hạn) AND (TIENGUI
300.000.000) => (khả năng DH là có) với độ tin cậy là
11/24 = 46%. Hay:
Luật 2: (LOAITG: kỳ hạn) AND (TIENGUI
300.000.000) => (khả năng TH là có) với độ tin cậy là
3/24 =12,5% ( làm tròn 13%). Hay:
Luật 3: (LOAITG: kỳ hạn) AND (TIENGUI
500.000.000) => (khả năng GT là có) với độ tin cậy là 2/5
= 40%. Hay:
Luật 4: (LOAITG: kỳ hạn 6 tháng) AND
(TIENGUI 300.000.000) => (khả năng ĐH là có) với độ
tin cậy là 3/6 = 50%.
3.6. Phương pháp rời rạc hóa dữ liệu để phân tích tài
chính – ngân hàng
Trường hợp 1: Nếu A là thuộc tính số rời rạc hoặc
thuộc tính hạng mục có miền giá trị hữu hạn dạng {v1,
v2,…, vk} và k đủ nhỏ (<100) thì ta biến đổi thuộc tính A
này thành k thuộc tính nhị phân Av1, Av2, ……Avk.
Ví dụ: Trong bảng 3.4, ta chuyển thuộc tính
TIENGUI thành 10 mục cụ thể như sau:
TIENGUI800(tg80), TIENGUI350(tg35);
TIENGUI300(tg30), TIENGUI400(tg40);
15
TIENGUI1ty(tg1ty), TIENGUI450(tg45);
TIENGUI700(tg70), TIENGUI4ty(tg4ty);
TIENGUI600(tg60), TIENGUI5ty(tg5ty);
Bây giờ giả sử làn tròn như sau: tiền gửi
720.000.000 coi như 700.000.000; 342.000.000,
337.000.000, 360.000.000, 370.000.000 coi như
350.000.000; 390.000.000 coi như 400.000.000,... Khi đó
bảng 3.4 được về bảng mà TIENGUI dạng nhị phân sau:
Bảng 3.5 Rời rạc hóa thuộc tính thuộc tính hạng mục
TAI
KHOAN
LOAI
TG
Tg
30
Tg
35
Tg
40
Tg
1ty
Tg
45
Tg
60
Tg
70
Tg
4ty
Tg
5ty
D
H
...32 1 0 0 0 0 0 0 0 0 0 0
...41 1 0 1 0 0 0 0 0 0 0 1
...37 1 0 1 0 0 0 0 0 0 0 0
...37 1 1 0 0 0 0 0 0 0 0 0
...30 1 1 0 0 0 0 0 0 0 0 0
...36 1 1 0 0 0 0 0 0 0 0 0
...31 1 0 0 0 1 0 0 0 0 0 1
...32 1 0 0 0 0 1 0 0 0 0 1
...37 1 0 0 0 0 0 0 1 0 0 1
...37 1 0 0 0 0 0 0 0 1 0 0
...41 1 0 0 1 0 0 0 0 0 0 1
...32 1 0 1 0 0 0 0 0 0 0 1
...36 1 1 0 0 0 0 0 0 0 0 0
...35 1 0 0 0 0 0 1 0 0 0 0
...35 1 1 0 0 0 0 0 0 0 0 0
...37 1 0 0 0 0 0 0 0 0 1 1
...41 1 1 0 0 0 0 0 0 0 0 1
...31 1 0 1 0 0 0 0 0 0 0 0
...37 1 0 1 0 0 0 0 0 0 0 0
...41 1 1 0 0 0 0 0 0 0 0 1
...32 1 0 0 1 0 0 0 0 0 0 1
...32 1 0 1 0 0 0 0 0 0 0 0
...37 1 0 0 1 0 0 0 0 0 0 1
...32 1 0 0 0 0 1 0 0 0 0 0
16
Với cơ sở dữ liệu như bảng 3.5 ta có thể tính độ tin
cậy Conf(({tg30, tg35, tg40}) => DH) như sau:
Conf(tg30 =>DH) =
7
2
= 29%
Conf(tg35 =>DH) =
6
2
= 33%
Conf(tg40 =>DH) =
3
3 = 100%
Trường hợp 2: Nếu A là thuộc tính số liên tục hoặc
thuộc tính hạng mục có miền giá trị hữu hạng dạng
{V1,V2, … , Vp} (p lớn) thì ta sẽ ánh xạ thành q vùng
thuộc tính nhị phân , <A :
start2…..end2>, ……….. , .
Ví dụ thuộc tính số tiền gửi trong bảng 3.5 thuộc
dạng này, ta chia thuộc tính số tiền gửi thành các thuộc
tính nhị phân như sau:
TIENGUI1: tương ứng với số tiền gửi đến
300.000.000
TIENGUI2: tương ứng với số tiền gửi trên
300.000.000 đến 500.000.000
TIENGUI3: tương ứng với số tiền gửi trên
500.000.000.
17
Khi đó ta có bảng với cột tiền gửi được biến thành
3 cột nhị phân sau:
Bảng 3.6 Nhị phân hóa cột tiền gửi
TAI
KHOAN
LOAI
TG
TIEN
GUI1
TIEN
GUI2
TIEN
GUI3
DATE
DH TIENRUT
D
H
T
H
G
T
033240235
78.32 1 0 0 1 4/2/2004 829,059,200 0 0 1
033260007
29.41 1 0 1 0 7/2/2004 356,300,000 1 0 0
033240751
60.37 1 0 1 0 4/5/2004 362,070,672 0 0 1
033240751
42.37 1 1 0 0 4/5/2004 300,000,000 0 0 1
033260007
27.30 1 1 0 0 7/6/2004 305,400,000 0 0 1
033240003
85.36 1 1 0 0 4/6/2004 300,000,000 0 1 0
033260853
32.31 1 0 0 1 7/8/2004
1,018,000,00
0 1 0 0
033260235
99.32 1 0 1 0 7/8/2004 447,920,000 1 0 0
033240751
95.37 1 0 0 1 4/8/2004 732,960,000 1 0 0
033240752
14.37 1 0 1 0 4/9/2004
3,980,000,00
0 0 0 1
033240007
52.41 1 0 1 0
4/12/200
4 397,020,000 1 0 0
033260236
17.32 1 0 1 0
7/13/200
4 366,480,000 1 0 0
033240003
90.36 1 1 0 0
4/13/200
4 305,670,000 0 0 1
033240008
20.35 1 0 0 1
4/14/200
4 600,000,000 0 1 0
033240008
00.35 1 1 0 0
4/14/200
4 300,000,000 0 1 0
033240752
54.37 1 0 1 0
4/14/200
4
5,090,000,00
0 1 0 0
033240007
63.41 1 1 0 0
4/14/200
4 305,400,000 1 0 0
033240853
66.31 1 0 1 0
4/15/200
4 343,066,000 0 0 1
033240752
62.37 1 0 1 0
4/15/200
4 376,660,000 0 0 1
033240007
66.41 1 1 0 0
4/15/200
4 305,400,000 1 0 0
033240236 1 0 1 0 4/16/200 407,200,000 1 0 0
18
40.32 4
033240236
41.32 1 0 1 0
4/16/200
4 356,300,000 0 0 1
033240772
74.37 1 0 1 0
4/16/200
4 407,200,000 1 0 0
033240236
61.32 1 0 1 0
4/19/200
4 458,100,000 0 0 1
Với số liệu như bảng 3.6 ta có thể xác định và tính
độ tin cậy các luật như:
TIENGUI1 => GT & conf( TIENGUI1 => GT) =
3/7 = 43%
TIENGUI2 => GT & conf( TIENGUI2 => GT) =
6/13 =48%
TIENGUI3 => GT & conf( TIENGUI3 => GT) =
1/4 = 25%
Vậy số khách hàng có tiền gửi từ 3 trăm triệu đến
3 trăm triệu sẽ gửi tiếp là lớn nhất = 48%. Trong khi đó
khách hàng gửi từ 5 trăm triệu trở lên chỉ có 25% gửi tiếp.
Bây giờ ta xét bài toán rời rạc và nhị phân hóa cột
hạng mục có hữu hạn giá trị trong bảng khách hàng. Ví
dụ: ta có danh sách khách hàng sau:
Bảng 3.7 Bảng có cột hạng mục
TAI
KHOAN
LOAI
TG
TIEN
GUI
DATE
GUI
DATE
RUT
DATE
DH
TIEN
RUT
D
H
T
H
G
T
03324023
578.32
Có
KH
800,000,
000
1/2/20
04
7/2/200
4
4/2/200
4
829,05
9,200 0 0 1
03326000
729.41
Có
KH
350,000,
000
1/2/20
04
7/2/200
4
7/2/200
4
356,30
0,000 1 0 0
03324075
160.37
Có
KH
343,000,
000
1/5/20
04
10/5/20
04
4/5/200
4
362,07
0,672 0 0 1
19
03324075
142.37
Có
KH
300,000,
000
1/5/20
04
11/5/20
04
4/5/200
4
300,00
0,000 0 0 1
03326000
727.30
Có
KH
300,000,
000
1/6/20
04
7/7/200
4
7/6/200
4
305,40
0,000 0 0 1
03324000
385.36
Có
KH
300,000,
000
1/6/20
04
2/12/20
04
4/6/200
4
300,00
0,000 0 1 0
03326085
332.31
Có
KH
1,000,00
0,000
1/8/20
04
7/8/200
4
7/8/200
4
1,018,0
00,000 1 0 0
03326023
599.32
Có
KH
440,000,
000
1/8/20
04
7/8/200
4
7/8/200
4
447,92
0,000 1 0 0
03324075
195.37
Có
KH
720,000,
000
1/8/20
04
4/8/200
4
4/8/200
4
732,96
0,000 1 0 0
03324075
214.37
Có
KH
3,980,00
0,000
1/9/20
04
10/8/20
04
4/9/200
4
3,980,0
00,000 0 0 1
03324000
752.41
Có
KH
390,000,
000
1/12/2
004
4/12/20
04
4/12/20
04
397,02
0,000 1 0 0
03326023
617.32
Có
KH
360,000,
000
1/13/2
004
7/13/20
04
7/13/20
04
366,48
0,000 1 0 0
033240003
90.36
Có
KH
300,000,
000
1/13/20
04
5/20/20
04
4/13/20
04
305,670
,000 0 0 1
033240008
20.35
Có
KH
600,000,
000
1/14/20
04
2/25/20
04
4/14/20
04
600,000
,000 0 1 0
033240008
00.35
Có
KH
300,000,
000
1/14/20
04
3/15/20
04
4/14/20
04
300,000
,000 0 1 0
033240752
54.37
Có
KH
5,000,00