Đề tài Thuật toán hiệu quả trong việc khai thác những luật kết hợp thời gian ITARM

Córấtnhiềuthuậttoánđượcđềxuấttìmkiếmcácluật kếthợp(association rules) trongtrườngdữliệunhư: Apriori TreeProjection FP-growth Mining of generalized and multi-level rules Mining of quantitative rules

20 trang | Chia sẻ: tuandn | Lượt xem: 2431 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Đề tài Thuật toán hiệu quả trong việc khai thác những luật kết hợp thời gian ITARM, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

GVHD: PGS.TS Lê Hoài Bắc Học viên: VũHoàng Hải Sơn - 1211061 1 Nội Dung 1. Giới Thiệu 2. Mô tả thuật toán 3. Đánhgiá và kết quả của thuật toán 2 Giới thiệu  Có rất nhiều thuật toán được đề xuất tìm kiếm các luật kết hợp (association rules) trong trường dữ liệu như:  Apriori  TreeProjection  FP-growth  Mining of generalized and multi-level rules  Mining of quantitative rules  ….. 3 Giới thiệu  Dữ liệu thời gian tồn tại rộng rãi trong kinh tế, tài chính, truyền thông, và các lĩnh vực khác như dự báo thời tiết  Temporal Association Rules(TAR) là sự thể hiện của các luật kết hợp bằng việc kết hợp với thời gian.  Đặc trưng của dữ liệu thời gian là sự cập nhật liên tục do đó các giải thuật được đề xuất để giải quyết các vấn đề xử lý chỗi thời gian:  Progressive Partition Miner(PPM)  Segmented Progressive Filter (SPF)  Two end AssocIation miNer (Twain)  Incremental Temporal Association Rules Mining (ITARM) 4 Giới thiệu • Incremental Temporal Association Rules Mining (ITARM)  Dựa trên nền của thuật toán Sliding-Window Filtering  Duy trì những tập tập phổ biến sau khi dữ liệu đã được cập nhật 5 Mô tả thuật toán 1. Mô tả dữ liệu 2. Giải thuật 6 Mô tả dữ liệu  Dữ liệu thời gian sẽ được phân vùng theo các mốc thời gian như theo tháng, quý, năm  Các ký hiệu được sử dụng:  Dbs,e :1 phần của dữ liệu bắt đầu từ Ps đến Pe  Ys,e : đối tượng có Ps là phân vùng bắt đầu và Pe là kết thúc  MCP (Y): là thời gian thể hiện tối đa của đối tượng Y 7 Mô tả dữ liệu  Các ký hiệu được sử dụng(tt):  Supp(xMCP(x)) là relative support của tập x  Conf(XY)MCP(XY) là độ tin cậy 8 Mô tả dữ liệu MCP(DE) = (2,3) do MCP(D) = (1,3) và MCP(E) = (2,3) Supp(DE) = 2/8 = 25% Conf(DE) = 2/3 = 66,66% min_sup=30% và min_conf = 75% 9 Giải thuật 10 Thuật toán ITARM  Input: DB, db, C2DB , min_sup  Output: L’, C2 DB+db  B1: tìm tất cả các ứng cử viên(UCV) trong db (C2 db) 11 C2 Start Count P1+P2 BC 1 4 CE 2 2 DE 2 2 p3 AD 3 1 BC 3 1 BD 3 1 BE 3 1 BF 3 3 CE 3 1 CF 3 1 DF 3 1 EF 3 1 Thuật toán ITARM  B2:  Cậpnhật support của cácUCV X trong C2DB: x.suppDB+db = x.suppDB + x.suppdb  Cậpnhật X vàoC2DB+db  Cậpnhật các UCV còn lại trong C2DB và C2db vàoC2DB+db 12 C2 Start Count RS AD 3 1 4 x 30% = 2 BC 1 5 12 x 30% = 4 DB 3 1 4 x 30% = 2 BE 3 1 4 x 30% = 2 BF 3 3 4 x 30% = 2 CE 2 3 8 x 30% = 3 CF 3 1 4 x 30% = 2 DE 2 2 8 x 30% = 3 DF 3 1 4 x 30% = 2 EF 3 1 4 x 30% = 2 Thuật toán ITARM  B3: Lọc các UCV có supp > min_supp  Trong thuật toán này, supp được tính bằng số các trường trong database có chứ X và min_supp được tính theo công thức:  CácUCV được lọc lại là BC, BF, CE 13 Thuật toán ITARM  B4:  Tìmcác UCV gồm có k+1 đối tượng từ tập UCV thứ k bằng phép kết Apriori (bắt đầu bằng k=2)  Cậpnhật vào tập các UCV CDB+db  Dừng quá trình tìm kiếmkhi tập CkDB+db = Ø 14 Thuật toán ITARM  B5:  Tìmcác tập thời gian(TI) từ tập UCV CDB+db  Tìmcác tập thời gian con(SI) từ tập TI 15 TI’s SI’s BC1,3 B1,3 C1,3 BF3,3 B3,3 F3,3 CE2,3 C2,3 E2,3 Thuật toán ITARM  B6:  Tính toán lại support count và lọc lại các UCV 16 Candidate itemset Count Relative support SI’s B1,3 8 12 x 30% = 4 C1,3 6 12 x 30% = 4 B3,3 3 4 x 30% = 2 F3,3 3 4 x 30% = 2 C2,3 4 8 x 30% = 3 E2,3 4 8 x 30% = 3 TI’s BC1,3 5 12 x 30% = 4 BF3,3 3 4 x 30% = 2 CE2,3 3 8 x 30% = 3 Frequent itemsets L1 B1,3 C1,3 B3,3 F3,3 C2,3 E2,3 L2 BC1,3 BF3,3 CE2,3 Thuật toán Update C2  Input: C2DB ,Pn ,min_sup  Output: C2DB  Với mỗi UCV X thuộc C2DB , nếu tồn tại X trong n transaction T thuộc Pn: X.supportDB = X.supportDB - n  VD:  Trong trường hợp P3 không nằmtrong tháng 3 mà là phần thêmcủa tháng 2, tức là P2 = P2 + P3, và P2 được xem là db 17 C2DB count BC 4 CE 2 DE 2 C2DB count BC 2 Đánh giá và kết quả thuật toán  So sánh với hai thuật toán SPF và Twain, tất cả đều chạy trên nềnmáyWin Xp, code C#, 1.8 GHz Intel Core 2 Duo, 1GB ram  Tx: x là chiều dài trung bình của 1 transaction trongDB  Ly: y là chiều dài trung bình lớn nhất có thể có của 1 tập phổ biến  Dz: z là số các transaction trongDB ban đầu (tính theo hàng nghìn)  dr: r là số các transaction trongDB cập nhật (tính theo hàng nghìn)  Nm: m là số lượng item (tính theo hàng nghìn)  Ln: n là số lượng tập phổ biến có thể có (tính theohàng nghìn)  Po: o là số các phân vùng 18 Đánh giá và kết quả thuật toán 19 CÁM ƠN THẦY VÀ CÁC BẠN 20