Dữ liệu chuỗi thời gian được sử dụng phổ biến trong rất
nhiều lĩnh vực. Kết quả khảo sát nêu trong bài báo của Yang
và Wu (2006) “10 challenging problems in Data Mining
Research” cho thấy hướng nghiên cứu về khai phá dữ liệu
chuỗi thời gian là một trong 10 hướng nghiên cứu sẽ là quan
trọng và thách thức nhất.
Vì dữ liệu chuỗi thời gian thường rất lớn, những giải thuật
khai phá chuỗi thời gian phải thỏa mãn hai tính chất: chúng
phải hữu hiệu (tức có độ phức tạp tính toán thấp) và đảm bảo
đưa lại kết quả đúng. Đây là một thách thức đã thúc đẩy chúng
tôi thực hiện nghiên cứu về lĩnh vực này.
Mục tiêu của luận án là đề xuất cách tiếp cận mới cho một
số bài toán khai phá dữ liệu chuỗi thời gian. Đối tượng nghiên
cứu là dữ liệu chuỗi thời gian với chuỗi thời gian được định
nghĩa là một chuỗi các số thực X = x1
, x2
, x3
,. xn, trong đó x
i
là
giá trị đo được ở thời điểm thứ i. Phạm vi nghiên cứu của luận
án bao gồm nghiên cứu bốn bài toán quan trọng trong khai phá
dữ liệu chuỗi thời gian, đó là: tìm kiếm tương tự, gom cụm,
phát hiện motif và dự báo trên dữ liệu chuỗi thời gian, trong
đó tìm kiếm tương tự là bài toán nền tảng.
32 trang |
Chia sẻ: superlens | Lượt xem: 2160 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Tóm tắt luận án Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN THÀNH SƠN
KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN DỰA
VÀO RÚT TRÍCH ĐẶC TRƢNG BẰNG PHƢƠNG
PHÁP ĐIỂM GIỮA VÀ KỸ THUẬT XÉN
(TIME SERIES DATA MINING BASED ON
FEATURE EXTRACTION WITH MIDDLE
POINTS AND CLIPPING METHOD)
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
ii
TP. HỒ CHÍ MINH, NĂM 2014
iii
Công trình được hoàn thành tại khoa Khoa học và Kỹ thuật
Máy tính trường Đại học Bách khoa, ĐHQG TP. HCM.
Người hướng dẫn khoa học: PGS. TS Dương Tuấn Anh
Phản biện 1: PGS. TS. Nguyễn Thị Kim Anh
Phản biện 2: PGS. TS. Đỗ Phúc
Phản biện 3: PGS. TS. Quản Thành Thơ
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp
trường họp tại ..........................................................................
.................................................................................................
Vào hồi giờ ngày tháng năm 2014.
Có thể tìm hiểu luận án tại thư viện trường Đại học Bách khoa,
ĐHQG TP. HCM
iv
MỤC LỤC
1. Giới thiệu. ............................................................................1
1.1. Tổng quan về đề tài......................................................1
1.2. Động cơ, mục tiêu, đối tượng và phạm vi nghiên cứu. 1
1.3. Nhiệm vụ và hướng tiếp cận của luận án. ....................2
2. Cơ sở lý thuyết và các công trình liên quan. .......................2
2.1. Các độ đo tương tự. .....................................................2
2.2. Thu giảm số chiều chuỗi thời gian. ..............................2
2.3. Rời rạc hóa chuỗi thời gian. .........................................3
2.4. Cấu trúc chỉ mục. .........................................................3
2.5. Tìm kiếm tương tự trên chuỗi thời gian. ......................3
2.6. Tìm kiếm tương tự trên chuỗi thời gian dạng luồng. ...4
2.7. Phát hiện motif trên chuỗi thời gian. ...........................4
2.8. Gom cụm dữ liệu chuỗi thời gian. ...............................4
3. Thu giảm số chiều chuỗi thời gian bằng phương pháp
MP_C. .................................................................................5
3.1. Phương pháp MP_C (Middle Points_Clipping). .........5
3.2. Độ đo tương tự trong không gian MP_C. ....................6
3.3. Vùng bao MP_C (MP_C_BR). ....................................7
3.4. Hàm tính khoảng cách giữa chuỗi truy vấn Q và
MP_C_BR. ..................................................................8
3.5. Cấu trúc chỉ mục đường chân trời cho phương pháp
biểu diễn MP_C. ..........................................................8
3.6. Tìm kiếm tương tự trên chuỗi thời gian dạng luồng
dựa vào MP_C và chỉ mục đường chân trời. ...............8
3.7. Kết quả thực nghiệm. .................................................10
4. Phát hiện motif dựa vào cấu trúc chỉ mục đa chiều hoặc chỉ
mục đường chân trời. .........................................................12
4.1. Phát hiện motif dựa vào cấu trúc chỉ mục đa chiều và ý
tưởng từ bỏ sớm. ........................................................12
v
4.2. Phát hiện motif xấp xỉ dự trên phương pháp MP_C với
sự hỗ trợ của chỉ mục đường chân trời. ..................... 14
4.3. Kết quả thực nghiệm. ................................................ 15
5. Gom cụm chuỗi thời gian được thu giảm theo phương pháp
MP_C bằng giải thuật I-k-Means. ..................................... 16
5.1. Biểu diễn chuỗi thời gian ở nhiều mức xấp xỉ theo
phương pháp MP_C .................................................. 16
5.2. Dùng kd-tree tạo trung tâm các cụm cho thuật toán I-
k-Means. .................................................................... 17
5.3. Dùng cây đặc trưng cụm để tạo các trung tâm cụm
khởi động cho thuật toán I-k-Means.......................... 18
5.4. Thực nghiệm về bài toán gom cụm ........................... 19
6. Dự báo dữ liệu chuỗi thời gian có tính xu hướng hoặc mùa
bằng phương pháp so trùng mẫu. ...................................... 20
7. Kết luận và hướng phát triển. ............................................ 23
7.1. Các đóng góp chính của luận án. ............................... 23
7.2. Hạn chế của luận án. .................................................. 23
7.3. Hướng phát triển. ....................................................... 24
CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ ........................ 25
1
1. Giới thiệu.
1.1. Tổng quan về đề tài.
Một chuỗi thời gian (time series) là một chuỗi các điểm dữ
liệu được đo theo từng khoảng thời gian liền nhau theo một tần
suất thời gian thống nhất.
Một chuỗi thời gian dạng luồng (streaming time series) C
là một chuỗi các giá trị thực c1, c2, , trong đó các giá trị mới
tới một cách liên tục và được nối vào cuối chuỗi C theo thứ tự
thời gian.
Những khó khăn và thách thức khi nghiên cứu về dữ liệu
chuỗi thời gian: (1) dữ liệu thường rất lớn, (2) phụ thuộc nhiều
vào yếu tố chủ quan của người dùng và tập dữ liệu khi đánh
giá mức độ tương tự giữa các chuỗi, (3) dữ liệu không đồng
nhất.
1.2. Động cơ, mục tiêu, đối tƣợng và phạm vi nghiên cứu.
Dữ liệu chuỗi thời gian được sử dụng phổ biến trong rất
nhiều lĩnh vực. Kết quả khảo sát nêu trong bài báo của Yang
và Wu (2006) “10 challenging problems in Data Mining
Research” cho thấy hướng nghiên cứu về khai phá dữ liệu
chuỗi thời gian là một trong 10 hướng nghiên cứu sẽ là quan
trọng và thách thức nhất.
Vì dữ liệu chuỗi thời gian thường rất lớn, những giải thuật
khai phá chuỗi thời gian phải thỏa mãn hai tính chất: chúng
phải hữu hiệu (tức có độ phức tạp tính toán thấp) và đảm bảo
đưa lại kết quả đúng. Đây là một thách thức đã thúc đẩy chúng
tôi thực hiện nghiên cứu về lĩnh vực này.
Mục tiêu của luận án là đề xuất cách tiếp cận mới cho một
số bài toán khai phá dữ liệu chuỗi thời gian. Đối tượng nghiên
cứu là dữ liệu chuỗi thời gian với chuỗi thời gian được định
nghĩa là một chuỗi các số thực X = x1, x2, x3,.. xn, trong đó xi là
giá trị đo được ở thời điểm thứ i. Phạm vi nghiên cứu của luận
án bao gồm nghiên cứu bốn bài toán quan trọng trong khai phá
dữ liệu chuỗi thời gian, đó là: tìm kiếm tương tự, gom cụm,
phát hiện motif và dự báo trên dữ liệu chuỗi thời gian, trong
đó tìm kiếm tương tự là bài toán nền tảng.
2
1.3. Nhiệm vụ và hƣớng tiếp cận của luận án.
Hướng tiếp cận chung thường được sử dụng cho các bài
toán trong khai phá dữ liệu chuỗi thời gian là thực hiện chúng
trong không gian thu giảm (không gian đặc trưng) của dữ liệu.
Các nội dung nghiên cứu trong luận án cũng được định hướng
đi theo cách tiếp cận này.
Nhiệm vụ của luận án là: (1) đề xuất một phương pháp thu
giảm số chiều mới thỏa điều kiện chặn dưới và có thể kết hợp
với một cấu trúc chỉ mục đa chiều hỗ trợ việc tìm kiếm tương
tự hữu hiệu, (2) ứng dụng phương pháp đề xuất vào bài toán
phát hiện motif theo hướng tiếp cận xấp xỉ, (3) ứng dụng
phương pháp đề xuất vào bài toán gom cụm theo phương pháp
gom cụm có thời gian thưc thi tùy chọn, (4) ứng dụng phương
pháp đề xuất vào bài toán tìm kiếm tương tự trên chuỗi thời
gian dạng luồng và (5) ứng dụng phương pháp thu giảm số
chiều đã đề xuất vào bài toán dự báo dữ liệu chuỗi thời gian có
tính xu hướng hoặc mùa.
2. Cơ sở lý thuyết và các công trình liên quan.
2.1. Các độ đo tƣơng tự.
Trong các bài toán về khai phá dữ liệu chuỗi thời gian, để
so sánh hai chuỗi người ta sử dụng các độ đo tương tự. Hai độ
đo tương tự thường được sử dụng trong lĩnh vực này là độ đo
Euclid và xoắn thời gian động (Dynamic Time Warping).
2.2. Thu giảm số chiều chuỗi thời gian.
Thu giảm số chiều là phương pháp biểu diễn chuỗi thời
gian n chiều X = {x1, x2, , xn} thành chuỗi thời gian có N
chiều Y = {y1, y2, , yN} với N << n, sao cho vẫn giữ được các
đặc trưng cần quan tâm của chuỗi thời gian ban đầu. Do khi
thu giảm số chiều dữ liệu sẽ gây ra mất mát thông tin, nên khi
thực hiện trên dữ liệu xấp xỉ có thể xảy ra lỗi tìm sót và/hoặc
lỗi tìm sai. Để đảm bảo có kết quả chính xác, lỗi tìm sót không
được phép xảy ra. Để đảm bảo điều này, độ đo tương tự trong
không gian thu giảm phải là chặn dưới của độ đo tương tự
trong không gian gốc (điều kiện chặn dưới). Để việc tìm kiếm
trong không gian đặc trưng đạt hiệu quả, phương pháp thu
3
giảm số chiều cần có tính khả chỉ mục và chi phí hậu kiểm
thấp. Để chi phí hậu kiểm thấp, lỗi tìm sai phải càng ít càng
tốt.
Nhiều phương pháp thu giảm số chiều dựa vào rút trích đặc
trưng đã được đề xuất và sử dụng. Tuy nhiên có không ít
phương pháp thu giảm số chiều mắc phải hai nhược điểm quan
trọng: một số phương pháp thu giảm số chiều không chứng
minh được bằng toán học thỏa mãn điều kiện chặn dưới (ví dụ
như các phương pháp dựa vào điểm quan trọng) và một số
phương pháp khác không đề xuất được cấu trúc chỉ mục thích
hợp đi kèm để hỗ trợ việc tìm kiếm tương tự hữu hiệu (ví dụ
như phương pháp xén dữ liệu).
2.3. Rời rạc hóa chuỗi thời gian.
Rời rạc hóa (discretization) chuỗi thời gian là quá trình
biến đổi chuỗi thời gian thành một chuỗi các ký tự. Phương
pháp rời rạc hóa tiêu biểu là phương pháp xấp xỉ gộp ký hiệu
hóa (Symbolic Aggregate approXimation - SAX) và các biến
thể của nó như phương pháp xấp xỉ gộp ký hiệu hóa mở rộng
(Extended SAX - ESAX), phương pháp xấp xỉ gộp ký hiệu có
thể được lập chỉ mục (Indexable SAX - ISAX).
2.4. Cấu trúc chỉ mục.
Việc sử dụng cấu trúc lập chỉ mục cho phép chúng ta tìm
kiếm các chuỗi con một cách nhanh chóng và hiệu quả. Các
cấu trúc chỉ mục đa chiều tiêu biểu như: R-tree và các biến thể
của nó, chỉ mục đường chân trời (Skyline).
Chỉ mục đường chân trời sử dụng vùng bao đường chân
trời. Bằng thực nghiệm, các tác giả đã cho thấy vùng bao
đường chân trời biểu diễn các chuỗi thời gian chính xác hơn so
với vùng bao chữ nhật nhỏ nhất và không xảy ra tình trạng phủ
lấp (overlap).
2.5. Tìm kiếm tƣơng tự trên chuỗi thời gian.
Bài toán tìm kiếm tương tự trên dữ liệu chuỗi thời gian
được phân làm hai loại: so trùng toàn chuỗi và so trùng chuỗi
con. Trong so trùng toàn chuỗi, các chuỗi thời gian được giả
4
định là có chiều dài bằng nhau. Bài toán so trùng chuỗi con là
tìm các chuỗi con trong một chuỗi thời gian tương tự với chuỗi
truy vấn. Đây là bài toán cơ bản và là một thành phần quan
trọng của nhiều bài toán khác trong khai phá dữ liệu chuỗi thời
gian.
2.6. Tìm kiếm tƣơng tự trên chuỗi thời gian dạng luồng.
Trong bài toán này, các luồng dữ liệu liên tục được cập
nhật khi có các điểm dữ liệu mới tới theo thời gian thực. Đó là
một thách thức khi nghiên cứu về bài toán này do chi phí tính
toán lại thu giảm số chiều và cập nhật chỉ mục tăng. Thời gian
qua, nhiều phương pháp đã được đề xuất cho bài toán này như:
các phương pháp dựa trên dự báo, phương pháp dựa trên độ đo
có trọng số, phương pháp dựa trên cách tính gia tăng và cập
nhật chỉ mục trì hoãn.
2.7. Phát hiện motif trên chuỗi thời gian.
Motif trong chuỗi thời gian là mẫu xuất hiện với tần suất
cao nhất. Từ khi được hình thức hóa vào năm 2002, phát hiện
motif trong dữ liệu chuỗi thời gian đã và đang được dùng để
giải quyết các bài toán trong nhiều lĩnh vực ứng dụng khác
nhau. Trong số nhiều giải thuật đã được giới thiệu, phép chiếu
ngẫu nhiên đã được sử dụng rộng rãi để phát hiện motif trong
chuỗi thời gian từ khi nó được giới thiệu và có thể được dùng
để phát hiện tất cả motif với xác xuất cao sau một số lần lặp
thích hợp ngay cả trong trường hợp có nhiễu.
2.8. Gom cụm dữ liệu chuỗi thời gian.
Gom cụm là sự phân chia các đối tượng dữ liệu vào các
nhóm sao cho độ đo tương tự giữa các đối tượng trong cùng
nhóm là nhỏ nhất và giữa các đối tượng trong các nhóm khác
nhau là lớn nhất. Mỗi nhóm được gọi là một cụm (cluster).
Mặc dù đã có nhiều công trình nghiên cứu về gom cụm dữ
liệu thường, hầu hết các giải thuật gom cụm đã có trong lĩnh
vực khai phá dữ liệu và học máy đã không làm việc hiệu quả
với dữ liệu chuỗi thời gian do những tính chất đặc thù của loại
dữ liệu này. Những tính chất đặc thù đó là (i) số chiều khá cao,
5
(ii) tính tương quan cao của các đặc trưng được rút trích từ dữ
liệu và (iii) dữ liệu có thể bị nhiễu. Những tính chất này đặt ra
một thách thức cho việc gom cụm dữ liệu chuỗi thời gian. Hai
giải thuật thường được sử dụng để gom cụm dữ liệu chuỗi thời
gian là k-Means và I-k-Means.
3. Thu giảm số chiều chuỗi thời gian bằng phƣơng pháp
MP_C.
3.1. Phƣơng pháp MP_C (Middle Points_Clipping).
Do tính chất đặc thù của dữ liệu chuỗi thời gian, định nghĩa
một phương pháp thu giảm số chiều đúng đắn và hữu hiệu vẫn
là một vấn đề thời sự trong lĩnh vực khai phá dữ liệu chuỗi
thời gian. Từ những ưu điểm của phương pháp xấp xỉ gộp từng
đoạn (PAA), các phương pháp dựa vào điểm quan trọng và
phương pháp xén, chúng tôi tiến hành kết hợp ý tưởng của các
phương pháp này để hình thành một phương pháp thu giảm số
chiều mới, gọi là MP_C, nhằm tận dụng những ưu điểm của
các phương pháp trên, đồng thời khắc phục nhược điểm còn
tồn tại của chúng.
Cho một cơ sở dữ liệu S gồm k chuỗi thời gian S = {C1, ,
Ck} và một chuỗi truy vấn Q = q1, , qn. Không mất tính tổng
quát, giả sử các chuỗi trong cơ sở dữ liệu S cũng có chiều dài n
và mỗi chuỗi coi như một đoạn. Chia đoạn Ci= {c1, ,cn}
thành l đoạn con bằng nhau (l ≤ n), chọn ra các điểm giữa của
l đoạn con và tính trung bình của đoạn. Để giảm thiểu dung
lượng bộ nhớ cần lưu các đặc trưng cho mỗi đoạn, phương
pháp MP_C lưu các điểm giữa được chọn dưới dạng chuỗi bit
b theo công thức sau:
trong đó, là giá trị trung bình của đoạn và ct là giá trị
điểm giữa của đoạn con t, với t = 1, , l.
Để tăng độ chính xác của biểu diễn xấp xỉ theo phương
pháp này, chúng ta có thể chia mỗi chuỗi thời gian thành N (N
<< n) đoạn có độ dài w và thực hiện biến đổi như trên cho mỗi
0
1
tb
nếu ct >
ngược lại
6
đoạn. Như vậy, với mỗi chuỗi ta chỉ cần lưu N giá trị trung
bình và l * N bits.
Hình 3.1 minh họa trực quan phương pháp này với số đoạn
N = 3 và số điểm giữa được chọn trong mỗi đoạn l = 4. Trong
ví dụ này ta sẽ lưu 1 và 1100 ; 2 và 1100; 3 và 1100.
Hình 3.1 Minh họa phương pháp MP_C.
3.2. Độ đo tƣơng tự trong không gian MP_C.
Cho một chuỗi truy vấn Q và một chuỗi thời gian C (có
chiều dài n). C và Q được chia thành N đoạn (N << n). Giả sử
mỗi đoạn có chiều dài w. Cho C’, Q’ là biểu diễn MP_C của
C, Q. Độ đo khoảng cách giữa Q’ và C’ trong không gian
MP_C, DMP_C (Q’,C’), được định nghĩa như sau.
Định nghĩa 1.
Trong đó
dj(qji, bji) được tính theo công thức sau:
với - µqi là giá trị trung bình của đoạn i trong chuỗi Q.
- µci là giá trị trung bình của đoạn i trong chuỗi C.
- q’ji = qji - µqj, trong đó qji là giá trị điểm thứ i được
chọn trong đoạn thứ j của chuỗi thời gian Q.
(3.3)
(3.1)
(3.2)
0
'
),(
ji
jijij
q
bqd
nếu (qji’ > 0 và bji = 0) hoặc
(qji’ ≤ 0 và bji = 1)
các trường hợp khác
)','()','()','( 21_ CQDCQDCQD CMP
N
i ciqi
wCQD
1
2
1 )()','(
2
1 12
)),(()','(
N
j
l
i jijij
bqdCQD
Các đường trung bình đoạn
µ1 µ2 µ3
1 0 1 0 1 0 1 0 1 0 1 0
7
- l là số điểm được chọn trong đoạn (l ≤ w)
- bji là bit thứ i trong chuỗi biểu diễn nhị phân (bj) của
các điểm giữa được chọn trong đoạn j của chuỗi thời gian C.
- D1(Q’, C’) là độ đo khoảng cách giữa hai chuỗi giá trị
trung bình trong biểu diễn MP_C của hai chuỗi, D2(Q’, C’) là
độ đo khoảng cách giữa các điểm giữa được chọn trong hai
chuỗi, dj(qji, bji) là độ đo khoảng cách của cặp điểm giữa i
trong đoạn j của hai chuỗi tương ứng.
Trong luận án này, độ đo DMP_C(Q’, C’) đã được chứng
minh thỏa các tính chất không âm, đối xứng và bất đẳng thức
tam giác. Ngoài ra, DMP_C(Q’, C’) còn được chứng minh thỏa
điều kiện chặn dưới (nghĩa là đảm bảo không xảy ra lỗi tìm
sót) và độ phức tạp của giải thuật để thu giảm số chiều một
chuỗi theo phương pháp MP_C là O(n).
3.3. Vùng bao MP_C (MP_C_BR).
Hình 3.2 Ví dụ minh họa về MP_C_BR. (a) Hai chuỗi thời gian C1, C2
và biểu diễn xấp xỉ MP_C của chúng trong không gian bốn chiều. (b)
MP_C_BR của hai chuỗi MP_C C’1 và C’2. C’max={c’11, c’21, c’32, c’42}
và C’min = {c’12, c’22, c’31, c’41}
Định nghĩa 2 (Vùng bao MP_C).
Cho một nhóm C’ gồm k chuỗi MP_C trong không gian đặc
trưng N chiều. R = (C’max, C’min) được gọi là vùng bao MP_C
(ký hiệu MP_C_BR), với
C’max={c’1max,c’2max,,c’Nmax}
và C’min={c’1min,c’2min,, c’Nmin},
trong đó c’imax = max{c’i1, , c’ik} và
c’imin = min{c’i1, , c’ik}, 1 ≤ i ≤ N
với c’ij là giá trị trung bình của đoạn thứ i của chuỗi
MP_C thứ j trong C’.
C’1
C’2
c’11
c’21
c’32
c’42
c’12
c’22
c’31
c’41 (b)
C 1
C 2
(a)
B c1 = 010100010101
B c2 = 010101010100
8
Hình 3.2 minh họa một ví dụ về MP_C_BR. Trong ví dụ
này Bci là chuỗi bit biểu diễn các điểm được chọn trong chuỗi
thời gian Ci (số điểm được chọn trong mỗi đoạn là 3).
3.4. Hàm tính khoảng cách giữa chuỗi truy vấn Q và
MP_C_BR.
Cho Q là chuỗi truy vấn, Q’ là biểu diễn MP_C xấp xỉ của
Q trong không gian N chiều. Hàm tính khoảng cách Dregion(Q’,
R) giữa chuỗi truy vấn Q’ so với một MP_C_BR R được cho
bởi công thức sau:
trong đó, w là chiều dài của các đoạn.
µqi là giá trị trung bình của đoạn i trong chuỗi truy vấn Q.
Trong luận án, hàm Dregion(Q’, R) đã được chứng minh thỏa
tính chất chặn dưới của nhóm (nghĩa là đảm bảo không xảy ra
lỗi tìm sót khi sử dụng phương pháp MP_C kết hợp với chỉ
mục đường chân trời).
3.5. Cấu trúc chỉ mục đƣờng chân trời cho phƣơng pháp
biểu diễn MP_C.
Các chuỗi MP_C có thể được lập chỉ mục bằng chỉ mục
đường chân trời được xây dựng dựa trên một cấu trúc chỉ mục
đa chiều như R*-tree. Trong cấu trúc này, mỗi phần tử trong
nút lá chứa một chuỗi MP_C và một con trỏ chỉ tới chuỗi gốc
tương ứng trong cơ sở dữ liệu. MP_C_BR kết hợp với một nút
không phải lá là vùng bao nhỏ nhất chứa các MP_C_BR kết
hợp với các nút con trực tiếp của nó.
3.6. Tìm kiếm tƣơng tự trên chuỗi thời gian dạng luồng
dựa vào MP_C và chỉ mục đƣờng chân trời.
Thông thường, mỗi khi một giá trị mới của dữ liệu dạng
luồng tới ta phải tính lại giá trị của chuỗi trong không gian thu
N
i iregionregion
RQdwRQD
i1
),'(),'(
(3.4)
(3.6)
(3.5)
0
)'(
)'(
),'( 2max
2
min
iqi
qii
iregion c
c
RQd
i
Nếu µqi < c’imin
Nếu µqi > c’imax
Các trường hợp khác
9
giảm dựa trên W giá trị cuối cùng của luồng dữ liệu và chuỗi
dữ liệu dạng luồng phải được cập nhật vào cấu trúc chỉ mục.
Điều này dẫn tới chi phí tính toán thu giảm số chiều cao và chi
phí cập nhật chỉ mục sẽ cao vì phải thực hiện thao tác xóa và
chèn liên tục trong cấu trúc chỉ mục. Để khắc phục điều này,
chúng tôi sử dụng cách tính toán gia tăng theo phương pháp
MP_C và chính sách cập nhật chỉ mục trì hoãn được giới thiệu
bởi Kontaki và các cộng sự.
Tính toán gia tăng theo phƣơng pháp MP_C.
Cho C = (c0, c1, , cn-1) là một chuỗi dữ liệu dạng luồng có
chiều dài n. Giả sử C’ = (c’0, c’1, , c’N-1) và chuỗi bit b biểu
diễn nhị phân các điểm giữa của mỗi đoạn là biểu diễn MP_C
của C. Khi một giá trị mới cn của dữ liệu dạng luồng này tới ta
có chuỗi mới S = (s1,s2, ,sn), trong đó ci = si với i = 1,.., n-1
và sn = cn là giá trị mới. Chuỗi thu giảm S’= (s’0, s’1, , s’N-1)
của S được tính theo phương pháp MP_C dựa vào chuỗi thu
giảm C’ theo công thức sau.
)1(
''
i
N
n
i
N
nii c
n
N
c
n
N
cs
Và các điểm giữa của mỗi đoạn được lấy tại các vị trí có tọa
độ:
N
n
i
N
n
2
với i = 0, , N-1
Chính sách cập nhật chỉ mục trì hoãn:
Giả sử C là chuỗi thời gian dạng luồng và C1[n-w+1:n] là w
giá trị cuối của chuỗi C, với n là vị trí giá trị cuối cùng của
chuỗi. C’1 là chuỗi thu giảm c