Mô hình hóa dữ liệu và mã hóa là hai quá trình quan trọng nhất của nén dữ liệu. Mã hóa
được thực hiện tối ưu và hiệu quả với mã hóa số học. Tuy nhiên không thể tính toán mô hình tối
ưu cho một nguồn dữ liệu cho trước. Bài báo sẽ giới thiệu phương pháp ước lượng xác suất thứ
cấp. Trong đó mỗi mô hình sơ cấp ước lượng xác suất bit tiếp theo là bit 1 hoặc bit 0 một cách độc
lập. Các xác suất ước lượng được kết hợp lại với nhau bằng phương pháp tương tự như mạng
nơtron. Sau khi bit được mã hóa, bộ ước lượng được cập nhật theo hướng tối thiểu chi phí mã
hóa thay vì theo hướng giảm sai số dự đoán.
6 trang |
Chia sẻ: tuandn | Lượt xem: 2606 | Lượt tải: 4
Bạn đang xem nội dung tài liệu Phương pháp ước lượng xác suất thứ cấp dựa trên lý thuyết Entropy cực đại trong ứng dụng nén dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
222
PHƢƠNG PHÁP ƢỚC LƢỢNG XÁC SUẤT THỨ CẤP DỰA TRÊN
LÝ THUYẾT ENTROPY CỰC ĐẠI TRONG ỨNG DỤNG NÉN DỮ LIỆU
SECONDARY PROBABILITY ESTIMATION METHODS BASED ON MAXIMUM
ENTROPY PRINCIPLE IN DATA COMPRESSION APPLICATIONS
SVTH: Nguyễn Hải Triều Anh
Lớp 05DT1, Khoa Điện tử Viễn thông, Trường Đại học Bách khoa
GVHD: ThS. Hoàng Lê Uyên Thục
Khoa Điện tử Viễn thông, Trường Đại học Bách khoa
TÓM TẮT
Mô hình hóa dữ liệu và mã hóa là hai quá trình quan trọng nhất của nén dữ liệu. Mã hóa
được thực hiện tối ưu và hiệu quả với mã hóa số học. Tuy nhiên không thể tính toán mô hình tối
ưu cho một nguồn dữ liệu cho trước. Bài báo sẽ giới thiệu phương pháp ước lượng xác suất thứ
cấp. Trong đó mỗi mô hình sơ cấp ước lượng xác suất bit tiếp theo là bit 1 hoặc bit 0 một cách độc
lập. Các xác suất ước lượng được kết hợp lại với nhau bằng phương pháp tương tự như mạng
nơtron. Sau khi bit được mã hóa, bộ ước lượng được cập nhật theo hướng tối thiểu chi phí mã
hóa thay vì theo hướng giảm sai số dự đoán.
ABSTRACT
Data modeling and coding is two most important processes of data compression. An
optimal and effective coding process can be implemented using arithmetic coding. However,
optimal model is not computable. This paper introduces a secondary probability estimation method.
In this method, each primary model independently estimates the probability that the next bit of data
is 0 or 1. Results of estimation are combined by using a method similar to a neural network. After a
bit is coded, the estimator will be updated in the direction that minimizes coding cost instead of the
direction that minimizes mean square error.
1. Đặt vấn đề
Nén dữ liệu là biện pháp nhằm giảm số bit cần dùng để lưu trữ hoặc truyền dữ liệu.
Các thuật toán nén có hai quá trình thiết yếu nhất là quá trình ước lượng phân bố xác suất
và quá trình mã hóa. Người ta đã chứng minh được rằng không thể tìm ra ước lượng phân
bố xác suất tối ưu cho một nguồn cho trước [1][2]. Tuy nhiên quá trình mã hóa có thể được
thực hiện hiệu quả và tối ưu với mã hóa số học [3]. Độ dài từ mã trung bình mà bộ mã hóa
tạo ra bị giới hạn bởi entropy của nguồn. Giả sử biến ngẫu nhiên x nhận giá trị thuộc tập
X={x1, x2, …}; mỗi giá trị xi có xác suất là pi, lí thuyết thông tin [4] định nghĩa entropy
của x là:
)
1
(log)( 2
ii
i
p
pxH
(1)
Entropy của nguồn tin được xác định nếu ta biết trước được phân bố xác suất của nguồn
đó. Tổng quát thì phân bố xác suất của nguồn là không thể biết trước đồng thời phân bố tối
ưu của nguồn là không tính toán được, vì vậy chỉ có thể thực hiện ước lượng các giá trị
ip
.
Do đó tính hiệu quả của một thuật toán nén dữ liệu phụ thuộc chủ yếu vào quá trình ước
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
223
lượng xác suất. Mặt khác để ước lượng xác suất
ip
của sự kiện xi người ta có thể sử dụng
nhiều phương pháp, nhiều cách tiếp cận khác nhau. Bài toán đặt ra là thực hiện kết hợp ước
lượng xác suất từ các bộ ước lượng sơ cấp để tạo ra phân bố xác suất thích hợp nhất nhằm
mã hóa nguồn tin hiệu quả nhất.
2. Phƣơng pháp kết hợp dựa trên lí thuyết entropy cực đại
2.1. Cơ sở lí thuyết
Ta xét biến ngẫu nhiên x nhận giá trị thuộc tập X={x1, x2, …, xn}. Xác suất ước
lượng của xi với
ni ,1
từ m bộ ước lượng sơ cấp khác nhau là
)( iS xP k
, với
mk ,1
. Xác
suất ước lượng tại đầu ra của bộ kết hợp là
)( iM xP
.
Các điều kiện ràng buộc của
)( iM xP
[5]:
- Entropy:
)
)(
1
(log)()(
1
2
iM
n
i
iM
xP
xPxH
(2)
- Kì vọng của các xác suất sơ cấp: n
i
iSiMk xPxPF k
1
)().(
(3)
- Mặt khác
)( iM xP
phải thỏa mãn: n
i
iM xP
1
1)(
(4)
Áp dụng phương pháp số nhân Lagrange với các điều ràng buộc như trên. Định
nghĩa các hằng số ,
k
(
mk ,1
) và hàm Lagrange L:
m
k
kiS
n
i
iMk
n
i
iM FxPxPxPxHL k
1 11
)])(.)(([)1)(()(
(5)
Lý thuyết entropy cực đại dựa trên tiền đề là khi ước lượng phân bố xác suất với
các ràng buộc cho trước ta nên chọn phân bố có entropy cực đại [5][6]. Có nghĩa là tìm ,
k
(
mk ,1
), và
)( iM xP
(
ni ,1
) sao cho L lớn nhất [5]. Tức là xác suất tại đầu ra
)( iM xP
phải thỏa mãn điều kiện
0
)( iM xP
L
và các điều kiện (2)(3)(4). Suy ra:
n
i
xP
xP
iM m
k
ikSk
m
k
ikSk
xP
1
)(.
)(.
1
1
2
2
)( (6)
Các giá trị
k
có thể được xác định bằng phương pháp lặp tổng quát và đảm bảo sẽ
hội tụ đến nghiệm duy nhất [6].
Dựa vào công thức (6) ta thấy: để có thể kết hợp các bộ dự đoán một cách đơn giản
nhất thì các bộ dự đoán phải là các bộ dự đoán nhị phân (dự đoán từng bit). Gọi P là xác
suất bit tiếp theo là bit 1, xác suất bit tiếp theo là bit 0 là (1-P). Tương tự gọi
kS
P
là xác
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
224
suất sơ cấp bit tiếp theo là bit 1 thì (1-
kS
P
) là xác suất sơ cấp bit tiếp theo là bit 0. Công
thức (6) có thể viết lại:
m
k
kSk
P
P
1
)12(
21
1 (7)
Gọi y là bit vừa mã hóa, u là số bit để mã hóa y. Theo lí thuyết thông tin [4]:
Pu 2log
khi y = 1 và
)1(log 2 Pu
khi y = 0
Tương đương với:
])12(1[log 2 Pyyu
(8)
Vi phân từng phần của (8) theo
k
ta được:
)12)((
kS
k
PPy
u
(9)
Sau khi mã hóa bit y, các trọng số
k
được cập nhật sao cho số bit cần dùng để mã
hóa thay đổi ngược chiều với chiều biến thiên của u theo
k
:
)12)((:
kSkk
PPy
(10)
Với là hệ số học. có thể là một hằng số cho trước (ví dụ 0.01) hoặc thay đổi
thích nghi như [6]. Kí hiệu:= biểu thị cho phép gán. Hiệu (y-P) chính là sai số dự đoán.
Dựa vào công thức (8) và (10) ta thấy bộ kết hợp tương tự như một mạng nơtron
perceptron gồm 2 lớp trong đó lớp đầu vào có m nút, lớp ra có 1 nút với hàm ngưỡng là
x
g
21
1
. Đầu ra của nơtron i của lớp vào là
12Pr
iSi
P
, đầu ra của nơtron lớp ra là
)Pr(
1
m
k
kkgP
, hàm truyền ngược là
kkk Py Pr)(:
.
2.2. Phương pháp thực hiện (hình 1)
Dữ liệu nguồn được tiền xử lí bằng thuật toán
LZ tiên đoán nhằm giảm bớt kích thước. Đầu ra của
bộ tiền xử lí được đưa vào 4 bộ ước lượng xác suất sơ
cấp
kS
P
.
Các giá trị xác suất thuộc đoạn [0, 1) được
biểu diễn bằng các số nguyên trong đoạn [0,8192).
Hàm sigmoid
x
g
21
1
được tính toán trước
và thực hiện dưới dạng bảng tra với x mang giá trị
trong đoạn [-8192, 8192) biểu diễn cho dải từ -16 đến
16 với độ phân giải 92 .
Giá trị 4
1
Pr
k
kkx
lưu trong một thanh ghi
32 bit. Sau đó x được chuẩn hóa đến dải giá trị đầu vào của hàm sigmoid.
Hình 1. Thủ tục mã hóa một bit
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
225
Xác suất kết hợp từ 4 bộ ước lượng xác suất sơ cấp sẽ được dùng để mã hóa bit y
bằng phương pháp mã hóa số học.
Sau khi mã hóa, các giá trị
k
được điều chỉnh nhằm làm giảm số bit dùng để mã
hóa, đồng thời cập nhật các bộ ước lượng sơ cấp.
Hệ số học được chọn trước có dạng
l2
, với
0,26l
nhằm mục đích thay
thế phép nhân với trong công thức (10) bằng phép dịch bit.
2.3. Kết quả và đánh giá
2.3.1. So sánh với phương pháp kết hợp được sử dụng trong chuẩn ZPAQ
Bài báo thực hiện so sánh 3 phương pháp kết hợp khác nhau. Phương pháp thứ nhất
thực hiện tính trung bình cộng các xác suất sơ cấp. Phương pháp thứ hai là phương pháp đã
nêu ở mục 2.1. Phương pháp thứ ba là phương pháp của chuẩn ZPAQ, phương pháp này
tương tự như phương pháp thứ hai, tuy nhiên đầu ra của nơtron i của lớp vào là
)(Pr 1
iSi
Pg
với
)(1 xg
là hàm ngược của g(x) thay vì
12Pr
iSi
P
. Ở cả ba phương
pháp, các bộ dự đoán sơ cấp nhằm dự đoán xác suất của bit tiếp theo là hoàn toàn giống
nhau. Hệ số học được chọn bằng
172
. Dữ liệu để kiểm chứng là Calary.tar [1] và
enwik8 [1]. Calgary là tập hợp các file văn bản và file nhị phân thường dùng để so sánh
các thuật toán nén dữ liệu. Tập hợp này có 14 file gồm các bài báo khoa học, mã nguồn,
ảnh bitmap và chương trình thực thi. Tất cả được đóng gói thành một file TAR* (tape
archive: định dạng lưu trữ không nén khá phổ biến) nhằm đánh giá khả năng thích nghi của
thuật toán với nguồn dữ liệu có phân bố thay đổi. Enwik8 là
810
byte dữ liệu đầu tiên của
bách khoa toàn thư mở wikipedia ngày 3/3/2006. Hiện nay enwik8 cũng được dùng với
mục đích tương tự như bộ dữ liệu calgary.
Bảng 1. Kết quả so sánh các phương pháp ước lượng thứ cấp
Phương pháp 1 Phương pháp 2 Phương pháp 3
File
Kích thước
(byte)
Kích thước
sau khi nén
(byte)
Thời gian
nén (s)
Kích thước
sau khi nén
(byte)
Thời
gian nén
(s)
Kích thước
sau khi nén
(byte)
Thời gian
nén (s)
Calgary.tar 3152896 1031116 1.015 976056 1.516 939918 1.738
Enwik8 100000000 33154937 31.778 31825330 44.964 30390024 50.056
2.3.2. Ảnh hưởng của hệ số học
Sử dụng phương pháp kết hợp thứ hai, ta thay đổi hệ số học để xem xét ảnh
hưởng của nó tới kích thước file sau khi nén. Bằng phương pháp thử - sai - sửa ta thấy giá
trị
172
là phù hợp.
Bảng 2. Kích thước file nén (byte) khi thay đổi hệ số học
Kích thước
gốc (byte)
122
152
162
172
182
192
Calgary.tar 3152896 7203636 980534 977378 976056 975690 975850
Enwik8 100000000 244105971 31968473 31866841 31825330 31813578 31816184
2.3.3. Đánh giá
Theo lí thuyết chiều dài mô tả ngắn nhất [2] ta suy ra phương pháp kết hợp ước
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
226
lượng cho file nén nhỏ nhất là mô hình chính xác nhất. Đo đó phương pháp kết hợp sử
dụng trong chuẩn ZPAQ là phương pháp tốt nhất trong ba phương pháp trên
Trung bình cộng của các xác suất ước lượng sơ cấp không phải là phân bố xác suất
mô tả nguồn thích hợp.
Phương pháp kết hợp được sử dụng trong ZPAQ thay thế
12Pr
iSi
P
trong công
thức (8) và (10) bằng:
)
1
(log)(Pr 2
1
i
i
i
S
S
Si
P
P
Pg
(11)
Đặc điểm của hàm
)(1 xg
là độ dốc của nó thay đổi chậm khi x nằm gần giá trị 0.5
và thay đổi rất nhanh khi x nằm gần giá trị 0 hoặc 1. Phương pháp của ZPAQ đạt tỉ lệ nén
cao chứng tỏ xác suất từ bộ ước lượng càng gần với giá trị 0 hoặc 1 thì độ tin cậy của
chúng càng cao, và xác suất càng gần với giá trị 0.5 thì độ tin cậy chúng càng thấp. Phương
pháp suy ra từ lí thuyết entropy cực trị không đạt hiệu quả cao nhất là do phương pháp này
không xem xét đến độ tin cậy của xác suất được ước lượng.
Phương pháp kết hợp cho tỉ lệ nén càng cao thì càng chậm. Tùy theo mục đích thiết
kế mà ta lựa chọn phương pháp thích hợp.
Hệ số học có tác động rất lớn đến hiệu quả nén dữ liệu, và cần lựa chọn cẩn thận
nếu không sẽ không đạt hiệu quả như mong muốn.
3. Kết luận
Bài báo đã giới thiệu một phương pháp kết hợp hiệu quả các bộ dự đoán dựa trên lí
thuyết entropy cực đại. Đồng thời cho thấy khi kết hợp các xác suất ta cần quan tâm đến độ
tin cậy của nó. Do ứng dụng trong nén dữ liệu cho nên bộ kết hợp được huấn luyện trực
tuyến (online-training) theo hướng giảm số bit dùng để mã hóa một bit dữ liệu thay vì huấn
luyện theo hướng giảm sai số ước lượng. Để ước lượng chính xác hơn ta phải tăng số
lượng và độ chính xác của các bộ ước lượng sơ cấp. Ưu điểm lớn nhất của phương pháp
này là có thể xây dựng nhiều bộ ước lượng sơ cấp khác nhau cho các kiểu dữ liệu khác
nhau, rồi kết hợp các ước lượng đó để tạo ra xác suất ước lượng tốt nhất. Vì vậy ta dễ dàng
tạo ra thuật toán nén dữ liệu làm việc tốt đối với nhiều nguồn dữ liệu khác nhau như hình
ảnh, văn bản, âm thanh, video …
TÀI LIỆU THAM KHẢO
[1] Matt Mahoney (2010), Data compression explain, Ocarina Networks, Section 1 and
section 4.
[2] Volker Nannen (2003), A Short Introduction to Model Selection, Kolmogorov
Complexity and Minimum Description Length
[3] Khalid Sayood (2003), Lossless compression handbook, Academic Press, Chapter 5
[4] C.E.Shannon (1948), “A Mathematical Theory of Communication”, The Bell System
Technical Journal
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
227
[5] Department of Electrical Engineering and Computer Science (2004), Information and
Entropy, Massachusetts Institute of Technology, Chapter 9-10
[6] Matt Mahoney (2000), “Fast Text Compression with Neural Networks”, Florida
Institute of Technology
[7] Matt Mahoney (2009), “The ZPAQ Open Standard Format for Highly Compressed
Data - Level 1”