Trong vài năm gần đây, chúng ta đã chứng kiến sựgia tăng không ngừng của kỹthuật
nén tín hiệu audio số, đặc biệt là MP3 (Moving Picture Experts Group 1 - Layer 3) và AAC
(Moving Picture Experts Group 2 - Advanced Audio Coding). MP3 và AAC là hai chuẩn nén
audio sốchất lượng cao, tín hiệu audio khôi phục nghe được gần giống với tín hiệu gốc trước
khi nén. Tùy thuộc vào yêu cầu vềchất lượng mà tỷlệnén có thể được chọn lựa thích hợp. Với
chất lượng gần giống CD, tỷlệnén có thể đạt được khoảng 11:1. Bài báo trình bày tổng quan
vềcách thực hiện mã hóa/giải mã MP3 và AAC trên cơsởlợi dụng những đặc điểm cảm quan
của tai người. Đồng thời tiến hành so sánh MP3 và AAC vềchất lượng tín hiệu audio, tốc độ
bit và tỷlệnén bằng phương pháp đánh giá chất lượng chủquan là nghe thử. Kết quảthực
nghiệm hoàn toàn phù hợp với các nghiên cứu đã được công bốtrước đó.
7 trang |
Chia sẻ: superlens | Lượt xem: 1945 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Tổng quan về các kỹ thuật nén Audio chất lượng cao MP3 và AAC dùng trong thiết bị số hiện nay, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
235
TỔNG QUAN VỀ CÁC KỸ THUẬT NÉN AUDIO CHẤT LƯỢNG CAO
MP3 VÀ AAC DÙNG TRONG THIẾT BỊ SỐ HIỆN NAY
OVERVIEW OF HIGH QUALITY AUDIO COMPRESSION TECHNOLOGIES MP3
AND AAC FOR TODAY’S DIGITAL MEDIA
Hoàng Lê Uyên Thục, Phạm Văn Tuấn
Trường Đại học Bách khoa, Đại học Đà Nẵng
TÓM TẮT
Trong vài năm gần đây, chúng ta đã chứng kiến sự gia tăng không ngừng của kỹ thuật
nén tín hiệu audio số, đặc biệt là MP3 (Moving Picture Experts Group 1 - Layer 3) và AAC
(Moving Picture Experts Group 2 - Advanced Audio Coding). MP3 và AAC là hai chuẩn nén
audio số chất lượng cao, tín hiệu audio khôi phục nghe được gần giống với tín hiệu gốc trước
khi nén. Tùy thuộc vào yêu cầu về chất lượng mà tỷ lệ nén có thể được chọn lựa thích hợp. Với
chất lượng gần giống CD, tỷ lệ nén có thể đạt được khoảng 11:1. Bài báo trình bày tổng quan
về cách thực hiện mã hóa/giải mã MP3 và AAC trên cơ sở lợi dụng những đặc điểm cảm quan
của tai người. Đồng thời tiến hành so sánh MP3 và AAC về chất lượng tín hiệu audio, tốc độ
bit và tỷ lệ nén bằng phương pháp đánh giá chất lượng chủ quan là nghe thử. Kết quả thực
nghiệm hoàn toàn phù hợp với các nghiên cứu đã được công bố trước đó.
ABSTRACT
There has been a widespread proliferation of digital audio signal compression
technologies in the past few years, especially MP3 (Moving Picture Experts Group 1 - Layer 3)
and AAC (Moving Picture Experts Group 2 - Advanced Audio Coding). The MP3 and AAC
standards are two high quality compression technologies in which AAC performs better than
MP3. The reconstructed audio signal almost sounds similarly to the original one before
compression. The compression ratio can be chosen according to the sound quality requirement.
The near-CD sound quality can be reached at the compression ratio of 11:1. This article
presents an overview of human perception of sound, based on which, the encoding and
decoding of MP3 and AAC are implemented. The article also makes the comparison of several
properties of MP3 and AAC, such as audio quality, bit rate, compression ratio using the
subjective evaluation which is based on the listening test. The experimental results are quite in
accordance with previous publications.
1. Đặt vấn đề
Năm 1982, hai công ty điện tử Philips và Sony đã thành công vang dội với việc
tung ra thị trường phương tiện mới để lưu trữ tín hiệu audio dưới dạng số - đĩa compact
(CD). Yêu cầu dung lượng cần thiết để ghi âm tín hiệu audio số vào khoảng 1.411
Mbps, nghĩa là:
44100 (mẫu/giây) x 16 (bit/mẫu) x 3600 (giây/giờ) x 2 kênh = 1.411 Mbps.
Sự phát triển nhanh chóng của các phương tiện nghe nhạc bỏ túi, các dịch vụ chia sẻ file
audio giữa các máy tính qua internet, các dịch vụ truyền hình số (đi kèm audio) đã
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
236
gây ảnh hưởng sâu sắc đến các ứng dụng truyền/lưu trữ audio. Điều này thúc đẩy các
chuẩn mã hóa nén audio mới ra đời; trong đó phổ biến nhất là chuẩn MP3 và AAC.
Chuẩn MP3 được ứng dụng để truyền tín hiệu audio qua internet và để lưu trữ tín hiệu
audio trong các thiết bị nghe nhạc bỏ túi. Chuẩn AAC là chuẩn nén audio tiếp theo
MP3, đang được sử dụng trong cửa hàng âm nhạc trực tuyến của Apple là iTunes.
2. Mã hóa cảm quan tín hiệu audio
Mã hóa audio cảm quan (perceptual encoding) là một kỹ thuật lợi dụng những
đặc điểm cảm quan của tai
người để đạt được tỷ lệ nén cao
với chất lượng nén tốt.
Nghiên cứu [1] cho thấy:
độ nhạy của tai khác nhau đối
với các thành phần tần số khác
nhau, nên có thể lợi dụng điều
này để lượng tử hóa tín hiệu
audio với số bit khác nhau cho
mỗi băng con, dẫn đến số bit
trung bình giảm xuống (hình 1)
Khi nghe hai âm thanh
mạnh yếu khác nhau với tần số khác nhau xảy ra cùng lúc, âm mạnh hơn có thể “che
khuất” khiến tai không nghe được âm yếu hơn. Hiệu ứng này gọi là mặt nạ tần số
(frequency masking). Tương tự như
vậy, nếu âm yếu hơn được phát ra ngay
trước hoặc ngay sau âm mạnh hơn thì
cũng bị “che khuất”. Hiệu ứng này gọi
là mặt nạ thời gian (temporal
masking). Hình 2 minh họa sự kết hợp
hai hiệu ứng này.
2.1. Chuẩn mã hóa audio MP3
MPEG là nhóm các chuẩn mã
hóa audio cảm quan chất lượng cao. MPEG-1 hoạt động ở ba chế độ khác nhau gọi là
lớp (layer), với mức độ phức tạp và hiệu quả tăng dần từ lớp 1 đến lớp 3 [1]. MPEG-1
lớp 3 (còn gọi là MP3) là nhóm MPEG-1 phức tạp nhất, cung cấp chất lượng audio gần
với chất lượng CD ở tốc độ bit thấp.
MP3 hỗ trợ các tần số lấy mẫu khác nhau như 32kHz, 44.1kHz và 48kHz; tốc
độ bit có thể thay đổi từ 32 đến 448 kbps; mode mã hóa có thể thay đổi, bao gồm:
mono, dual mono, stereo và joint stereo.
Hình 3 là sơ đồ khối của một bộ mã hóa MP3 điển hình.
Hình 1. Phân chia dải tần nghe được thành các
băng con và lượng tử hóa các mẫu trong từng
băng với số bit khác nhau [1]
Hình 2. Kết hợp hiệu ứng mặt nạ tần số với
mặt nạ thời gian [1]
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
237
- Giàn lọc (Filterbank): phân tích tín hiệu vào thành 32 băng con, đầu ra của các
bộ lọc băng con được nối với bộ biến đổi Cosin rời rạc MDCT (Modified
Discrete Cosine Transform). MDCT chia tiếp các đầu ra của giàn lọc thành 576
băng con nhằm đạt độ phân giải tốt hơn trong miền tần số. Việc phân chia băng
con là nhằm lợi dụng đặc điểm độ nhạy của tai thay đổi đối với các thành phần
tần số khác nhau.
- Lập mô hình cảm quan (Psychoacoustic model): khâu này quyết định chất
lượng của tín hiệu MP3. Bộ mã hóa MP3 tiến hành ánh xạ từ miền thời gian
sang miền tần số bằng phép biến đổi Fourier nhanh FFT (Fast Fourier
Trasform) 1024 điểm, để giúp phân giải tần số tốt hơn nhằm ước lượng ngưỡng
mặt nạ chính xác hơn.
Hình 3. Sơ đồ khối bộ mã hóa audio theo chuẩn MP3 [2]
- Lượng tử hóa và mã hóa (Quantization and Coding): thực hiện lượng tử hóa
và mã hóa các thành phần phổ với yêu cầu nhiễu lượng tử hóa thấp hơn ngưỡng
mặt nạ. Các giá trị lượng tử hóa được mã hóa Huffman với bảng mã thay đổi đối
với những dải tần số khác nhau, để thích nghi tốt hơn với tín hiệu. Vì mã
Huffman là mã có độ dài từ mã thay đổi và cần giữ cho nhiễu thấp hơn ngưỡng
mặt nạ nên phải tính độ lợi và các hệ số tỷ lệ trước khi lượng tử hóa. Để tìm
được độ lợi và các hệ số tỷ lệ tối ưu đối với một khối cho trước, MP3 dùng hai
vòng lặp lồng vào nhau.
- Vòng lặp trong hay vòng lặp điều khiển tốc độ (rate control loop): hiệu
chỉnh độ lợi để tăng dần kích thước bước lượng tử hóa, giảm dần số mức lượng
tử hóa cho đến khi số bit yêu cầu cho mã hóa Huffman đủ nhỏ, dẫn đến bit tốc
độ bit của tín hiệu MP3 đủ nhỏ.
- Vòng lặp ngoài hay vòng lặp điều khiển nhiễu (distortion control loop): hiệu
chỉnh hệ số tỷ lệ để giảm dần nhiễu lượng tử hóa, lúc đó số mức lượng tử hóa
tăng dần lên, làm tốc độ bit tăng dần lên, dẫn đến vòng lặp trong phải hiệu chỉnh
độ lợi. Nếu không đồng thời thỏa mãn được yêu cầu về tốc độ bit và chất lượng
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
238
audio thì hai vòng lặp sẽ không có điểm hội tụ. Để tránh trường hợp này, phải
hiệu chỉnh các thông số mã hóa khi bộ mã hóa hoạt động ở các tốc độ bit khác
nhau.
- Định dạng dòng bit (bitstream formatting): dòng bit MP3 được định dạng
theo từng khung, gồm các hệ số phổ đã được mã hóa, đầu khung là header gồm:
từ mã đồng bộ, tốc độ bit, tần số lấy mẫu, lớp, mode mã hóa. Do các thông tin
trên được lặp lại trong tất cả các khung nên ta có thể giải mã vào bất cứ lúc nào.
2.2. Chuẩn mã hóa audio AAC
AAC có kiến trúc tương tự như MP3 nhưng khác với MP3 ở chỗ AAC dùng
phương pháp modul hóa (hình 4), phát triển thêm nhiều công cụ mã hóa mới, giúp cải
thiện chất lượng audio ở tốc độ bit thấp:
- Giàn lọc: AAC thay giàn lọc trong MP3 bằng MDCT với kích thước cửa sổ
dài 1024 (thay cho 576 trong MP3). Điều này làm tăng độ phân giải tần số so
với MP3.
Hình 4. Sơ đồ khối bộ mã hóa audio theo chuẩn MPEG-2 AAC [2]
- TNS (Temporal Noise Shaping): là một công nghệ mới rất thành công trong
việc cải thiện chất lượng tiếng nói ở tốc độ bit thấp. TNS tạo dạng nhiễu trong
miền thời gian bằng một vòng lặp hở dự đoán trong miền tần số [1]
- Dự đoán (prediction): có thể dùng khối dự đoán để tăng tỷ lệ nén bằng cách
hướng cho bộ lượng tử hóa tập trung vào những mẫu tín hiệu đáng quan tâm [1].
- Mã hóa audio: mã hóa M/S (mid/side) và ghép cặp (coupling) mềm dẻo hơn
trong MP3, cho phép giảm tốc độ bit.
- Mã hóa Huffman: dùng từ mã có độ dài thay đổi để giảm hơn nữa độ dư trong
hệ số tỷ lệ và trong giá trị của các vạch phổ lượng tử hóa.
- Bitstream multiplexer: tương tự MP3, dòng bit AAC được định dạng thành
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
239
các khung, trong khung AAC cũng có từ mã đồng bộ và các tham số mã hóa
nhưng không gắn liền với nhau mà thay đổi tùy ứng dụng cụ thể. Ví dụ như:
ADIF (Audio Data Interchange Format) đặt tất cả thông tin điều khiển giải mã
vào trong một header đơn trước dòng audio, giúp cho việc trao đổi file dễ dàng
hơn, nhưng không thể giải mã vào bất cứ lúc nào ta muốn. Hay ADTS (Audio
Data Transport Stream) định dạng header tương tự như MP3, cho phép giải mã
bất cứ lúc nào cần.
3. So sánh MP3 và AAC
3.1. Chất lượng mã hóa
Để đánh giá chất lượng mã hóa tín hiệu audio, về cơ bản có ba phương pháp là:
nghe thử (đánh giá chủ quan), đánh giá khách quan và đo cảm quan.
Cho đến nay thì nghe thử vẫn là phương pháp đơn giản và hiệu quả để đánh giá
chất lượng của các thuật toán mã hóa audio khác nhau. ITU-R (International
Telecommunications Union, Radiocommunications sector) cùng với các phát thanh viên
và nhóm MPEG audio đã đề xuất một loạt các quy tắc phức tạp để đánh giá chất lượng
bằng cách nghe thử.
Đánh giá khách quan là phương pháp dựa vào tỷ số tín hiệu trên nhiễu SNR. Tuy
nhiên làm thế này có thể xem là không tuân theo mục đích của mã hóa cảm quan, vì mã
hóa cảm quan cải thiện chất lượng audio bằng cách tạo thêm nhiễu miền thời gian và tần
số dựa trên cơ chế cảm quan của tai, nên có thể dẫn đến SNR thấp.
ITU-R đã chuẩn hóa một phương pháp đánh giá chất lượng dựa gọi là đo cảm quan,
dựa vào mô hình cảm quan của tai để đánh giá chất lượng của tín hiệu audio nén [5].
3.2. Tốc độ bit
MPEG không làm việc với tốc độ bit cố định mà người dùng có thể tùy chọn tốc
độ bit. Tốc độ bit thấp hơn sẽ dẫn đến tỷ lệ nén tốt hơn nhưng chất lượng thấp hơn. Tuy
nhiên, ta có thể tìm được những tốc độ bit đặc biệt gọi là “sweet spots”, tại đó thuật toán
có thể làm việc tốt nhất. Tại các tốc độ bit lớn hơn “sweet spots”, chất lượng tín hiệu
audio tăng rất chậm, trong khi đó tại các tốc độ bit thấp hơn, chất lượng lại giảm rất
nhanh.
3.3. Kết quả so sánh MP3 và AAC bằng thực nghiệm
Dùng chức năng “Recoring” trong module “Audio Compression” của chương
trình [1] để ghi âm 20 file âm nhạc ở dạng *.wav, trong đó có 10 file nhạc cổ điển và
10 file nhạc Rap. Chế độ thu được chọn là stereo, tần số lấy mẫu lần lượt là 32kHz và
44.1kHz. Sau đó tiến hành nén các file wav bằng chức năng “Audio codec”, lần lượt
chọn thuật toán nén MP3 và AAC. Đối với MP3, tiến hành nén ở tốc độ bit 32kbps,
64kbps và 128kbps. Đối với AAC, tiến hành nén ở tốc độ bit 64kbps, 128kbps và
192kbps. Sau đó, so sánh chất lượng bằng phương pháp nghe thử nhằm kiểm tra tiếng
ồn, độ méo, cao độ của các nốt, sự ổn định,, chúng tôi nhận thấy kết quả như sau:
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
240
Bảng 1. Kết quả so sánh chất lượng của các file MP3
Tốc độ
bit
Nhạc cổ điển lấy
mẫu ở 32kHz
Nhạc cổ điển lấy
mẫu ở 44.1kHz
Nhạc Rap lấy mẫu ở
32kHz
Nhạc Rap lấy mẫu
ở 44.1kHz
32kbp
s
Rất méo, rất ồn và
những nốt dài bị đứt
đoạn
Không cải thiện mấy
so với tần số lấy mẫu
32kHz
Rất méo, rất ồn và
những đoạn nói dài bị
đứt đoạn
Không cải thiện
mấy so với tần số
lấy mẫu 32kHz
64kbp
s
Vẫn méo và ồn,
những nốt dài ít bị
đứt đoạn hơn
Méo và bị đứt đoạn
một ít ở các nốt dài,
tốt hơn so với tần số
lấy mẫu 32kHz, tốc
độ 64kbps
Vẫn còn méo và ồn,
những đoạn nói dài
bớt bị đứt đoạn
Tốt hơn so với rap
lấy mẫu ở tần số
32kHz, nhưng vẫn
còn nhận ra méo, ồn
và đứt đoạn
128kb
ps
Còn méo một ít,
nhưng hầu như các
nốt dài không còn
bị đứt đoạn
Chất lượng gần với
file gốc, khó phân
biệt với file wav
Còn méo, ổn và bị đứt
đoạn nhưng có thể
chấp nhận được
Chất lượng gần với
file gốc, khó phân
biệt với file gốc
3.4. Nhận xét
Kết quả đánh giá chất lượng đối với file nén MP3 ở bảng 1 cho thấy: khi thu âm
ở tần số lấy mẫu 32kHz thì chất lượng âm nhạc tất tệ. Cả hai loại nhạc thử nghiệm đều
đạt chất lượng chấp nhận được ở tần số lấy mẫu 44.1kHz và tốc độ bit 64kbps, nhưng
muốn chất lượng khá phải nén ở tốc độ bit 128kbps. Lúc này tỷ lệ nén đạt được khá cao
là: 1.411 (Mbps) : 128 (kbps) = 11 : 1.
Đối với AAC, như kết quả trình bày trong bảng 2, nhạc cổ điển thu âm ở tần số
lấy mẫu 44.1kHz và nén ở tốc độ bit 64kbps có chất lượng chấp nhận được và tốt hơn so
với Rap, vì những nốt cao nghe rõ và trong hơn; hơn nữa những đoạn nói trong nhạc
Rap bị méo nhiều hơn so với nhạc. Cả hai loại nhạc thử nghiệm khi thu âm ở tần số lấy
mẫu 44.1kHz và nén ở tốc độ bit 128kbps và 192kbps đều cho chất lượng rất tuyệt, đặc
biệt rất khó phân biệt chất lượng giữa tốc độ 128kbps và 192kbps.
Bảng 2. Kết quả so sánh chất lượng của các file AAC
Tốc độ
bit
Nhạc cổ điển lấy
mẫu ở 32kHz
Nhạc cổ điển lấy
mẫu ở 44.1kHz
Nhạc Rap lấy mẫu ở
32kHz
Nhạc Rap lấy mẫu ở
44.1kHz
64kbps
Có ồn một ít và
một số nốt cao bị
phô
Rất ít nhiễu, còn ít
méo, nghe khá tốt
Có ồn một ít và một
số nốt cao bị phô
Có ồn một ít và một
số nốt cao bị phô
128kbps
Gần với chất
lượng gốc, khó
phân biệt với file
wav
Gần với chất lượng
gốc, khó phân biệt
với file wav
Gần với chất lượng
gốc, khó phân biệt
với file wav
Gần với chất lượng
gốc, khó phân biệt
với file wav
192kbps
Gần với chất
lượng gốc, khó
phân biệt với tốc
độ 128kbps
Gần với chất lượng
gốc, khó phân biệt
với tốc độ 128kbps
Gần với chất lượng
gốc, khó phân biệt
với tốc độ 128kbps
Gần với chất lượng
gốc, khó phân biệt
với tốc độ 128kbps
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
241
Như vậy, kết quả đánh giá chất lượng của các file nhạc nén bằng MP3 và AAC
bằng thực nghiệm là phù hợp với các kết quả nghiên cứu được công bố tại [1], [2], [3].
4. Kết luận
Cả hai chuẩn mã hóa MP3 và MPEG-2 AAC đều có thể nén tín hiệu audio với
chất lượng gần chất lượng của CD. Trong hai chuẩn trên, MP3 ít phức tạp hơn AAC,
AAC cung cấp chất lượng tốt hơn MP3 với cùng tần số lấy mẫu và tỷ lệ nén.
Hướng nghiên cứu tiếp theo: tìm hiểu và phát triển các chuẩn nén audio mới dựa
trên MPEG-4, thực hiện đầy đủ các phương pháp đánh giá chất lượng như: single
stimulus rating, paired rating with reference, multiple stimulus rating, ITU-R BS.1116-1,
MUSHRA.
TÀI LIỆU THAM KHẢO
[1] Jenq-Neng Hwang, “Multimedia Networking”, Cambridge University Press 2009.
[2] Karl-Heinz Brandenburg, “MP3 and AAC explained”, AES 17th International
Conference on High Quality Audio Coding.
[3] Stephen Bunting, “A subjective comparison of MPEG-4 AAC codecs”, 4B
Technical Project 2004.
[4] Serkan Kiranyaz, Mathieu Aubazac, Moncef Gabbouj, “Unsupervised
Segmentation and Classification over MP3 and AAC Audio Bitstreams”, WIAMIS
2003.
[5] C. Colomes, C. Schmidmer, and W.C. Treurniet, “Perceptual quality assessment
for digital audio: PEAQ-the proposed ITU standard for objective measurement of
perceived audio quality”, AES 17th International Conference.