Công nghệxửlý tiếng nói hiện đại là chuyên ngành liên quan tới nhiều lĩnh vực khác
nhau, là sựtích hợp của các kỹthuật phân tích, mã hóa, tổng hợp, nhận dạng và truyền tiếng
nói trong môi trường thực. Tất cảnhững lĩnh vực trên đòi hỏi các thuật toán phải có sự ổn định
cao đối với môi trường nhiễu âm học, một vấn đề đầy thách thức cho thông tin thoại trong môi
trường thực. Bài báo này trình bày nghiên cứu vềphương pháp giảm nhiễu (NR) mới trong
miền Wavelet. Bằng cách tích hợp thuật toán NR vào trong các khối front-ends trong hệthống
nhận dạng tiếng nói tự động (ASR), hiệu suất nhận dạng đã được cải thiện rõ rệt trong môi
trường có nhiễu.
8 trang |
Chia sẻ: superlens | Lượt xem: 1586 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Giải pháp giảm nhiễu trong miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
271
GIẢI PHÁP GIẢM NHIỄU TRONG MIỀN WAVELET ĐỂ NÂNG CAO
HIỆU SUẤT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG
A WAVELET-BASED NOISE REDUCTION APPROACH FOR ROBUST
AUTOMATIC SPEECH RECOGNITION
Phạm Văn Tuấn, Hoàng Lê Uyên Thục
Trường Đại học Bách khoa, Đại học Đà Nẵng
TÓM TẮT
Công nghệ xử lý tiếng nói hiện đại là chuyên ngành liên quan tới nhiều lĩnh vực khác
nhau, là sự tích hợp của các kỹ thuật phân tích, mã hóa, tổng hợp, nhận dạng và truyền tiếng
nói trong môi trường thực. Tất cả những lĩnh vực trên đòi hỏi các thuật toán phải có sự ổn định
cao đối với môi trường nhiễu âm học, một vấn đề đầy thách thức cho thông tin thoại trong môi
trường thực. Bài báo này trình bày nghiên cứu về phương pháp giảm nhiễu (NR) mới trong
miền Wavelet. Bằng cách tích hợp thuật toán NR vào trong các khối front-ends trong hệ thống
nhận dạng tiếng nói tự động (ASR), hiệu suất nhận dạng đã được cải thiện rõ rệt trong môi
trường có nhiễu.
ABSTRACT
Modern speech processing technology is the interdisciplinary subject of dealing with a
complex integrated system consisting of speech analysis, coding, synthesis, recognition and
transmission in realistic environments. All addressed topics make robustness to acoustic
background noise highly challenging in speech communications. In this paper, these challenges
are studied by novel Wavelet-based noise reduction (NR) methods. By integrating the NR
algorithms into front-end units of an Automatic Speech Recognition (ASR) engine, we realize
that recognition performance is significantly improved in noisy environments.
1. Giới thiệu
Như là một phần của hệ thống thông tin người-máy, có thể thấy mục tiêu của hệ
ASR là chuyển nội dung ngôn ngữ của tiếng nói sang từ hay câu. Đề tài được quan tâm
nhiều nhất trong lĩnh vực này trong những năm qua là nâng cao hiệu suất cho hệ thống
ASR trong môi trường có nhiễu. Hệ thống ASR đang thử nghiệm hiện nay có tỷ lệ lỗi
trung bình khoảng 5% đến 10%. Tuy nhiên, khả năng nhận dạng tiếng nói bị giảm đột
ngột trong môi trường có nhiễu mạnh, môi trường này làm tiếng nói bị méo đi nhiều.
Một hệ thống ASR hiệu suất cao phải là một hệ thống có thể nhận dạng tiếng nói chính
xác trong môi trường có nhiều nguồn nhiễu khác nhau và rất phức tạp như ngoài đường,
trong quán ăn, văn phòng, phân xưởng, ở đó tỷ lệ tín hiệu trên nhiễu rất thấp.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
272
Hình 1. Giải pháp giảm nhiễu để nâng cao tính ổn định của ASR
Kể từ thập kỷ qua, nhiều phương pháp đã được đề xuất và nghiên cứu để cải
thiện hiệu suất nhận dạng của ASR trong những môi trường nhiễu khắc nghiệt. Có thể
chia ra ba hướng giải pháp: thích nghi mô hình âm học, trích thuộc tính âm học bền
vững đối với nhiễu, giảm nhiễu ở khối tiền xử lý. Có thể xem giảm nhiễu như là phương
pháp hiệu quả đối với các hệ thống ASR. Như chỉ ra trong hình 1, chất lượng của tiếng
nói thu âm phải được tăng cường trong giai đoạn tiền xử lý, để đảm bảo trích ra được
các thông tin đặc trưng, theo đó khả năng nhận dạng trong các hệ thống ASR sẽ được
tăng lên. Hướng nghiên cứu này đã và đang được thực hiện trong dự án AURORA3 [1]
về nhận dạng tiếng nói trong môi trường xe cộ, và dự án European SNOW [2] nghiên
cứu về hệ thống ASR trong môi trường nhiễu trong phân xưởng, kiểm tra nhiễu do máy
bay gây ra. Nguồn nhiễu không trắng và không ổn định là thách thức lớn trong hầu hết
các kỹ thuật nén nhiễu.
Nội dung bài báo được cấu trúc như sau: Phần II trình bày phương pháp nén
nhiễu trong miền Wavelet với thuật toán đề xuất PSWF. Phần tiếp theo mô tả ứng dụng
của thuật toán giảm nhiễu PSWF để tăng hiệu suất nhận dạng của ASR. Các kết quả thí
nghiệm được đánh giá và phân tích. Phần kết luận kết thúc bài báo.
2. Giải thuật nén nhiễu trong miền Wavelet
2.1. Mô hình nhiễu cộng
Tín hiệu sạch x(n) bị gây méo bởi nhiễu cộng d(n) và tạo ra tín hiệu bị nhiễu:
(1)
Do tính tuyến tính của biến đổi Wavelet (WT) nên mô hình nhiễu cộng được duy
trì trong miền Wavelet:
(2)
Trong đó, và mô tả các chuỗi hệ số gói Wavelet của các
tín hiệu bị nhiễu, tín hiệu sạch và tín hiệu nhiễu tương ứng được tính tại tỷ lệ thứ mth
cho frame thứ ith (k = 1, 2, 3, 2m). Trong nghiên cứu này, phân tích gói Wavelet nhị
phân (WPD) thực hiện tại tỷ lệ phân tích m = 7 (từ đây về cuối bài báo, chỉ số m được
loại bỏ để đơn giản hóa các biến)
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
273
2.2. Kỹ thuật chọn ngưỡng
Giải pháp khử nhiễu Wavelet được xem như là phương pháp ước lượng thống kê
không có tham số. Nguyên lý thực hiện dựa trên việc định ngưỡng hoặc nén các hệ số
Wavelet mà giá trị của chúng thấp hơn ngưỡng nhiễu. Việc chọn ngưỡng sẽ tác động
đến sự làm trơn hoặc làm cho khớp với tín hiệu được khử nhiễu. Cụ thể là ngưỡng giá
trị nhỏ sẽ dẫn đến sự khử nhiễu nhẹ và hệ quả là nhiễu còn tồn đọng nhiều sau xử lý.
Ngược lại ngưỡng với giá trị lớn hơn sẽ nén nhiều hệ số Wavelet dẫn đến làm trơn tín
hiệu nhưng cũng đồng thời làm suy hao các thành phần unvoiced (ví dụ âm /s/) của
tiếng nói và gây méo tín hiệu tiếng nói sau khi khử nhiễu. Trong công bố [3], Dono đã
đề xuất công thức tính ngưỡng nhiễu Universal Threshold dựa trên nguyên tắc tối thiểu
hóa hàm rủi ro (risk function) giữa tín hiệu sạch mong muốn và tín hiệu được khử
nhiễu:
(3)
Trong đó E{.} là toán tử trung bình thống kê, là hệ số đã được cải thiện.
Với giả thiết về tính trực giao của biến đổi Wavelet và phân bố nhiễu iid với phương sai
, Universal Threshold tỷ lệ thuận với độ lệch chuẩn và chiều dài N của chuỗi hệ số
Wavelet. Để ước lượng tốt nhiễu màu, UT được tính toán cho mỗi gói Wavelet độc lập
tại mỗi frame ith:
(4)
Trong đó là ước lượng bền vững của độ lệch chuẩn
bằng cách tính median absolute deviation (MAD) của chuỗi các hệ số.
3. Hàm nén nhiễu thích nghi
Kỹ thuật khử nhiễu trong miền wavelet xuất phát từ nguyên tắc: mỗi hệ số
wavelet đóng góp vào mức nhiễu với phương sai là , nhưng chỉ có một vài số hệ số
wavelet ảnh hưởng tới tín hiệu [3]. Điều này cho phép thay thế các hệ số nhiễu bằng
zero. Các quyết định cứng và quyết định mềm được đề xuất trong [3] là các hàm khử
nhiễu khá đơn giản nhưng chưa tối ưu. Trong bài báo này, chúng tôi sử dụng một hàm
wavelet nén nhiễu được cải tiến mà về bản chất chính là hàm quyết định cứng được làm
trơn theo cơ sở luật µ. Quy tắc nén được thể hiện bởi hàm ước lượng sau (posteriori
function) của tỷ số tín hiệu trên ngưỡng được phân đoạn trước như sau:
(5)
Ở đây và thông số thích nghi được định nghĩa trong [3] như
sau:
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
274
(6)
Trong đó, phần mũ exp tự thích nghi với chính nó bởi ngưỡng nhiễu được làm
trơn và chuẩn hóa với hằng số độ dốc . Kỹ thuật nén theo luật µ biểu diễn
một sự thỏa hiệp giữa ngưỡng quyết định cứng và ngưỡng quyết định mềm. Trong khi
hàm ngưỡng cứng có phương sai lớn hơn nhưng bias nhỏ hơn thì hàm ngưỡng mềm có
bias lớn hơn và phương sai nhỏ hơn. Nói cách khác, ngưỡng cứng có xu hướng giữ dạng
gốc của tín hiệu, còn ngưỡng mềm có xu hướng làm mịn tín hiệu hơn [4]. Một ưu điểm
lớn của nén luật µ so với các luật khác là nó không thiết lập tất cả hoặc một phần của
các hệ số wavelet, mà trị tuyệt đối của các hệ số này đều thấp dưới ngưỡng, về bằng 0
như được thực hiện bởi ngưỡng quyết định cứng hoặc mềm.
4. Đề xuất thuật toán giảm nhiễu mới
Trong nghiên cứu này, chúng tôi cải tiến phương pháp giảm nhiễu Wavelet đề
xuất trong [5] bởi thuật toán lọc Wavelet thống kê có tính cảm quan (Perceptually
Statistical Wavelet Filtering – PSWF) với sơ đồ khối trong hình 2:
Hình 2. Sơ đồ khối của thuật toán được đề xuất PSWF
Trước hết, ngưỡng được tính từ các hệ số Wavelet tại mỗi gói. Sau đó
ngưỡng nhiễu cảm quan được tính cho mỗi critical wavelet subband (CWS) thông
qua bộ ánh xạ ngưỡng. Kỹ thuật lọc percentile thống kê được áp dụng tiếp theo để ước
lượng ngưỡng nhiễu percentile cho mỗi CWS một cách thích nghi. Các ngưỡng đã
được ước lượng này lại tiếp tục được tinh chỉnh bởi sự trọng số hóa trong miền thời gian
và miền tần số. Cuối cùng, sau khi qua bộ ánh xạ ngược ngưỡng từ CWS sang toàn bộ
các băng con tương ứng các gói phân tích Wavelet, các ngưỡng này được đưa vào
hàm nén nhiễu thích nghi để khử nhiễu các hệ số Wavelet. Các mẫu tiếng nói được khôi
phục bởi phép khôi phục gói Wavelet (WPR).
4.1. Ánh xạ ngưỡng giác quan
Để nâng cao sự chính xác khi ước lượng nhiễu, chúng tôi đề xuất giải pháp ước
lượng ngưỡng nhiễu cảm quan. Thay vì sử dụng tất cả các ngưỡng UT ước lượng từ tất
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
275
cả gói Wavelet, hàm ánh xạ ngưỡng tích hợp 128 giá trị UT thành 17 ngưỡng giác quan
tương ứng với 17 critical subbands của mô hình tâm-âm học (psychoacoustic model).
Tùy theo đặc tính của tần số trung tâm và critical bandwidth tương ứng [6], có xấp xỉ 17
CWS cho băng thông tín hiệu 4kHz (băng thông của tín hiệu tiếng nói được xem xét
trong nghiên cứu này). Ngưỡng nhiễu cảm quan của mỗi critical subband j, tại frame
thứ ith được ước lượng:
(7)
Trong đó là thứ tự của các gói Wavelet. Với module ánh xạ này, độ
phức tạp của hệ thống được giảm xuống dáng kể do chỉ phải thực hiện lọc percentile
thích nghi và hàm trọng số miền thời gian-tần số (được trình bày trong phần tiếp theo)
trên 17 critical subbands.
4.2. Kỹ thuật lọc percentile thích nghi
Do các ngưỡng UT tính theo (4) được ước lượng cục bộ tại mỗi gói Wavelet tại
mỗi frame thứ ith, đặc điểm động thay đổi theo thời gian của tiếng nói và nhiễu đã
không được xem xét đến. Do đó, chúng tôi đề xuất ứng dụng thuật toán lọc percentile
thống kê [5] để dò tìm mức nhiễu động tại mỗi khung tiếng nói. Cơ sở của kỹ thuật này
dựa trên quan sát thật là thong tin thoại không luôn xuất hiện tại tất cả kênh tần số cùng
một lúc, kể cả trong khoảng chỉ có tín hiệu thoại. Do đó, mức nhiễu tại môi kênh có thể
được ước lượng bởi percentile qth trong một khoảng thời gian ngắn (bộ đệm dài 1 giây)
của tín hiệu như sau:
- Sắp xếp các giá trị ngưỡng nhiễu cảm quan từ Nf frames của bộ đệm pth
theo giá trị tăng dần để có được với
- Xác định ngưỡng nhiễu thích nghi bằng cách lấy percentile thứ qth như sau:
.
Trong đó, hệ số percentile đã chuẩn hóa được chọn là q = 0.2 cho ra kết quả ước
lượng nhiễu tốt nhất trong nghiên cứu này.
4.3. Trọng số hóa trong miền thời gian và tần số
Với giả thiết rằng nhiễu không thể bị thay đổi quá nhanh so với tín hiệu tiếng nói,
ngưỡng nhiễu lại được tiếp tục làm trơn bởi mô hình đệ quy bậc 1:
(8)
Do ngưỡng UT không xem xét đến sự tương quan giữa các hệ số Wavelet ở các
gói khác nhau nên chúng tôi thiết kế thêm hàm trọng số miền tần số để tăng
cường độ nén cho các ngưỡng lớn và qua đó giam bớt nhiễu. Đồng thời, một hàm
trọng số miền thời gian được xây dựng để bám chính xác hơn thông tin thoại và
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
276
nhiễu. Các frame với ngưỡng nhỏ hơn có thể là kết quả ước lượng của nhiễu nên sẽ
được nén mạnh hơn và ngược lại:
(9)
Các hằng số và được chọn
lựa để đạt được hiệu suất nhận dạng từ cao nhất (khi tích hợp thuật toán PSWF vào
ASR).
5. Đánh giá kết quả thực nghiệm
Thuật toán PSWF được tích hợp vào tầng tiền xử lý của khối front-end của hệ
thống nhận dạng tiếng nói HTK [7]. Trong nghiên cứu này, khối Standard front-end
(SFE) [8] và khối Advanced front-end (AFE) [9] lần lượt được kết hợp với bộ nhận
dạng HTK. Các mô hình âm học left-to-right với 16 trạng thái cho 1 từ và một tổ hợp 3
phân bố Gaussians cho mỗi trạng thái được huấn luyện cho bộ nhận dạng này. Chúng
tôi thực hiện các bài tests trên cơ sở dữ liệu AURORA3 SpeechDat Car corpus gồm các
chuỗi chữ số được ghi âm với một mic đặt gần (close talking mic) và một mic để ở xa
(hands-free mic) trong xe hơi chạy ở các điều kiện khác nhau. Hiệu quả của thuật toán
PSWF được đánh giá thông qua hiệu suất nhận dạng từ và được so sánh với các giải
pháp khử nhiễu khác như phương pháp WPDe [5], bộ lọc Wiener 2 tầng (2sWF) của
AFE [9] và thuật toán trừ phổ đề xuất bởi Ephraim and Malah (EMSS) [10]. Hai chế độ
kiểm tra khác nhau được thực hiện gồm: có (with – wi.) và không có (without – wo.)
huấn luyện lại mô hình âm học. Bên cạnh đó, để đánh giá tính hiệu quả của việc tích
hợp bộ NR vào trong ASR, 3 điều kiện về phân bố cơ sở dữ liệu training-test đều được
xem xét như: high-mismatch – hm (dữ liệu audio sạch được ùng trong pha training và
dữ liệu audio bị nhiễu được nhận dạng trong pha testing); medium mismatch – mm và
well-match – wm.
Trong lần test thư nhất,
thuật toán PSWF được sử dụng
tại tầng tiền xử lý bộ front-ends
của hệ thống nhận dạng đã được
huấn luyện. Kết quả trong bảng 1
cho thấy tỷ lệ nhận dạng từ
(Word Recognition Rate - WRR)
tăng từ 66.70% lên đến 73.13%
và độ chính xác từ (Word
Accuracy - WAC) tăng từ
63.23% lên đến 70.77% cho bộ
SFE. Tuy nhiên, khi dùng AFE,
WRR và WAC giảm từ 89.78% xuống còn 86.63% và 89.45% xuống còn 68.87%.
Chúng tôi cho rằng sự suy giảm hiệu suất này là do quá trình khử nhiễu kép bởi PSWF
Bảng 1. Hiệu suất nhận dạng trong điều kiện hm
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
277
và 2sWF. Tuy nhiên, so sánh với các trường hợp không dùng 2sWF NR cho AFE và
dùng EMSS hay WPDe, WRR được tăng lên đáng kế khi triển khai thuật toán PSWF.
Với lần test thứ hai, mô hình âm học của bộ HTK được huấn luyện lại trên cơ sở
dữ liệu audio huấn luyện đã được xử lý bởi thuật toán PSWF. Chúng tôi lập lại các bước
như lần test thứ nhất. Bằng cách thay thế 2sWF bởi PSWF cho AFE trong pha training,
WRR đạt được gần giống nhau (89.45% so với 89.78%) và WAC bị giảm đi chút ít. Tuy
nhiên, khi áp dụng cho SFE, WRR và WAC được tăng lên rất nhiều: từ 66.70% lên
77.71% và từ 63.23% lên đến
76.73%. Ngoài ra, hiệu suất nhận
dạng cũng được tăng lên đáng kể
so với khi dùng các giải thuật
giảm nhiễu khác.
Ở lần test thứ ba, các điều
kiện test mm và wm được thực
hiện với kết quả trình bày trong
bảng 2. Rõ ràng là việc áp dụng
thuật toán giảm nhiễu vào tầng
tiền xử lý chỉ có ý nghĩa trong
điều kiện hm. Chúng tôi quan sát thấy rằng WRR được cải thiện đến 11.01% cho điều
kiện hm trong khi sự gia tăng này là thấp hơn trong các điều kiện mm và wm, 3.44% và
2.43%. Thêm vào đó, chúng tôi nhận thấy việc huấn luyện lại mô hình âm học rất tùy
thuộc vào điều kiện mismatch về dữ liệu giữa pha huấn luyện và pha kiểm thử mà
không phụ thuộc vào front-end.
6. Kết luận
Phương pháp giảm nhiễu mới dựa trên hàm nén wavelet thống kê trong miền
cảm quan PSWF và ứng dụng của nó cho hệ thống nhận dạng được trình bày trong bài
báo. Kết quả chỉ ra rằng, bằng cách tích hợp thuật toán PSWF vào tầng tiền xử lý của
khối front-end của bộ nhận dạng, tính ổn định của hệ thống nhận dạng trong môi trường
nhiễu sẽ được cải thiện đáng kể. Kết quả cho thấy, bằng cách huấn luyện lại mô hình âm
học dùng dữ liệu huấn luyện audio đã được xử lý cải thiện bởi thuật toán PSWF, chúng
ta đạt được tỷ lệ nhận dạng tương tự với tiêu chuẩn AFE ETSI 202 050 và sự cải thiện
đáng kể khi sử dụng tiêu chuẩn SFE ETSI 201 108. Kết quả này cho thấy giải thuật
PSWF được đề xuất có tính hiệu quả ngang với các phương pháp giảm nhiễu đã được
tiêu chuẩn hóa.
Do sự phân bố thông tin thoại tại các kênh tần số khác nhau là không đồng nhất,
bộ lọc percentile với hệ số phần trăm thích nghi cho mỗi kênh tại mỗi thời điểm cần
được nghiên cứu phát triển.
Bảng 2. Hiệu suất nhận dạng cho điều kiện mm, wm
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
278
TÀI LIỆU THAM KHẢO
[1] “AURORA Project Database - Subset of SpeechDat-Car German database
(AURORA/CD0003-03),” Evaluations and Language resources Distribution
Agency, Tech. Rep., 2001.
[2] “Services for NOmadic Workers (snow),” Strategic Targeted Research Project in
the 6th Frame Program of the European Union, FP6-511587. [Online]. Available:
[3] D. L. Donoho and I. M. Johnstone, “Adapting to unknown smoothness via wavelet
shrinkage,” Journal of the American Statistical Association, vol. 90, no. 432, pp.
1200–1224, 1995.
[4] A. G. Bruce and H. Gao, “Understanding WaveShrink: Variance and bias
estimation,” Biometrika, vol. 83, pp. 727–745, 1996.
[5] E. Rank, T. V. Pham, and G. Kubin, “Noise suppression based on wavelet packet
decomposition and quantile quantile noise estimation for robust automatic speech
recognition,” in Proc. ICASSP, vol. 1, 2006, pp. 477–480.
[6] E. Zwicker and E. Terhardt, “Analytical expression for critical band rate and
critical bandwidth as a function of frequency,” Journal of the Acoustical Society of
America, vol. 68, pp. 1523–1525, 1980.
[7] S. Young and et. al., The HTK Book (for HTK Version 3.3). Microsoft
Corporation-Cambridge University, Engineering Department, Cambridge
University, 2005.
[8] ETSI ES 201 108 V1.1.1 Speech Processing, Transmission and Quality Aspects
(STQ), Distributed speech recognition, Front-end feature extraction algorithm,
Compression algorithms, ETSI, 2000.
[9] ETSI ES 202 050 V1.1.3 Speech Processing, Transmission and Quality Aspects
(STQ), Distributed speech recognition, Advanced front-end feature extraction
algorithm, Compression algorithms, ETSI, 2003.
[10] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square
error short-time spectral amplitude estimator,” IEEE Trans. Acoustics, Speech, and
Signal Processing, vol. 32, pp. 1109–1121, 1984.