Giải pháp giảm nhiễu trong miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động

Công nghệxửlý tiếng nói hiện đại là chuyên ngành liên quan tới nhiều lĩnh vực khác nhau, là sựtích hợp của các kỹthuật phân tích, mã hóa, tổng hợp, nhận dạng và truyền tiếng nói trong môi trường thực. Tất cảnhững lĩnh vực trên đòi hỏi các thuật toán phải có sự ổn định cao đối với môi trường nhiễu âm học, một vấn đề đầy thách thức cho thông tin thoại trong môi trường thực. Bài báo này trình bày nghiên cứu vềphương pháp giảm nhiễu (NR) mới trong miền Wavelet. Bằng cách tích hợp thuật toán NR vào trong các khối front-ends trong hệthống nhận dạng tiếng nói tự động (ASR), hiệu suất nhận dạng đã được cải thiện rõ rệt trong môi trường có nhiễu.

8 trang | Chia sẻ: superlens | Lượt xem: 1772 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Giải pháp giảm nhiễu trong miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 271 GIẢI PHÁP GIẢM NHIỄU TRONG MIỀN WAVELET ĐỂ NÂNG CAO HIỆU SUẤT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG A WAVELET-BASED NOISE REDUCTION APPROACH FOR ROBUST AUTOMATIC SPEECH RECOGNITION Phạm Văn Tuấn, Hoàng Lê Uyên Thục Trường Đại học Bách khoa, Đại học Đà Nẵng TÓM TẮT Công nghệ xử lý tiếng nói hiện đại là chuyên ngành liên quan tới nhiều lĩnh vực khác nhau, là sự tích hợp của các kỹ thuật phân tích, mã hóa, tổng hợp, nhận dạng và truyền tiếng nói trong môi trường thực. Tất cả những lĩnh vực trên đòi hỏi các thuật toán phải có sự ổn định cao đối với môi trường nhiễu âm học, một vấn đề đầy thách thức cho thông tin thoại trong môi trường thực. Bài báo này trình bày nghiên cứu về phương pháp giảm nhiễu (NR) mới trong miền Wavelet. Bằng cách tích hợp thuật toán NR vào trong các khối front-ends trong hệ thống nhận dạng tiếng nói tự động (ASR), hiệu suất nhận dạng đã được cải thiện rõ rệt trong môi trường có nhiễu. ABSTRACT Modern speech processing technology is the interdisciplinary subject of dealing with a complex integrated system consisting of speech analysis, coding, synthesis, recognition and transmission in realistic environments. All addressed topics make robustness to acoustic background noise highly challenging in speech communications. In this paper, these challenges are studied by novel Wavelet-based noise reduction (NR) methods. By integrating the NR algorithms into front-end units of an Automatic Speech Recognition (ASR) engine, we realize that recognition performance is significantly improved in noisy environments. 1. Giới thiệu Như là một phần của hệ thống thông tin người-máy, có thể thấy mục tiêu của hệ ASR là chuyển nội dung ngôn ngữ của tiếng nói sang từ hay câu. Đề tài được quan tâm nhiều nhất trong lĩnh vực này trong những năm qua là nâng cao hiệu suất cho hệ thống ASR trong môi trường có nhiễu. Hệ thống ASR đang thử nghiệm hiện nay có tỷ lệ lỗi trung bình khoảng 5% đến 10%. Tuy nhiên, khả năng nhận dạng tiếng nói bị giảm đột ngột trong môi trường có nhiễu mạnh, môi trường này làm tiếng nói bị méo đi nhiều. Một hệ thống ASR hiệu suất cao phải là một hệ thống có thể nhận dạng tiếng nói chính xác trong môi trường có nhiều nguồn nhiễu khác nhau và rất phức tạp như ngoài đường, trong quán ăn, văn phòng, phân xưởng, ở đó tỷ lệ tín hiệu trên nhiễu rất thấp. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 272 Hình 1. Giải pháp giảm nhiễu để nâng cao tính ổn định của ASR Kể từ thập kỷ qua, nhiều phương pháp đã được đề xuất và nghiên cứu để cải thiện hiệu suất nhận dạng của ASR trong những môi trường nhiễu khắc nghiệt. Có thể chia ra ba hướng giải pháp: thích nghi mô hình âm học, trích thuộc tính âm học bền vững đối với nhiễu, giảm nhiễu ở khối tiền xử lý. Có thể xem giảm nhiễu như là phương pháp hiệu quả đối với các hệ thống ASR. Như chỉ ra trong hình 1, chất lượng của tiếng nói thu âm phải được tăng cường trong giai đoạn tiền xử lý, để đảm bảo trích ra được các thông tin đặc trưng, theo đó khả năng nhận dạng trong các hệ thống ASR sẽ được tăng lên. Hướng nghiên cứu này đã và đang được thực hiện trong dự án AURORA3 [1] về nhận dạng tiếng nói trong môi trường xe cộ, và dự án European SNOW [2] nghiên cứu về hệ thống ASR trong môi trường nhiễu trong phân xưởng, kiểm tra nhiễu do máy bay gây ra. Nguồn nhiễu không trắng và không ổn định là thách thức lớn trong hầu hết các kỹ thuật nén nhiễu. Nội dung bài báo được cấu trúc như sau: Phần II trình bày phương pháp nén nhiễu trong miền Wavelet với thuật toán đề xuất PSWF. Phần tiếp theo mô tả ứng dụng của thuật toán giảm nhiễu PSWF để tăng hiệu suất nhận dạng của ASR. Các kết quả thí nghiệm được đánh giá và phân tích. Phần kết luận kết thúc bài báo. 2. Giải thuật nén nhiễu trong miền Wavelet 2.1. Mô hình nhiễu cộng Tín hiệu sạch x(n) bị gây méo bởi nhiễu cộng d(n) và tạo ra tín hiệu bị nhiễu: (1) Do tính tuyến tính của biến đổi Wavelet (WT) nên mô hình nhiễu cộng được duy trì trong miền Wavelet: (2) Trong đó, và mô tả các chuỗi hệ số gói Wavelet của các tín hiệu bị nhiễu, tín hiệu sạch và tín hiệu nhiễu tương ứng được tính tại tỷ lệ thứ mth cho frame thứ ith (k = 1, 2, 3, 2m). Trong nghiên cứu này, phân tích gói Wavelet nhị phân (WPD) thực hiện tại tỷ lệ phân tích m = 7 (từ đây về cuối bài báo, chỉ số m được loại bỏ để đơn giản hóa các biến) TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 273 2.2. Kỹ thuật chọn ngưỡng Giải pháp khử nhiễu Wavelet được xem như là phương pháp ước lượng thống kê không có tham số. Nguyên lý thực hiện dựa trên việc định ngưỡng hoặc nén các hệ số Wavelet mà giá trị của chúng thấp hơn ngưỡng nhiễu. Việc chọn ngưỡng sẽ tác động đến sự làm trơn hoặc làm cho khớp với tín hiệu được khử nhiễu. Cụ thể là ngưỡng giá trị nhỏ sẽ dẫn đến sự khử nhiễu nhẹ và hệ quả là nhiễu còn tồn đọng nhiều sau xử lý. Ngược lại ngưỡng với giá trị lớn hơn sẽ nén nhiều hệ số Wavelet dẫn đến làm trơn tín hiệu nhưng cũng đồng thời làm suy hao các thành phần unvoiced (ví dụ âm /s/) của tiếng nói và gây méo tín hiệu tiếng nói sau khi khử nhiễu. Trong công bố [3], Dono đã đề xuất công thức tính ngưỡng nhiễu Universal Threshold dựa trên nguyên tắc tối thiểu hóa hàm rủi ro (risk function) giữa tín hiệu sạch mong muốn và tín hiệu được khử nhiễu: (3) Trong đó E{.} là toán tử trung bình thống kê, là hệ số đã được cải thiện. Với giả thiết về tính trực giao của biến đổi Wavelet và phân bố nhiễu iid với phương sai , Universal Threshold tỷ lệ thuận với độ lệch chuẩn và chiều dài N của chuỗi hệ số Wavelet. Để ước lượng tốt nhiễu màu, UT được tính toán cho mỗi gói Wavelet độc lập tại mỗi frame ith: (4) Trong đó là ước lượng bền vững của độ lệch chuẩn bằng cách tính median absolute deviation (MAD) của chuỗi các hệ số. 3. Hàm nén nhiễu thích nghi Kỹ thuật khử nhiễu trong miền wavelet xuất phát từ nguyên tắc: mỗi hệ số wavelet đóng góp vào mức nhiễu với phương sai là , nhưng chỉ có một vài số hệ số wavelet ảnh hưởng tới tín hiệu [3]. Điều này cho phép thay thế các hệ số nhiễu bằng zero. Các quyết định cứng và quyết định mềm được đề xuất trong [3] là các hàm khử nhiễu khá đơn giản nhưng chưa tối ưu. Trong bài báo này, chúng tôi sử dụng một hàm wavelet nén nhiễu được cải tiến mà về bản chất chính là hàm quyết định cứng được làm trơn theo cơ sở luật µ. Quy tắc nén được thể hiện bởi hàm ước lượng sau (posteriori function) của tỷ số tín hiệu trên ngưỡng được phân đoạn trước như sau: (5) Ở đây và thông số thích nghi được định nghĩa trong [3] như sau: TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 274 (6) Trong đó, phần mũ exp tự thích nghi với chính nó bởi ngưỡng nhiễu được làm trơn và chuẩn hóa với hằng số độ dốc . Kỹ thuật nén theo luật µ biểu diễn một sự thỏa hiệp giữa ngưỡng quyết định cứng và ngưỡng quyết định mềm. Trong khi hàm ngưỡng cứng có phương sai lớn hơn nhưng bias nhỏ hơn thì hàm ngưỡng mềm có bias lớn hơn và phương sai nhỏ hơn. Nói cách khác, ngưỡng cứng có xu hướng giữ dạng gốc của tín hiệu, còn ngưỡng mềm có xu hướng làm mịn tín hiệu hơn [4]. Một ưu điểm lớn của nén luật µ so với các luật khác là nó không thiết lập tất cả hoặc một phần của các hệ số wavelet, mà trị tuyệt đối của các hệ số này đều thấp dưới ngưỡng, về bằng 0 như được thực hiện bởi ngưỡng quyết định cứng hoặc mềm. 4. Đề xuất thuật toán giảm nhiễu mới Trong nghiên cứu này, chúng tôi cải tiến phương pháp giảm nhiễu Wavelet đề xuất trong [5] bởi thuật toán lọc Wavelet thống kê có tính cảm quan (Perceptually Statistical Wavelet Filtering – PSWF) với sơ đồ khối trong hình 2: Hình 2. Sơ đồ khối của thuật toán được đề xuất PSWF Trước hết, ngưỡng được tính từ các hệ số Wavelet tại mỗi gói. Sau đó ngưỡng nhiễu cảm quan được tính cho mỗi critical wavelet subband (CWS) thông qua bộ ánh xạ ngưỡng. Kỹ thuật lọc percentile thống kê được áp dụng tiếp theo để ước lượng ngưỡng nhiễu percentile cho mỗi CWS một cách thích nghi. Các ngưỡng đã được ước lượng này lại tiếp tục được tinh chỉnh bởi sự trọng số hóa trong miền thời gian và miền tần số. Cuối cùng, sau khi qua bộ ánh xạ ngược ngưỡng từ CWS sang toàn bộ các băng con tương ứng các gói phân tích Wavelet, các ngưỡng này được đưa vào hàm nén nhiễu thích nghi để khử nhiễu các hệ số Wavelet. Các mẫu tiếng nói được khôi phục bởi phép khôi phục gói Wavelet (WPR). 4.1. Ánh xạ ngưỡng giác quan Để nâng cao sự chính xác khi ước lượng nhiễu, chúng tôi đề xuất giải pháp ước lượng ngưỡng nhiễu cảm quan. Thay vì sử dụng tất cả các ngưỡng UT ước lượng từ tất TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 275 cả gói Wavelet, hàm ánh xạ ngưỡng tích hợp 128 giá trị UT thành 17 ngưỡng giác quan tương ứng với 17 critical subbands của mô hình tâm-âm học (psychoacoustic model). Tùy theo đặc tính của tần số trung tâm và critical bandwidth tương ứng [6], có xấp xỉ 17 CWS cho băng thông tín hiệu 4kHz (băng thông của tín hiệu tiếng nói được xem xét trong nghiên cứu này). Ngưỡng nhiễu cảm quan của mỗi critical subband j, tại frame thứ ith được ước lượng: (7) Trong đó là thứ tự của các gói Wavelet. Với module ánh xạ này, độ phức tạp của hệ thống được giảm xuống dáng kể do chỉ phải thực hiện lọc percentile thích nghi và hàm trọng số miền thời gian-tần số (được trình bày trong phần tiếp theo) trên 17 critical subbands. 4.2. Kỹ thuật lọc percentile thích nghi Do các ngưỡng UT tính theo (4) được ước lượng cục bộ tại mỗi gói Wavelet tại mỗi frame thứ ith, đặc điểm động thay đổi theo thời gian của tiếng nói và nhiễu đã không được xem xét đến. Do đó, chúng tôi đề xuất ứng dụng thuật toán lọc percentile thống kê [5] để dò tìm mức nhiễu động tại mỗi khung tiếng nói. Cơ sở của kỹ thuật này dựa trên quan sát thật là thong tin thoại không luôn xuất hiện tại tất cả kênh tần số cùng một lúc, kể cả trong khoảng chỉ có tín hiệu thoại. Do đó, mức nhiễu tại môi kênh có thể được ước lượng bởi percentile qth trong một khoảng thời gian ngắn (bộ đệm dài 1 giây) của tín hiệu như sau: - Sắp xếp các giá trị ngưỡng nhiễu cảm quan từ Nf frames của bộ đệm pth theo giá trị tăng dần để có được với - Xác định ngưỡng nhiễu thích nghi bằng cách lấy percentile thứ qth như sau: . Trong đó, hệ số percentile đã chuẩn hóa được chọn là q = 0.2 cho ra kết quả ước lượng nhiễu tốt nhất trong nghiên cứu này. 4.3. Trọng số hóa trong miền thời gian và tần số Với giả thiết rằng nhiễu không thể bị thay đổi quá nhanh so với tín hiệu tiếng nói, ngưỡng nhiễu lại được tiếp tục làm trơn bởi mô hình đệ quy bậc 1: (8) Do ngưỡng UT không xem xét đến sự tương quan giữa các hệ số Wavelet ở các gói khác nhau nên chúng tôi thiết kế thêm hàm trọng số miền tần số để tăng cường độ nén cho các ngưỡng lớn và qua đó giam bớt nhiễu. Đồng thời, một hàm trọng số miền thời gian được xây dựng để bám chính xác hơn thông tin thoại và TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 276 nhiễu. Các frame với ngưỡng nhỏ hơn có thể là kết quả ước lượng của nhiễu nên sẽ được nén mạnh hơn và ngược lại: (9) Các hằng số và được chọn lựa để đạt được hiệu suất nhận dạng từ cao nhất (khi tích hợp thuật toán PSWF vào ASR). 5. Đánh giá kết quả thực nghiệm Thuật toán PSWF được tích hợp vào tầng tiền xử lý của khối front-end của hệ thống nhận dạng tiếng nói HTK [7]. Trong nghiên cứu này, khối Standard front-end (SFE) [8] và khối Advanced front-end (AFE) [9] lần lượt được kết hợp với bộ nhận dạng HTK. Các mô hình âm học left-to-right với 16 trạng thái cho 1 từ và một tổ hợp 3 phân bố Gaussians cho mỗi trạng thái được huấn luyện cho bộ nhận dạng này. Chúng tôi thực hiện các bài tests trên cơ sở dữ liệu AURORA3 SpeechDat Car corpus gồm các chuỗi chữ số được ghi âm với một mic đặt gần (close talking mic) và một mic để ở xa (hands-free mic) trong xe hơi chạy ở các điều kiện khác nhau. Hiệu quả của thuật toán PSWF được đánh giá thông qua hiệu suất nhận dạng từ và được so sánh với các giải pháp khử nhiễu khác như phương pháp WPDe [5], bộ lọc Wiener 2 tầng (2sWF) của AFE [9] và thuật toán trừ phổ đề xuất bởi Ephraim and Malah (EMSS) [10]. Hai chế độ kiểm tra khác nhau được thực hiện gồm: có (with – wi.) và không có (without – wo.) huấn luyện lại mô hình âm học. Bên cạnh đó, để đánh giá tính hiệu quả của việc tích hợp bộ NR vào trong ASR, 3 điều kiện về phân bố cơ sở dữ liệu training-test đều được xem xét như: high-mismatch – hm (dữ liệu audio sạch được ùng trong pha training và dữ liệu audio bị nhiễu được nhận dạng trong pha testing); medium mismatch – mm và well-match – wm. Trong lần test thư nhất, thuật toán PSWF được sử dụng tại tầng tiền xử lý bộ front-ends của hệ thống nhận dạng đã được huấn luyện. Kết quả trong bảng 1 cho thấy tỷ lệ nhận dạng từ (Word Recognition Rate - WRR) tăng từ 66.70% lên đến 73.13% và độ chính xác từ (Word Accuracy - WAC) tăng từ 63.23% lên đến 70.77% cho bộ SFE. Tuy nhiên, khi dùng AFE, WRR và WAC giảm từ 89.78% xuống còn 86.63% và 89.45% xuống còn 68.87%. Chúng tôi cho rằng sự suy giảm hiệu suất này là do quá trình khử nhiễu kép bởi PSWF Bảng 1. Hiệu suất nhận dạng trong điều kiện hm TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 277 và 2sWF. Tuy nhiên, so sánh với các trường hợp không dùng 2sWF NR cho AFE và dùng EMSS hay WPDe, WRR được tăng lên đáng kế khi triển khai thuật toán PSWF. Với lần test thứ hai, mô hình âm học của bộ HTK được huấn luyện lại trên cơ sở dữ liệu audio huấn luyện đã được xử lý bởi thuật toán PSWF. Chúng tôi lập lại các bước như lần test thứ nhất. Bằng cách thay thế 2sWF bởi PSWF cho AFE trong pha training, WRR đạt được gần giống nhau (89.45% so với 89.78%) và WAC bị giảm đi chút ít. Tuy nhiên, khi áp dụng cho SFE, WRR và WAC được tăng lên rất nhiều: từ 66.70% lên 77.71% và từ 63.23% lên đến 76.73%. Ngoài ra, hiệu suất nhận dạng cũng được tăng lên đáng kể so với khi dùng các giải thuật giảm nhiễu khác. Ở lần test thứ ba, các điều kiện test mm và wm được thực hiện với kết quả trình bày trong bảng 2. Rõ ràng là việc áp dụng thuật toán giảm nhiễu vào tầng tiền xử lý chỉ có ý nghĩa trong điều kiện hm. Chúng tôi quan sát thấy rằng WRR được cải thiện đến 11.01% cho điều kiện hm trong khi sự gia tăng này là thấp hơn trong các điều kiện mm và wm, 3.44% và 2.43%. Thêm vào đó, chúng tôi nhận thấy việc huấn luyện lại mô hình âm học rất tùy thuộc vào điều kiện mismatch về dữ liệu giữa pha huấn luyện và pha kiểm thử mà không phụ thuộc vào front-end. 6. Kết luận Phương pháp giảm nhiễu mới dựa trên hàm nén wavelet thống kê trong miền cảm quan PSWF và ứng dụng của nó cho hệ thống nhận dạng được trình bày trong bài báo. Kết quả chỉ ra rằng, bằng cách tích hợp thuật toán PSWF vào tầng tiền xử lý của khối front-end của bộ nhận dạng, tính ổn định của hệ thống nhận dạng trong môi trường nhiễu sẽ được cải thiện đáng kể. Kết quả cho thấy, bằng cách huấn luyện lại mô hình âm học dùng dữ liệu huấn luyện audio đã được xử lý cải thiện bởi thuật toán PSWF, chúng ta đạt được tỷ lệ nhận dạng tương tự với tiêu chuẩn AFE ETSI 202 050 và sự cải thiện đáng kể khi sử dụng tiêu chuẩn SFE ETSI 201 108. Kết quả này cho thấy giải thuật PSWF được đề xuất có tính hiệu quả ngang với các phương pháp giảm nhiễu đã được tiêu chuẩn hóa. Do sự phân bố thông tin thoại tại các kênh tần số khác nhau là không đồng nhất, bộ lọc percentile với hệ số phần trăm thích nghi cho mỗi kênh tại mỗi thời điểm cần được nghiên cứu phát triển. Bảng 2. Hiệu suất nhận dạng cho điều kiện mm, wm TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 278 TÀI LIỆU THAM KHẢO [1] “AURORA Project Database - Subset of SpeechDat-Car German database (AURORA/CD0003-03),” Evaluations and Language resources Distribution Agency, Tech. Rep., 2001. [2] “Services for NOmadic Workers (snow),” Strategic Targeted Research Project in the 6th Frame Program of the European Union, FP6-511587. [Online]. Available: [3] D. L. Donoho and I. M. Johnstone, “Adapting to unknown smoothness via wavelet shrinkage,” Journal of the American Statistical Association, vol. 90, no. 432, pp. 1200–1224, 1995. [4] A. G. Bruce and H. Gao, “Understanding WaveShrink: Variance and bias estimation,” Biometrika, vol. 83, pp. 727–745, 1996. [5] E. Rank, T. V. Pham, and G. Kubin, “Noise suppression based on wavelet packet decomposition and quantile quantile noise estimation for robust automatic speech recognition,” in Proc. ICASSP, vol. 1, 2006, pp. 477–480. [6] E. Zwicker and E. Terhardt, “Analytical expression for critical band rate and critical bandwidth as a function of frequency,” Journal of the Acoustical Society of America, vol. 68, pp. 1523–1525, 1980. [7] S. Young and et. al., The HTK Book (for HTK Version 3.3). Microsoft Corporation-Cambridge University, Engineering Department, Cambridge University, 2005. [8] ETSI ES 201 108 V1.1.1 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Front-end feature extraction algorithm, Compression algorithms, ETSI, 2000. [9] ETSI ES 202 050 V1.1.3 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Advanced front-end feature extraction algorithm, Compression algorithms, ETSI, 2003. [10] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,” IEEE Trans. Acoustics, Speech, and Signal Processing, vol. 32, pp. 1109–1121, 1984.