Môn xử lý tín hiệu nâng cao - Nghiên cứu mô hình mã hóa tiếng nói melp

Trong thông tin vô tuyến điện băng hẹp HF, VHF nói chung và thông tin vô tuyến điện quân sự nói riêng thì việc tiết kiệm băng thông, cải thiện chất lượng tín hiệu khi truyền là vấn đề rất quan trọng. Có rất nhiều thuật toán để xử lý số tín hiệu tiêngs nói khác nhau để giải quyết vấn đề này như là LPC, CVSD, Melp (Mixed-Excitation Linear Predictive) . Đối với thông tin vô tuyến điện quân sự ngoài việc tiết kiệm băng thông kênh truyền còn có nhiệm vụ quan trọng nữa đó là chống tác chiến điện tử của kẻ thù, nên việc yêu cầu phải tích hợp rất nhiều dịch vụ trên một kênh truyền HF và VHF. Điều này chỉ được giải quyết khi ta nén dữ liệu số xuống một tốc độ rất thấp. Vì vậy thuật toán Melp là đáp ứng được các yêu cầu trên. Mã dự đoán tuyến tính kết hợp với bộ kích thích (MELP) là một mã hóa tiếng nói chuẩn của Bộ Quốc Phòng và Chính Phủ Mỹ, được ứng dụng chủ yếu trong các ứng dụng quân sự và thông tin vệ tinh, âm thanh bảo mật và các thiết bị vô tuyến bảo mật. Được phát minh năm 1995 do Alan McCree (làm luận văn tốt nghiệp về xử lý tín hiệu và xử lý ảnh). Sau đó được hãng Texas Instruments đưa vào sản phẩm thương mại (chíp DSP kèm phần mềm MELP với tốc độ 2400bps). Năm 1997 đưa vào thành chuẩn quân sự Mỹ (MIL-STD-3005) và đến năm 2001 được đưa vào chuẩn NATO (STANAG 4591). Ngày nay chuẩn mã thoại MELP gồm 3 tốc độ (2400bps, 1200bps và 600bps).

23 trang | Chia sẻ: lvbuiluyen | Lượt xem: 2993 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Môn xử lý tín hiệu nâng cao - Nghiên cứu mô hình mã hóa tiếng nói melp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Khoa Đào tạo quốc tế và Sau đại học ------------o0o----------- TIỂU LUẬN MÔN XỬ LÝ TÍN HIỆU NÂNG CAO “NGHIÊN CỨU MÔ HÌNH MÃ HÓA TIẾNG NÓI MELP” Giáo viên hướng dẫn: TS. Nguyễn Ngọc Minh Nhóm thực hiện: Hà Nội, tháng 5 năm 2013 MỤC LỤC LỜI NÓI ĐẦU Trong thông tin vô tuyến điện băng hẹp HF, VHF nói chung và thông tin vô tuyến điện quân sự nói riêng thì việc tiết kiệm băng thông, cải thiện chất lượng tín hiệu khi truyền là vấn đề rất quan trọng. Có rất nhiều thuật toán để xử lý số tín hiệu tiêngs nói khác nhau để giải quyết vấn đề này như là LPC, CVSD, Melp (Mixed-Excitation Linear Predictive) . Đối với thông tin vô tuyến điện quân sự ngoài việc tiết kiệm băng thông kênh truyền còn có nhiệm vụ quan trọng nữa đó là chống tác chiến điện tử của kẻ thù, nên việc yêu cầu phải tích hợp rất nhiều dịch vụ trên một kênh truyền HF và VHF. Điều này chỉ được giải quyết khi ta nén dữ liệu số xuống một tốc độ rất thấp. Vì vậy thuật toán Melp là đáp ứng được các yêu cầu trên. Mã dự đoán tuyến tính kết hợp với bộ kích thích (MELP) là một mã hóa tiếng nói chuẩn của Bộ Quốc Phòng và Chính Phủ Mỹ, được ứng dụng chủ yếu trong các ứng dụng quân sự và thông tin vệ tinh, âm thanh bảo mật và các thiết bị vô tuyến bảo mật. Được phát minh năm 1995 do Alan McCree (làm luận văn tốt nghiệp về xử lý tín hiệu và xử lý ảnh). Sau đó được hãng Texas Instruments đưa vào sản phẩm thương mại (chíp DSP kèm phần mềm MELP với tốc độ 2400bps). Năm 1997 đưa vào thành chuẩn quân sự Mỹ (MIL-STD-3005) và đến năm 2001 được đưa vào chuẩn NATO (STANAG 4591). Ngày nay chuẩn mã thoại MELP gồm 3 tốc độ (2400bps, 1200bps và 600bps). I. Khái quát chung Theo chuẩn MIL-STD-3005, mã MELP dựa trên mô hình tham số mã dự đoán tuyến tính (LPC - Linear Prediction Coding chủ yếu là LPC10) và có cải tiến, bổ xung thêm năm đặc trưng nữa để khắc phục các nhược điểm của mã LPC; đó là Bộ trộn kích thích, chuỗi xung ngẫu nhiên, bộ lọc phổ thích nghi tăng cường, trải phổ xung và mô hình năng lượng Fourier, Một khung dữ liệu MELP được tạo thành từ đoạn dữ liệu âm thanh trong khoảng thời gian 22.5ms, trong đó gồm 180 mẫu với tốc độ lấy mẫu là 8,000 mẫu/giây. Sau khi qua quá trình phân tích, tính toán ra các đặc trưng, đoạn dữ liệu này sẽ được mã hóa bằng 54 bit rồi truyền đi, vậy tốc độ dữ liệu (54 bit/22,5ms tương đương 2400 bit/ 1giây). Các yêu cầu về đặc tính tương tự và các tham số mã hóa cụ thể như sau: Yêu cầu về tín hiệu tương tự: Băng thông tín hiệu tương tự từ 100Hz đến 3800Hz; Bộ biến đổi A/D lớn nhất là 16 bit (tức là có giá trị sau biến đổi nằm trong khoảng -32768 đến 32767); Độ lợi xử lý mã phải đồng đều trên cả băng thông để đảm bảo mức của tín hiệu tiếng nói đầu ra phù hợp với mức của tín hiệu tiếng nói đầu vào. Yêu cầu các tham số mã hóa và lượng tử: Các tham số của mã MELP sau khi lượng tử hóa và được truyền đi bao gồm: chu kỳ pitch cuối cùng (P3); các giá trị âm thanh qua lọc băng thông (Vbpi, i = 1, 2, …, 5); giá trị 2 hệ số khuếch đại (G1, G2); các hệ số dự đoán tuyến tính (ai, i= 1, 2, …, 10); giá trị năng lượng Fourier và cờ ngẫu nhiên. Phạm vi, giá trị cụ thể của các tham số được cho trong bảng 1. Bảng 1: Bảng cấp phát số bit dùng cho các tham số MELP Tên tham số Âm hữu thanh (bit) Âm vô thanh (bit) Hệ số LPC10 (LSF) 25 25 Năng lượng Fuorier 8 - Hệ số khuếch đại (G1,G2) 8 8 Chu kỳ Pitch, Chồng âm 7 7 Bộ lọc âm (5 băng cố định) 4 - Cờ ngẫu nhiên 1 - Mã sửa lỗi (FEC) - 13 Bit đồng bộ 1 1 Tổng số bit/ khung 22,5ms 54 54 II. Thủ tục mã hóa Melp 1. Mô hình mã hóa Melp Thủ tục giải mã Melp Hình trên là mô hình hệ thống mã hóa MELP. Chức năng của từng bộ phận trong hệ thống lần lượt được trình bày ở phần tiếp theo. 2. Lọc bỏ tần số thấp Bước đầu tiên thực hiện mã hóa là lọc bỏ các tần số thấp, năng lượng một chiều của dữ liệu tiếng nói đầu vào. Bước này được thực hiện với một bộ lọc thông cao Chebychev 4 bậc loại II, với tần số cắt tại 60Hz và hệ số nén ngoài dải thông là 30dB. Dữ liệu tiếng nói sau lọc được đưa vào bộ đệm. 3. Bộ đệm đầu vào mẫu Bộ đệm chứa các mẫu mới nhất của tín hiệu tiếng nói đầu vào. Trong đó có một mẫu là mẫu mới nhất trong khung hiện tại. Bộ đệm được bổ xung thêm các mẫu trước và sau mẫu này để có các mẫu cần thiết cho quá trình giải mã. 4. Tính toán phần nguyên độ cao tiếng nói (pitch) (1) (2) Để tính độ cao tiếng nói, đầu tiên tín hiệu giọng nói được lọc với bộ lọc thông thấp Butterworth bậc 6 tần số cắt 1kHz. Giá trị phần nguyên của độ cao âm thanh P1 là giá trị của τ, τ = 40, 41, …, 160, để cho hàm tự tương quan chuẩn r(τ) cực đại. Hàm này được xác định bởi công thức sau: Trong đó [τ/2 ] là giá trị nguyên lớn nhất không vượt quá τ/2. 5. Phân tích dải tần tiếng nói Phần này của bộ mã hóa sẽ xác định tiếng nói thuộc băng tần nào trong 5 băng tần và tính cường độ tiếng nói Vbpi, i= 1, 2, 3, 4, 5, sau khi cho qua các bộ lọc Butterworth bậc 6 với các dải băng thông là 0 ÷ 500, 500 ÷ 1000, 1000 ÷ 2000, 2000 ÷ 3000, 3000 ÷ 4000 Hz. 6. Tính phần thập phân của độ cao tiếng nói (3) Thủ tục này dùng phương pháp nội suy để tăng độ chính xác cho độ cao tiếng nói. Đầu tiên độ cao tiếng nói được làm tròn đến giá trị nguyên gần nhất. Giả sử rằng giá trị này bằng T mẫu và hàm tự tương quan chuẩn hóa r() là một hàm liên tục và có cực đại trong khoảng T-1 và T+1 từ đó c(0,T-1) và c(0,T+1) được tính và so sánh để xác định cực đại nằm trong khoảng T-1 và T hay T và T+1. Nếu c(0,T-1) > c(0,T+1) thì cực đại nằm giữa T-1 và T thì độ cao tiếng nói T cần phải giảm đi 1. Phần thập phân ɛ được tính bằng công thức sau: (3) Trong đó c(m,n) được xác định ở công thức (2) ở trên. Giá trị độ cao âm thanh tính được ở phần này là: P2 = T + . 7. Cờ ngẫu nhiên Cờ ngẫu nhiên được thiết lập bằng 1 khi Vpb1 < 0,5 và được thiết lập tới 0 trong các trường hợp khác. Giá trị của Vpb1 được xác định trong phân tích dải tần tiếng nói như ở phần 4. 8. Phân tích dự đoán tuyến tính Một bộ phân tích dự đoán tuyến tính bậc 10 được thực hiện trên đầu vào tín hiệu tiếng nói sử dụng cửa sổ Hamming 200 mẫu ( 25 ms) tập trung xung quanh mẫu mới nhất trong khung hiện tại. Quá trình tính được thực hiện bởi thuật toán đệ qui Levinson-Durbin. 9. Tính toán tín hiệu sau lọc của dự đoán tuyến tính Tín hiệu sau lọc của dự đoán tuyến tính được tính toán bằng cách lọc tín hiệu tiếng nói đầu vào với bộ lọc dự đoán tuyến tính có hệ số được xác định ở phần 7. Cửa sổ để tính tín hiệu sau lọc có tâm là mẫu mới nhất trong khung hiện tại và được làm đủ rộng để sử dụng cho việc tính toán độ cao âm thanh sau cùng. (ở phần 10). 10. Tính toán Peakiness (4) Đỉnh của tín hiệu sau lọc được tính toán trên một cửa sổ 160 mẫu có tâm là mẫu mới nhất của khung hiện hành. Giá trị đỉnh là được tính dựa trên tín hiệu sau lọc rn như công thức dưới: Nếu giá trị đỉnh vượt quá 1,34 thì cường độ âm thanh Vpb1 được gán 1,0. Nếu giá trị đỉnh vượt qua 1,6 thì cường độ âm thanh 3 băng, Vpbi , i=1, 2, 3 được gán bằng 1,0. Peakiness chỉ được sử dụng cho mục đích trên. 11. Hoàn tất tính toán cao độ của tiếng nói Quá trình tính toán giá trị cuối cùng của cao độ tiếng nói dựa trên tín hiệu sau lọc sau khi đã lọc thông thấp với bộ lọc thông thấp Butterworth bậc 6, tần số cắt 1kHz. Phương trình (1) cũng được sử dụng để tìm phần nguyên của cao độ của tín hiệu sau lọc dao động từ nhỏ hơn độ cao giọng nói 5 mẫu đến lớn hơn cao độ giọng nói 5 mẫu. Quá trình tính toán phần thập phân của cao độ tín hiệu sau lọc cũng được tiến hành tương tự như phần 6 để tìm ra giá trị chính xác của cao độ P3 và giá trị tương quan chuẩn tương ứng r(P3). Nếu r(P3)≥0,6 (nghĩa là giá trị tự tương quan tính ra đủ lớn, tức tín hiệu sau lọc gần như tuần hoàn với chu kỳ P3 mẫu) thì giá trị cao độ này sẽ được coi như cao độ của tiếng nói, ta tiến hành kiểm tra xem cao độ tìm được có là bội của cao độ nào nhỏ hơn không (mục 12) với ngưỡng để so sánh là Dth (nghĩa là nếu muốn khẳng định P3 có phải là bội của cao độ nhỏ hơn P3/n nào đó, cần có r(P3/n)≥Dth.r(P3) để tìm ra giá trị cao độ cuối cùng. Nếu P3≤100 thì chọn Dth=0,75, ngược lại thì chọn Dth=0,5. Ngược lại (tức độ tương quan không đủ lớn – tín hiệu sau lọc gần như là ngẫu nhiên không có chu kỳ), thì giá trị cao độ của tiếng nói ban đầu sẽ được chọn để tính cao độ cuối cùng. Nếu giá trị tự tương quan đã chuẩn hóa tính được nhỏ hơn 0,55 thì tiếng nói ban đầu gần như là ngẫu nhiên không có chu kỳ, ta sử dụng cao độ trung bình Pavg. Ngược lại thì giá trị này được coi như độ cao của tiếng nói, ta tiến hành kiểm tra xem cao độ này có phải là bội số của cao độ nhỏ hơn nào đó không với ngưỡng so sánh là Dth=0,9 nếu P3≤100, Dth=0,7 nếu ngược lại. Quá trình trên có thể tính ra giá trị P3 và giá trị tự tương quan tương ứng khác với các giá trị ban đầu. Nếu giá trị tương quan tính được nhỏ hơn 0,55 thì cao độ được gán bằng giá trị cao độ trung bình. 12. Kiểm tra tính bội của cao độ Một hàm tuần hoàn với chu kỳ T nào đó thì cũng tuần hoàn với chu kỳ 2T, 3T,… nên cao độ tính được ở bước trên có thể gấp 2 lần, 3 lần… cao độ cơ bản nào đó. Quá trình kiểm tra tính bội của cao độ nhằm tính ra cao độ cơ bản từ giá trị cao độ tính được ở trên. 13. Tính hệ số khuyếch đại Hệ số khuyếch đại âm thanh đầu vào được tính hai lần trong mỗi frame sử dụng cửa sổ có độ rộng thay đổi theo giá trị cao độ. Độ rộng cửa sổ ở cả hai lần tính đều giống nhau và được xác định như sau: Nếu Vbp1>0,6, độ rộng cửa sổ bằng số lần P2 nhỏ nhất sao cho giá trị của nó lớn hơn 120 mẫu. Nếu độ rộng này vượt quá 320 mẫu thì nó được chia cho 2. Nếu Vbp1≤0,6, độ rộng cửa sổ là 120 mẫu. Cửa sổ thứ nhất có tâm cách 90 mẫu trước mẫu cuối cùng trong khung hiện hành. Cửa sổ thứ hai có tâm là mẫu cuối cùng của khung hiện hành. Hệ số khuyếch đại Gi ,i=1,2, là giá trị hiệu dụng của dãy tín hiệu sn tính theo thang dB theo công thức: (6) Trong đó L là độ rộng cửa sổ. Giá trị 0,01 được đưa vào để không bị lỗi lấy logarit của 0. Nếu hệ số khuyếch đại tính ra nhỏ hơn 0,0… thì lấy giá trị bằng 0,0. Trong quá trình tính toán, ta giả thiết rằng giá trị các mẫu tín hiệu nằm trong khoảng từ -32768 đến 32767. 14. Cập nhật cao độ trung bình (7) Cao độ trung bình trong một thời gian dài được cập nhật bằng thao tác làm mịn đơn giản: Nếu r(P3)>0,8 và G2>30dB thì P3 được đưa vào bộ đệm chứa 3 giá trị cao độ rõ nhất cho đến hiện tại, pi, i=1,2,3. Ngược lại thì tất cả 3 giá trị cao độ rõ nhất trong bộ đệm được thay đổi để giá trị của nó dịch dần về giá trị cao độ mặc định Pdefault=50 mẫu: Giá trị cao độ trung bình Pavg được cập nhật bằng trung bình cộng của 3 giá trị cao độ lưu trong bộ đệm. Giá trị này được sử dụng để tính giá trị cuối cùng của cao độ trong các phần trước. 15. Lượng tử hóa các hệ số của bộ lọc dự đoán tuyến tính. Đầu tiên, từ các hệ số của bộ lọc dự đoán tuyến tính tính ra các tần số có phổ vạch (Line Spectral Frequencies – LSFs). Tiếp đó, các tần số này được sắp xếp tăng dần bằng phương pháp nổi bọt, tức kiểm tra tất cả các cặp tần số liên tiếp, nếu có cặp nào không tăng dần thì đổi chỗ 2 tần số này. Quá trình này lặp lại cho đến khi dãy tần số theo đúng thứ tự. Sau đó, các tần số được điều chỉnh để khoảng cách nhỏ nhất giữa 2 tần số liên tiếp fi và fi+1 là di =fi+1 - fi không nhỏ hơn 50Hz như đoạn giả mã dưới đây. Ở đây giả sử các tần số có phổ vạch được tính trong thang Hz, trong các thang khác thì quá trình tính có thể hơi khác. Vectơ các tần số phổ vạch f sau đó được lượng tử hóa sử dụng phương pháp lượng tử hóa vectơ nhiều tầng. Bảng tra lượng tử hóa vectơ nhiều tầng chứa 4 tầng với số mức ở các tầng là 128,64,64,64. Vectơ sau khi lượng tử hóa f là tổng của 4vectơ ở 4 tầng. Ta cần tìm một vectơ trong bảng tra sao cho bình phương khoảng cách Ơclit giữa nó và vectơ cần lượng tử hóa là nhỏ nhất. (8) Trong đó, fi là tần số phổ vạch thứ i và P(fi) – nghịch đảo của năng lượng phổ của bộ lọc dự đoán tuyến tính tại tần số fi. Quá trình tính toán vectơ lượng tử là quá trình xấp xỉ dần, dùng phương pháp bình phương cực tiểu. Từ vectơ tối ưu tìm được ở mỗi tầng, tính ra vectơ sai số và ở tầng tiếp theo ta lại xấp xỉ vectơ sai số này. Vectơ tính ra ở bước này sẽ được dùng để tính các biên độ Furie (mục 19) 16. Lượng tử hóa độ cao tiếng nói Giá trị cuối cùng của độ cao P3 được lượng tử hóa theo thang logarit cơ số 10 với bộ lượng tử hóa vô hướng 99 mức các giá trị trong phạm vi từ 20 đến 160 mẫu. Giá trị cao độ được ánh xạ đến bộ từ điển 7 bit. Từ mã có tất cả các thành phần đều bằng 0 để chỉ âm thanh là vô thanh, xảy ra khi Vbp1≤0,6. Tất cả 28 từ mã có trọng lượng Hamming bằng 1 hoặc 2 (tức có từ 1 đến 2 bit 1) không dùng để tránh lỗi. 17. Lượng tử hóa hệ số khuyếch đại Hai hệ số khuyếch đại được lượng tử hóa như sau: Đầu tiên, G2 được lượng tử hóa sử dụng bộ lượng tử hóa vô hướng 5 bit trong khoảng 10 đến 77dB. Sau đó, G1 được lượng tử hóa thành 3 bit sử dụng thuật toán thích nghi như sau: Nếu G2 ở khung hiện tại cách G2 ở khung trước ít hơn 5dB và G1 cách trung bình cộng của G2 ở 2 khung ít hơn 3dB thì thì khung đang ở trạng thái ổn định và G1 được gán giá tri đặc biệt (tất cả các bit đều bằng 0) để ám chỉ rằng bộ giải mã chỉ cần lấy G1 bằng giá trị G2 ở khung hiện hành là được. Ngược lại thì khung hiện tại là một khung chuyển tiếp và giá trị G1 được lượng tử hóa sử dụng bộ lượng tử hóa vô hướng 7 mức các giá trị trong khoảng từ nhỏ hơn giá trị nhỏ hơn trong 2 giá trị G2 ở khung trước và khung hiện tại 6dB đến lớn hơn giá trị lớn hơn trong 2 giá trị đó 6dB. 18. Lượng tử hóa băng tần tiếng nói Nếu Vbp1≤0,6 (tiếng nói là vô thanh) thì tất cả các cường độ tiếng nói sau khi qua lọc ở các dải băng tần còn lại Vbpi , i=2,3,4,5 được lượng tử hóa về 0. Ngược lại thì các giá trị các cường độ này được lượng tử hóa về 1 nếu giá trị của nó vượt quá 0,6 và về 0 nếu ngược lại. Nếu chỉ có Vbp5 vượt quá 0,6 thì nó cũng được lượng tử hóa về 0. 19. Tính toán biên độ Fourier và lượng tử hóa Tiếng nói tạo ra do bộ lọc dự đoán tuyến tính gọi là tín hiệu sau lọc. Quá trình này tính 10 biên độ của 10 hài đầu tiên của cao độ của tín hiệu sau lọc này. Nó sử dụng biến đổi Furie nhanh (FFT) 512 điểm trên cửa sổ gồm 200 mẫu tín hiệu sau lọc có tâm tại mẫu cuối cùng của khung. Đầu tiên, từ vectơ các tần số phổ vạch (LSF) đã được lượng tử hóa ở trên tính ra các hệ số của bộ lọc dự đoán tuyến tính. Sau đó, tính tín hiệu sau lọc giữa tiếng nói tạo ra do bộ lọc và tiếng nói ban đầu. Tiếp đó dùng cửa sổ Hamming 200 mẫu, thêm các mẫu 0 ở các vị trí cần thiết để được 512 điểm, và tiến hành tính FFT. Cuối cùng, từ kết quả của biến đổi Furier tính ra biên độ và tìm ra các hài bằng cách xác định các điểm đỉnh của phổ. Đỉnh của phổ được tìm bằng cách xác định điểm cực đại trong khoảng rộng 512/P^3 xung quanh điểm ước lượng của hài, trong đó P^3 là cao độ tiếng nói sau khi đã lượng tử hóa. Bề rộng của khoảng được cắt chỉ giữ lại phần nguyên. Điểm ước lượng cho tần số hài thứ i là 512i/P^3. Số lượng biên độ phải tìm không lớn hơn P^3/4, cũng không lớn hơn 10. Nếu tìm thấy ít hơn 10 hài thì các biên độ còn lại gán bằng 1,0. (9) 10 biên độ được lượng tử hóa dùng bộ lượng tử hóa vectơ 8 bit. Việc tìm từ mã tối ưu sử dụng khoảng cách Ơclit có trọng số (bình phương tối thiểu có trọng số) với trọng số ở các tần số thấp cao hơn trọng số ở các tần số cao. Trọng số được tính như sau: Trong đó fi=8000i/60. Trọng số này được nhân vào hiệu bình phương của biên độ Furier ban đầu và giá trị tương ứng của bảng từ mã. 20. Sửa lỗi và đóng gói các bit thành khung Bảng 1 ở mục I cho thấy bố trí các bit trong khung bit của bộ mã hóa MELP. Để tăng hiệu quả trên các kênh lỗi, các bit không sử dụng hết ở các khung vô thanh có thể dùng để làm mã sửa lỗi. 3 mã sửa lỗi Hamming(7,4) và một mã Hamming(8,4) được dùng. Mã (7,4) có thể sửa bất kỳ lỗi đơn nào, trong khi đó mã (8,4) còn cho phép xác định được cả lỗi kép. III. Bộ giải mã Dữ liệu nhận về được giải mã qua các bước sau: Sửa lỗi và lấy ra các bit từ khung Giảm nhiễu Tạo kích thích hỗn hợp Bộ lọc thích nghi tăng cường phổ Tổng hợp bộ lọc dự đoán tuyến tính Điều chỉnh hệ số khuyếch đại Phân tán xung Nội suy các tham số Điều khiển vòng lặp tổng hợp Lọc trước đầu ra (không bắt buộc) Dữ liệu số đầu vào Tín hiệu tiếng nói đầu ra. 1. Sửa lỗi và lấy ra các bit từ khung Từ khung nhận về lấy ra các bit và từ đó khôi phục lại các tham số từ mã. Quá trình giải mã các tham số từ mã của khung hữu thanh và vô thanh là khác nhau. Đầu tiên là giải mã cao độ âm thanh, bởi vì tham số này chứa cả thông tin về hữu thanh hay vô thanh của khung. Nếu các bit mã của cao độ của âm thanh bằng 0 hết hoặc chỉ có 1 bit 1 thì khung là vô thanh. Nếu có 2 bit 1 thì khung này không xác định được, ta bỏ qua khung này (thay bằng khung trước). Ngược lại thì ta có mã của cao độ âm thanh và khung là hữu thanh. Nếu khung là vô thanh thì ta tiến hành giải các mã sửa lỗi Hamming để tìm ra bộ tham số đúng của khung. Các tham số còn lại (không truyền đi) sẽ được gán giá trị mặc định: cao độ gắn bằng 50 mẫu, mức dao động bằng 25%, tất cả cường độ âm thanh ở các băng tần gán bằng 0, các biên độ Furier bằng 1. Nếu khung là hữu thanh, Vbp1 được gán bằng 1, độ rung gán bằng 25% nếu cờ ngẫu nhiên bằng 1, ngược lại thì độ rung gán bằng 0%. Cường độ âm thanh ở các băng tần cao gán bằng 1 nếu bit tương ứng bằng 1, ngược lại thì gán bằng 0. 2. Giảm nhiễu Đối với tín hiệu đầu vào nhỏ, ta làm suy giảm cả hai hệ số khuyếch đại một lượng nhỏ theo quy tắc trừ đi một lũy thừa của chúng. Đây là phương án tối giản, không phụ thuộc tần số của phương pháp khử nhiễu bằng cách trơn theo kiểu trừ phổ. Trước khi xác định hệ số suy giảm cho hệ số khuyếch đại thứ nhất, ước lượng của nhiễu nền được cập nhật như sau: Nếu G1>Gn+Gup thì Gn=Gn+Gup. Nếu G1<Gn-Gdown thì Gn=Gn-Gdown. Ngược lại thì Gn=G1, Gup=0,0337435, Gdown=0,135418, và do vậy ước lượng mức nhiễu sẽ tăng 3dB mỗi giây hoặc giảm 12dB mỗi giây, hệ số khuyếch đại sẽ được cập nhật 88,9 lần mỗi giây. Ước lượng mức nhiễu được điều chỉnh nằm trong khoảng 10 và 80. Quá trình ước lượng mức nhiễu sẽ được bỏ qua cho các khung lặp lại để tránh việc suy giảm nhiều lần. Ước lượng nhiễu nền còn được dùng khi tính toán phổ tăng cường thích nghi. Hệ số khuyếch đại G1 sau đó được trừ đi 1 lượng Gatt tính theo dB theo công thức: (10) Trong đó Gn là ước lượng của nhiễu nền (theo thang dB), G1 là giá trị ban đầu của hệ số khuyếch đại. Lượng trừ đi được điều chỉnh để nằm không vượt quá 6dB nhằm tránh hiện tượng méo và rung động tín hiệu. Để đảm bảo là chỉ làm suy giảm tín hiệu đầu vào nhỏ, giá trị Gn ở công thức trên đươc giới hạn tối đa là 20dB. Quá trình ước lượng mức nhiễu và thay đổi hệ số khuyêch đại tiếp tục lặp lại cho G2. Các quá trình này bỏ qua khi các khung lặp lại. 3. Nội suy các tham số Tất cả các tham số tổng hợp lại được nội suy đồng bộ theo cao độ âm thanh cho mỗi chu kỳ đồng bộ của cao độ. Các tham số được nội suy bao gôm: hệ số khuyếch đại, các tần số phổ vạch (LSF), cao độ, độ dao động, các biên độ Furier, các tham số về xung và hệ số nhiễu cho bộ kích thích hỗn hợp và hệ số nghiêng cho bộ lọc thích nghi tăng cường phổ. Nếu điểm bắt đầu t0 (t0=0,1,…,179) của chu kỳ mới của cao độ nhỏ hơn 90 mẫu, hệ số khuyếch đại được tính bằng nội suy tuyến tính từ độ khuyếch đại G2p của khung trước và G1 của khung hiện tại, ngược lại thì nội suy từ G1 và G2. Thông thường, các tham số khác được nội suy tuyến tính từ giá trị ở khung trước và khung hiện tại. Tỷ lệ nội suy int cho các tham số này phụ thuộc vào điểm bắt đầu của chu kỳ mới của cao độ: int = t0/180. C