Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room

Sự tiến bộ không ngừng của lĩnh vực công nghệ số cùng với công nghệ máy tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn và cũng nhiều tri thức hơn. Với những thiết bị tiên tiến, ngày nay người ta dễ dàng lưu trữ và chia sẻ những dữ liệu âm thanh trong rất nhiều lĩnh vực như bản tin thời sự, bản tin quảng cáo, các mẫu đối thoại hằng ngày, các cuộc hội nghị. Trong số đó, lĩnh vực hội nghị đang ngày càng được các nhà khoa học quan tâm nghiên cứu bởi những thành tựu thu được có thể mở ra nhiều ứng dụng to lớn cho các cá nhân, tổ chức, doanh nghiệp và cho cả chính phủ. Smart Meeting Room là thuật ngữ dùng để mô tả những thiết kế tiên tiến áp dụng trong lĩnh vực hội nghị. Smart Meeting Room là những phòng họp trong đó các thiết bị tương tác người dùng được lắp đặt và bố trí sao cho người nói và người nghe có thể phát huy tối đa năng lực của cuộc họp. Bên cạnh đó, các hệ thống hỗ trợ cho Smart Meeting Room có thể giúp ghi lại hay theo vết, nhận dạng những hoạt động và trạng thái của những người tham gia. Hiện nay các hệ thống xử lý tiếng nói liên quan đến lĩnh vực hội nghị bao gồm: Nhận dạng tiếng nói (Speech-to-text), Ghi nhật ký người nói (Speaker Diarization), Nhận dạng tiếng nói theo người nói (Speaker Attributed Speech-to-Text, là kết hợp của Ghi nhật ký người nói và Nhận dạng tiếng nói). Trong đó, Ghi nhật ký người nói là kỹ thuật chỉ mới được phát triển trong vài năm trở lại đây nhưng hứa hẹn mở ra nhiều thành tựu to lớn và do đó sẽ được tập trung nghiên cứu trong khuôn khổ luận văn này. Ghi nhật ký người nói là quá trình chia âm thanh thành các phân đoạn và gán nhãn theo định danh người nói cụ thể. Đầu ra của quá trình này sẽ là đầu vào cho bộ nhận dạng tiếng nói, từ đó chúng ta có thể xây dựng những ứng dụng như ghi nhật ký cuộc họp tự động hay tường thuật trực tiếp một trận đấu bóng đá. Xa hơn nữa, những dữ liệu (gồm âm thanh và văn bản) thu được từ các cuộc họp sẽ tạo thành kho dữ liệu quý giá cho các tác vụ truy vấn thông tin và tri thức trong tương lai. Với mục tiêu nghiên cứu về một số kỹ thuật xử lý âm thanh trong môi trường Smart Meeting Room, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Cụ thể là: 1) Luận văn nghiên cứu các kỹ thuật phổ biến hiện nay cho việc Ghi nhật ký người nói cho dữ liệu hội nghị, 2) Luận văn nghiên cứu và trình bày một phương pháp phân nhóm cải tiến cho hệ thống Ghi nhật ký người nói, cho phép phân nhóm nhanh với độ chính xác tương đương những phương pháp phổ biến hiện nay nhưng chi phí tính toán rất thấp, có thể triển khai ở mức độ thời gian thực, 3) Hiện thực hóa hệ thống Ghi nhật ký người nói. Cấu trúc luận văn được tổ chức như sau:  Chương 1 – Giới thiệu về Smart Meeting Room - Lý do nghiên cứu về lĩnh vực hội nghị và những thách thức của việc xử lý tiếng nói trong lĩnh vực này. - Giới thiệu về Smart Meeting Room và những hệ thống xử lý tiếng nói liên quan.  Chương 2 – Phát biểu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị - Giới thiệu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến để giải quyết bài toán. - Định nghĩa hai tác vụ chính của bài toán: Phân đoạn và Phân nhóm. - Trình bày ý tưởng của phương pháp phân nhóm nhanh (Fast Clustering) cải tiến, nhằm đưa ra một giải pháp hiệu quả và nhanh chóng cho bài toán Ghi nhật ký người nói.  Chương 3 – Hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị - Trình bày hai mô hình hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị mà luận văn xây dựng: mô hình xử lý đa kênh (mô hình nền – đây là mô hình phổ biến hiện nay) và mô hình xử lý nhanh (mô hình trực tuyến – đây là mô hình cải tiến của luận văn). - Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Ghi nhật ký người nói: phát hiện tiếng nói (Voice Activity Detection), lượng giá TDOA (Time Delay Of Arrival), chuẩn hoá TDOA. Phần này sẽ trình bày chi tiết về phương pháp cải tiến Fast Clustering.  Chương 4 – Kết quả thực nghiệm và đánh giá: trong chương này, luận văn vận dụng hai hệ thống Ghi nhật ký người nói đã xây dựng để thực hiện các thực nghiệm và đánh giá, bao gồm: - Thử nghiệm hai hệ thống xây dựng trên các bộ dữ liệu khác nhau. - Thử nghiệm thời gian chạy của hệ thống cải tiến. - So sánh hiệu quả của hệ thống cải tiến và các hệ thống phổ biến khác. Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và hướng phát triển trong tương lai.

28 trang | Chia sẻ: tuandn | Lượt xem: 2421 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

17 Chƣơng 3 HỆ THỐNG GHI NHẬT KÝ NGƢỜI NÓI CHO DỮ LIỆU HỘI NGHỊ Trong phần này luận văn trình bày hai hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị. Hệ thống thứ nhất được gọi là Hệ thống xử lý đa kênh (Hệ thống nền). Đây là hệ thống xử lý dựa trên việc mô hình hoá nhiều đặc trưng ngữ âm (đa kênh) và là phương pháp nghiên cứu phổ biến trong môi trường có nhiều microphone (Smart Meeting Room) hiện nay. Hệ thống thứ hai là hệ thống cải tiến do luận văn cài đặt, gọi là Hệ thống xử lý nhanh. Mục tiêu của việc xây dựng hệ thống này là cung cấp cho người dùng một ứng dụng Ghi nhật ký người nói hiệu quả và nhanh chóng trong các lĩnh vực hội nghị trực tuyến. Ngoài ra, hệ thống được xây dựng theo dạng module hoá, rất dễ dàng trong việc tích hợp linh hoạt những thuật toán xử lý khác. 3.1. Mô hình hệ thống xử lý đa kênh Hệ thống xử lý đa kênh được xây dựng theo cấu trúc sau (xem Hình 3.1):  Đầu vào: các kênh âm thanh (từ microphone 1 đến K).  Đầu ra: bản ghi nhật ký người nói của cuộc họp, gồm các đoạn âm thanh được chia và đánh nhãn theo người nói cụ thể.  Bao gồm hai module là module tiền xử lý và module xử lý Phân đoạn – Phân nhóm.  Module tiền xử lý: gồm các chức năng như lọc nhiễu, beamforming, tính toán TDOA, rút trích đặc trưng ngữ âm và phát hiện tiếng nói. Những thông tin đầu ra của module này sẽ gồm đặc trưng ngữ âm, đặc trưng thời gian TDOA và giá trị nhận dạng tiếng nói – phi tiếng nói (VAD). o Bước 1 – Lọc nhiễu: thực hiện việc lọc các âm thanh nhiễu như background noise, tiếng ồn do các thiết bị trong phòng gây ra, tiếng vang… o Bước 2 – Beamforming: tạo ra một kênh âm thanh “tổng” có chất lượng tốt hơn bằng cách lọc và tổng hợp tín hiệu từ tất cả các kênh đầu vào. 18 o Bước 3 – Tính toán TDOA: tính toán đặc trưng TDOA dựa trên sự chênh lệch về thời gian đến của tín hiệu âm thanh, bằng cách áp dụng các phương pháp hiệu quả như [8],[40]. o Bước 4 – Phát hiện tiếng nói (VAD): phát hiện những frame nào trong dữ liệu âm thanh đầu vào là tiếng nói hay phi tiếng nói, có thể được thực hiện bằng cách xây dựng mô hình ngữ liệu với một số dữ liệu huấn luyện như RT05s, RT06s và RT07s [59],[60],[61], hoặc bằng cách so sánh mức năng lượng như [16]. o Bước 5 – Rút trích đặc trưng ngữ âm: sử dụng đặc trưng ngữ âm, ví dụ như MFCC, LPCC, để biểu diễn cho tín hiệu âm thanh. Việc rút trích đặc trưng được tiến hành trên dữ liệu của kênh âm thanh “tổng”. Kết quả sẽ là một vector đặc trưng có Nvector giá trị.  Module xử lý Phân đoạn – Phân nhóm: o Bước 6 – Phân đoạn: Chia tập tin âm thanh thành các phân đoạn theo các vị trí chuyển lượt người nói hoặc các vị trí ranh giới giữa các frame tiếng nói và phi tiếng nói. o Bước 7 – Phân nhóm:  Bước 7.1 – Xây dựng mô hình: xây dựng mô hình ngữ liệu cho các vector đặc trưng. Số nhóm khởi tạo ban đầu sẽ được quyết định ở bước Phân đoạn.  Bước 7.2 – Phân nhóm tích tụ: thực hiện việc phân nhóm tích tự theo bottom-up hoặc top-down. Tại mỗi vòng lặp sẽ tính toán khoảng cách giữa các cặp mô hình và chọn ra cặp mô hình có khoảng cách nhỏ nhất để trộn lại với nhau. Quá trình lặp lại cho đến khi giá trị tiêu chí dừng được thoả. o Bước 8 – Post-Processing: quá trình xử lý sau cùng sẽ làm mịn lại các biên giữa các phân đoạn thông qua một bộ giải mã Viterbi [3]. 19 Hình 3.1 Mô hình hệ thống xử lý đa kênh 3.2. Mô hình hệ thống xử lý nhanh Mô hình hệ thống xử lý đa kênh đạt hiệu quả tốt trong hầu hết những điều kiện, tuy nhiên lại không thể triển khai trong điều kiện ứng dụng theo thời gian thực. Với mục tiêu xây dựng một hệ thống Ghi nhật ký người nói trong môi trường MODULE TIỀN XỬ LÝ : microphone 1 microphone K Lọc nhiễu Âm thanh đầu vào Tính toán TDOA Rút trích đặc trƣng ngữ âm Phát hiện tiếng nói (VAD) MODULE XỬ LÝ vector VAD TDOA Phân đoạn Nhật ký ngƣời nói Đầu ra Phân nhóm Xây dựng mô hình Phân nhóm tích tụ Tất cả các kênh Danh sách các đoạn S={s1,s2,..,sM} beamforming Tất cả các kênh Post-Processing 20 không có hoặc có ít tiếng nói chồng lấp đồng thời đòi hỏi chi phí tính toán thấp và đạt hiệu quả tương đương như các hệ thống xử lý đa kênh, luận văn đã đề xuất mô hình cho hệ thống xử lý nhanh theo cấu trúc sau (xem Hình 3.2):  Đầu vào: các kênh âm thanh (từ microphone 1 đến K).  Đầu ra: bản ghi nhật ký người nói của cuộc họp, gồm các đoạn âm thanh được chia và đánh nhãn theo người nói cụ thể.  Bao gồm hai module là module tiền xử lý và module xử lý Phân đoạn – Phân nhóm.  Module tiền xử lý: gồm các chức năng tính toán TDOA và phát hiện tiếng nói. Những thông tin đầu ra của module này sẽ gồm đặc trưng thời gian TDOA và giá trị nhận dạng tiếng nói – phi tiếng nói (VAD). o Bước 1 – Tính toán TDOA: tính toán đặc trưng TDOA dựa trên sự chênh lệch về thời gian đến của tín hiệu âm thanh. o Bước 2 – Phát hiện tiếng nói (VAD): phát hiện những frame nào trong dữ liệu âm thanh đầu vào là tiếng nói hay phi tiếng nói.  Module xử lý Phân đoạn – Phân nhóm: o Bước 3 – Lượng giá TDOA: lọc ra những giá trị xuất hiện nhiều nhất (gọi là các peak hay centroid) trong chuỗi giá trị TDOA bởi đó chính là những hướng đến chính của người nói, nhằm loại bỏ những giá trị nhiễu. Phương pháp lọc phổ biến là xây dựng biểu đồ histogram. o Bước 4 – Chuẩn hoá TDOA: đưa các giá trị còn lại về theo giá trị của các peak (centroid). Với một vector thì tiến hành chuẩn hoá một chiều. Với N vector (ứng với N microphone) thì sẽ chuẩn hoá N-chiều. Tất cả các giá trị TDOA sau khi chuẩn hoá sẽ được trộn lại thành các đoạn âm thanh S = {S1, S2, …, SM} (những giá trị TDOA gần nhau theo thứ tự frame được nhóm lại với nhau thành phân đoạn Si). o Bước 5 – Phân nhóm nhanh theo mô hình bottom-up: thuật toán phân nhóm cải tiến dựa trên phương pháp phân nhóm tích tụ bottom-up. Khoảng cách giữa hai phân nhóm (đại diện là hai centroid vì tất cả các giá trị TDOA 21 trong cùng một nhóm đều bằng giá trị của centroid) được tính bằng khoảng cách Manhattan. Hình 3.2 Mô hình hệ thống xử lý nhanh 3.3. Các kĩ thuật tiền xử lý 3.3.1. Kỹ thuật lọc nhiễu Nhiễu là những tín hiệu âm học không mong muốn (ví dụ tiếng nhạc, tiếng ồn của xe cộ, máy móc…) xuất hiện trong một dãy tín hiệu âm thanh [63] (ví dụ như trong Hình 3.3). Các tín hiệu nhiễu này ảnh hưởng rất lớn đến hiệu quả của các hệ thống xử lý tiếng nói như hệ thống Nhận dạng tiếng nói hay hệ thống Ghi nhật MODULE TIỀN XỬ LÝ : microphone 1 microphone K Âm thanh đầu vào Tính toán TDOA Phát hiện tiếng nói (VAD) MODULE XỬ LÝ VAD TDOA Nhật ký ngƣời nói Đầu ra Phân đoạn Lƣợng giá TDOA Chuẩn hoá TDOA TDOA đã chuẩn hoá hoá Phân nhóm Phân nhóm nhanh theo bottom-up Tất cả các kênh Chọn kênh đầu tiên 22 ký người nói. Ví dụ, trong hệ thống Nhận dạng tiếng nói, nhiễu có thể gây ra sự không tương thích giữa các điều kiện huấn luyện và thực nghiệm, hơn nữa sẽ làm giảm độ chính xác của việc nhận dạng trong môi trường thực tế. Do đó, việc lọc nhiễu sẽ giúp cải thiện độ chính xác và độ ổn định cho các ứng dụng xử lý tiếng nói. (a) (b) Hình 3.3 Một số ví dụ về nhiễu: (a) Tiếng xe hơi (b) Tiếng ồn trên đường Có nhiều loại nhiễu khác nhau được phân chia theo màu sắc như nhiễu trắng, nhiễu hồng, nhiễu nâu…[64]. Để giải quyết bài toán lọc nhiễu, ta có các phương pháp phổ biến như sau:  Với một microphone (single microphone): - Phương pháp trừ phổ (Spectral Subtraction): giá trị tần số của các phổ tiếng nói được lượng giá theo các phổ nhiễu để từ đó loại bỏ các phổ nhiễu [43]. - Phương pháp tham số (Parametric Technique): áp dụng các bộ lọc như bộ lọc Wiener [21],[51], bộ lọc Kalman [32] cho các tín hiện nhiễu.  Với nhiều microphone (multiple microphone): phương pháp beamforming (sử dụng thông tin âm thanh từ nhiều microphone để loại bỏ những thành phần âm thanh nhiễu) - Phương pháp cố định (fixed beamforming): lọc các tín hiệu microphone bằng các bộ lọc cố định và do đó độc lập với dữ liệu. Gồm có các kỹ thuật như Delay-And-Sum [58], Differential Microphone Array [33], Superdirective Microphone Array [37] và Frequency-Invariant [30]. 23 - Phương pháp thích nghi (adaptive beamforming): ngược với phương pháp cố định, phương pháp thích nghi sử dụng những bộ lọc phụ thuộc vào dữ liệu đã được thích nghi với các loại nhiễu, được áp dụng đặc biệt trong môi trường có ít nguồn nhiễu (nghĩa là số nguồn gây nhiễu nhỏ hơn số microphone) và ít tiếng vang [30],[37],[40]. Hình 3.4 Mô hình hoạt động của phương pháp Delay-and-Sum beamforming Trong đó, kỹ thuật lọc Wiener và Delay-And-Sum là hai phương pháp được sử dụng phổ biến trong việc lọc nhiễu với một microphone và nhiều microphone do đặc tính cài đặt đơn giản nhưng hiệu quả đem lại khá cao. Hình 3.4 mô tả cách thức hoạt động của phương pháp Delay-And-Sum. 3.3.2. Kỹ thuật tính TDOA Các kỹ thuật tính TDOA thường được thực hiện trong môi trường hội nghị có nhiều microphone (Multiple Distant Microphone - MDM). Tại bất cứ thời điểm nào của cuộc họp, vì các microphone được đặt ở các vị trí khác nhau trong phòng nên khoảng cách về không gian giữa người nói và mỗi microphone là khác nhau. Vì tốc độ âm thanh là hằng số và giả định rằng sóng âm truyền từ người nói đến các microphone theo hướng song song, điều này sẽ dẫn tới sự chênh lệch về thời gian đến của tiếng nói tại mỗi microphone. Sự chênh lệch thời gian này được gọi là Time Delay of Arrival (TDOA) giữa các kênh nhận âm thanh (các microphone) (xem Hình 3.5). 24 Hình 3.5 Minh hoạ hướng đến của tiếng nói: c là tốc độ âm thanh, d là khoảng cách giữa các microphone Để tính toán giá trị TDOA, có hai phương pháp chủ ỵếu là phương pháp GCC-PHAT (Generalized Cross-Correlation using Phase Transform) [8] và bộ lọc NLMS (Normalized Least Means Squared) [40]. Phương pháp GCC-PHAT là phương pháp phổ biến nhất hiện nay và được luận văn lựa chọn để tính toán giá trị TDOA giữa các microphone trong môi trường SMR có độ phản âm cao (350ms). 3.3.3. Đặc trƣng ngữ âm Một cách tổng quát, tín hiệu tiếng nói thô được chuyển hoá thành một dãy các vector đặc trưng ngữ âm mang thông tin đặc tính về tín hiệu đó. Các đặc trưng được sử dụng phổ biến hiện nay trong bài toán Ghi nhật ký người nói là Mel Frequency Cepstral Coefficients (MFCC) [45], Linear Prediction Cepstral Coefficients (LPCC) [22] and Perceptual Linear Prediction Cepstral (PLPC) Coefficients [19]. Tất cả các đặc trưng này đều dựa trên thông tin phổ từ các khung tiếng nói có kích thước ngắn. Điều này có được do quan sát rằng tín hiệu tiếng nói luôn luôn biến thiên theo thời gian, tuy nhiên trong khoảng thời gian 10-20ms tín hiệu tiếng nói được coi là tương đối ổn định. Các đặc trưng trên chỉ khác nhau ở bước phân tích thời gian-tần số và các kỹ thuật làm trơn tần số. d d d c c c c mic2 mic3 mic4 Người nói mic1 25 Hình 3.6 Đặc trưng LPCC Luận văn sử dụng hai đặc trưng MFCC và LPCC để biểu diễn cho tín hiệu âm thanh trong Hệ thống xử lý đa kênh. Hình 3.6 là một ví dụ của đặc trưng LPCC. MFCC là đặc trưng thể hiện cho các phổ có mức năng lượng bước sóng ngắn, dựa trên biến đổi cosin tuyến tính của logarit phổ năng lượng trong miền tần số [45]. Các bước để tính toán giá trị MFCC được miêu tả như trong Hình 3.7. Hình 3.7 Các bước tính toán hệ số MFCC 26 LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin được rút trích từ mô hình dự báo tuyến tính (linear predictive model) [22]. Định nghĩa của mô hình dự báo tuyến tính như sau: Giả sử giá trị mẫu hiện tại của tiếng nói được tiên đoán từ N mẫu trước đó: 𝑥 𝑛 = 𝑎1𝑥 𝑛 − 1 + 𝑎2𝑥 𝑛 − 2 +. . +𝑎𝑁𝑥 𝑛 − 𝑁 = 𝑎𝑖𝑥(𝑛 − 𝑖) 𝑁 𝑖=1 (3.1) trong đó 𝑥 𝑛 là dự báo tuyến tính của x(n), x(n-i) là giá trị mẫu tại bước thứ i trước đó, N là số mẫu hay còn gọi là bậc của dự báo và {ai} được gọi là các hệ số dự báo tuyến tính (linear prediction coefficients). Giá trị lỗi giữa giá trị mẫu thực sự và giá trị dự báo được biểu diễn như sau: 𝜀 𝑛 = 𝑥 𝑛 − 𝑥 𝑛 = 𝑥 𝑛 − 𝑎𝑖𝑥(𝑛 − 𝑖) 𝑁 𝑖=1 (3.2) Các hệ số ai được chọn để làm cực tiểu hàm lỗi dự báo trung bình bình phương sau: 𝐸 = 𝜀2 𝑛 𝑛 = 𝑥 𝑛 − 𝑎𝑖𝑥(𝑛 − 𝑖) 𝑁 𝑖=1 2 𝑛 (3.3) Có nhiều phương pháp để tính các hệ số này: phương pháp dùng ma trận hiệp phương sai (covariance matrix), phương pháp tự tương quan (auto-correlation method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or harmonic). Phương pháp thường được áp dụng nhất là phương pháp tự tương quan dùng thuật toán đệ qui Levinson-Durbin như sau: Tính p+1 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính – bậc đệ quy) bằng công thức sau: 𝑟𝑖 = 𝑠𝑗 𝑠𝑗+𝑖 𝑁−𝑖 𝑗=1 (3.4) Các hệ số sau đó được tính toán đệ qui như sau: 𝐸 0 = 𝑟0 , với i = 0 (3.5a) 27 𝑘𝑖 = 𝑟𝑖− 𝑎𝑗 𝑖−1𝑟𝑖−𝑗 𝑖−1 𝑗=1 𝐸𝑖−1 , trong đó 1 ≤ i ≤ p (3.5b) 𝑎𝑖 𝑖 = 𝑘𝑖 (3.5c) 𝑎𝑗 𝑖 = 𝑎𝑗 𝑖−1 − 𝑘𝑖𝑎𝑖−𝑗 𝑖−1 , với 1 ≤ j ≤ i-1 (3.5d) 𝐸 𝑖 = (1 − 𝑘𝑖 2)𝐸 𝑖−1 (3.5e) Các bước trên được tính toán lặp với i=1,2,…,p. Cuối cùng ta thu các hệ số aj=aj p với 1 ≤ j ≤ p. 3.4. Mô hình ngữ âm Hai mô hình ngữ âm thường sử dụng trong bài toán Ghi nhật ký người nói là Mô hình Markov ẩn (HMM – Hidden Markov Model) và Mô hình Hỗn hợp Gaussian (GMM – Gaussian Mixture Model). 3.4.1. Mô hình Markov ẩn (HMM) HMM là một tập hữu hạn các trạng thái, mỗi trạng thái được liên kết với một phân số xác suất. Việc chuyển trạng thái được chỉ định bởi một tập các xác suất gọi là ma trận xác suất chuyển trạng thái. Tại mỗi trạng thái, một quan sát có thể được tạo ra dựa trên phân bố xác suất liên kết. Một mô hình Markov ẩn bao gồm các thành phần sau:  Tập các trạng thái S = {S1,…,SN}.  Tập các ký hiệu đầu ra Y = {Y1,…,YM}.  Phân bố trạng thái ban đầu π = {πi} với 𝜋 = 𝑃 𝑞1 = 𝑆𝑗 , 1 ≤ 𝑗 ≤ 𝑁 (3.6)  Tập các chuyển trạng thái A = {aij} giữa các trạng thái. Chú ý rằng xác suất chuyển trạng thái độc lập với thời gian 𝑎𝑖𝑗 = 𝑃 𝑞𝑡+1 = 𝑆𝑗 |𝑞𝑡 = 𝑆𝑖 , 1 ≤ 𝑖, 𝑗 ≤ 𝑁 (3.7)  Phân bố xác suất ký hiệu quan sát trong trạng thái j, B={bj(k)}, độc lập với thời gian 𝑏𝑗 𝑘 = 𝑃 𝑥𝑡 = 𝑌𝑘 𝑞𝑡 = 𝑆𝑗 , 1 ≤ 𝑗 ≤ 𝑁, 1 ≤ 𝑘 ≤ 𝑀 (3.8) 28 Trong đó, Ʌ được chỉ định là các tham số của mô hình Markov ẩn. Khi được dùng cho tiếng nói, mô hình HMM thường có dạng đồ thị từ trái sang phải. Cho một dãy các vector quan sát X, các tham số của mô hình HMM được huấn luyện bằng thuật toán Expectation-Maximization (EM) [4] để tối ưu hoá giá trị likelihood:    Xpmaxarg* (3.9) Dãy trạng thái ẩn tốt nhất (qbest) được xác định bằng thuật toán Viterbi [3]:       qpqXpqXpq qq best .,maxarg,maxarg (3.10) Giá trị likelihood của vector quan sát xn được cho bởi trạng thái qk,p(xn|qk), được mô hình một cách tổng quát bởi một mô hình Gaussian Mixture Model (GMM) như định nghĩa dưới đây. 3.4.2. Mô hình Gaussian Mixture Model (GMM) GMM là một phân bố xác suất với sự kết hợp lồi của nhiều phân bố Gaussian. Mật độ hỗn hợp như sau:    K k kk xfaxf 1 )()( (3.11) Trong đó:  K là số hỗn hợp.  ak là xác suất tiên nghiệm của hỗn hợp k sao cho    K k k a 1 1  fk(x) là mật độ thành phần của phân bố Gaussian được tham số hoá bởi giá trị trung bình k và hiệp phương sai k :               2 exp )2( 1 )( 1 kk t k k dk xx xf   (3.12) với d là chiều của vector đặc trưng. Cho một dãy các vector quan sát, các tham số của GMM có thể được huấn luyện thông qua thuật toán EM để tối ưu hoá giá trị likelihood của dữ liệu . Với tiếng nói, giả sử rằng mỗi quan sát trong dãy X={x1,…,xn} độc lập và được phân bố một cách đồng nhất. Theo đó, giá trị likelihood của một GMM được tham số hoá bởi  xác định bởi dãy quan sát X được tính như sau: 29     inii xpXp  1 (3.13) 3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) Phát hiện tiếng nói là kỹ thuật tìm ra các vùng âm thanh có chứa tiếng nói của một người nói bất kỳ trong đoạn thu âm, xem Hình 3.8. Phụ thuộc vào miền dữ liệu được dùng, các vùng phi tiếng nói có thể là các khoảng lặng, tiếng cười, tiếng nhạc, tiếng ồn trong phòng hay là background noise. Các kỹ thuật phát hiện tiếng nói/phi tiếng nói là một phần quan trọng của hệ thống Ghi nhật ký người nói. Sự tồn tại của các frame phi tiếng nói trong quá trình phân nhóm sẽ khiến việc phân biệt chính xác hai mô hình người nói thêm khó khăn hơn. Hình 3.8 Minh hoạ cho việc phát hiện VAD trong dãy tín hiệu âm thanh Các kỹ thuật phát hiện tiếng nói có thể được phân theo ba loại sau:  Phát hiện tiếng nói dựa trên mức năng lượng.  Phát hiện tiếng nói dựa trên mô hình.  Phát hiện tiếng nói lai. Kỹ thuật phát hiện tiếng nói dựa trên mức năng lượng là phương pháp cổ điển nhất và hiện nay vẫn được ứng dụng rộng rãi trong lĩnh vực truyền thông [16]. Ở phương pháp này, việc phát hiện tiếng nói chủ yếu dựa trên những đặc trưng theo mức năng lượng như cao độ (pitch), âm sắc (tone), SNR (Signal-to-Noise Ratio)…Tuy nhiên, phương pháp này có hạn chế là không thể chạy tốt trong môi trường có nhiều loại nhiễu như tiếng gõ bàn phím, tiếng ho hay tiếng cười. Hình 3.9 thể hiện lượt đồ khối của kỹ thuật tính VAD theo mức năng lượng. Có ba bước 30 chính: rút trích đặc trưng (feature extraction), xây dựng công thức tính VAD (decision module) và cuối cùng là làm trơn (decision smoothing). Hình 3.9 Sơ đồ khối của kỹ thuật tính VAD theo mức năng lượng Kỹ thuật phát hiện tiếng nói dựa trên mô hình ngược lại có thể mô hình hoá nhiều loại hiện tượng ngữ âm khác nhau. Hệ thống đơn giản nhất chỉ dùng hai mô hình tiếng nói và phi tiếng nói như của Wooters et al. [9]. Hệ thống phức tạp hơn được mô tả trong Nguyen et al. [39] với bốn mô hình tiếng nói. Tiếng ồn và tiếng nhạc được đặc biệt mô hình hoá trong Gauvain et al. [23], và Zhu et al. [53]. Hệ thống bao gồm năm lớp: tiếng nói, tiếng nhạc, tiếng ồn, tiếng nói + tiếng nhạc, và tiếng nói + tiếng ồn. Các mô hình tiếng nói + tiếng nhạc và tiếng nói + tiếng ồn được dùng để cực tiểu hoá việc bỏ qua tiếng nói khi có xuất hiện tiếng nhạc hoặc tiếng ồn, và các dữ liệu này được phân loại lại thành dữ liệu tiếng nói [23],[41],[49],[53]. Kỹ thuật phát hiện tiếng nói theo mô hình, tuy nhiên, lại có giới hạn của nó: các mô hình cần phải được huấn luyện với các dữ liệu được gán nhãn trong tập huấn luyện. Điều này đòi hỏi dữ liệu phải được đánh nhãn và việc này tốn khá nhiều chi phí. Hơn nữa, bởi vì sự phức tạp của các âm thanh phi tiếng nói nên không thể tìm đủ dữ liệu để xây dựng nên các mô hình cho các loại âm thanh này. Hiệu quả thấp của hệ thống trên các dữ liệu chưa được huấn luyện cũng là khuyết điểm chính của kỹ thuật phát hiện tiếng nói dựa trên mô hình. Kỹ thuật lai là sự kết hợp giữa hai kỹ thuật dựa vào mức năng lượng và dựa vào mô hình ở trên [54][55]. Phương pháp này bao gồm hai bước: bước đầu tiên là 31 một bộ phát hiện dựa vào mức năng lượng đơn giản, bước thứ hai sử dụng cách tiếp cận theo mô hình được huấn luyện trên chính dữ liệu thực nghiệm [9][40]. Tuy nhiên, do yêu cầu xử lý nhanh và có thể triển khai theo hướng thời gian thực, luận văn đã sử dụng phương pháp phát hiện tiếng nói theo mức năng lượng. Thực nghiệm cho thấy phương pháp này cho kết quả chấp nhận được trong môi trường SMR với ít tiếng nói chồng lấp. 3.6. Kỹ thuật phân đoạn theo ngƣời nói Mục tiêu chính của bài toán phân đoạn theo người nói là tìm những điểm chuyển trạng thái (từ người nói này sang người nói khác, từ tín hiệu tiếng nói sang tín hiệu phi tiếng nói) trong dãy tín hiệu âm thanh đầu vào. Để thực hiện điều này, cần phải có phương pháp phù hợp để ước lượng sự khác biệt giữa các vùng âm thanh. Các hướng tiếp cận phổ biến để ước lượn

Các file đính kèm theo tài liệu này:

7.pdf
0.pdf
1.pdf
2.pdf
3.pdf
4.pdf
5.pdf
6.pdf
8.pdf
9.pdf
10.pdf
11.pdf