Luận văn Định danh người nói độc lập văn bản bằng mô hình thống kê

Luận văn áp dụng mô hình Markov ẩn hợp Gauss giải quyết bài toán định danh người nói độc lập văn bản trên tập dữliệu mở. Mỗi người nói sẽ được mô hình hóa bằng một mô hình Markov ẩn với hàm mật độxác suất là hợp các hàm Gauss, được huấn luyện theo thuật toán expectation maximization trên dữliệu huấn luyện của người nói tương ứng. Tiến trình nhận dạng một mẫu tiếng nói gồm hai bước chính là định danh (identification) và xác minh (verification). Bước định danh thực hiện phân lớp mẫu tiếng nói theo luật quyết định Bayes. Bước xác minh áp dụng phương pháp chuẩn hóa nhóm tựdo (unconstraint cohort normalization) đểtăng hiệu suất xác minh. Hiệu suất phân lớp và hiệu suất xác minh thật-giảtrên tập dữliệu tiếng nói tiếng Việt của 60 người, lần lượt là 100% và 96%. Luận văn trình bày gồm 5 chương: ƒ Chương 1 giới thiệu tổng quan vềsinh trắc học và bài toán định danh người nói, cùng các lĩnh vực liên quan. Phần cuối chương giới thiệu sơlược một số phương pháp truyền thống và hướng tiếp cận của đềtài. ƒ Chương 2 trình bày vềcác thành phần và cơchếhoạt động của một hệthống định danh người nói trên tập mở, đồng thời tóm tắt nội dung và kết quả đạt được của một sốphương pháp trong các công trình nghiên cứu trước đây. ƒ Chương 3 trình bày chi tiết vềmô hình Markov ẩn hợp Gauss – đặc tảmô hình, các bước xây dựng mô hình, và áp dụng của nó trong đềtài. ƒ Chương 4 mô tảdữliệu thực nghiệm, chi tiết thực nghiệm và các kết quả đạt được. ƒ Chương 5 đưa ra kết luận và hướng phát triển.

pdf19 trang | Chia sẻ: tuandn | Lượt xem: 2470 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Luận văn Định danh người nói độc lập văn bản bằng mô hình thống kê, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
11 Chương 2: HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI 2.1. Mô hình tổng quát Tùy theo phương pháp tiếp cận giải quyết bài toàn, hệ thống định danh người nói có thể gồm các thành phần và cơ chế hoạt động khác nhau, tuy nhiên vẫn có một số điểm chung nhất định. Hình 2.1 minh họa cơ chế hoạt động tổng quát của một hệ thống định danh người nói trên tập mở. Trong phạm vi đề tài này, hệ thống định danh người nói sẽ được trình bày theo hướng tiếp cận của mô hình Markov ẩn hợp Gauss (MGHMM). Hình 2.1: Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở. Trained Models Score K-means Reject Confirmed ID UCN θ Threshold Initialized Models Normalized Features Score Score Score Score EM non-speech segments are ignored MFCC Feature Vectors Digital Speech Audio Sampling Feature Extraction Energy Detecting Feature Normalization Init Models Train Models Speaker Model 1 … Speaker Model 2 Speaker Model n Score Normalization Input Transformation Modelization Decision Classification 12 2.2. Lấy mẫu tiếng nói (audio sampling) Tiếng nói trong thế giới thực thu được từ các thiết bị thu âm như microphone, mobile device… sẽ được số hóa thành các tín hiệu rời rạc. Tín hiệu thu được sau đó là dữ liệu tiếng nói ở mức thô (raw). Dữ liệu biểu diễn ở giai đoạn này chưa thể hiện được các thông tin ngữ nghĩa/đặc trưng và thường chứa nhiễu từ môi trường. Do vậy, trước khi có thể được đưa vào huấn luyện mô hình hay nhận dạng, dữ liệu tiếng nói thô cần phải trải qua các bước tiền xử lý nhằm loại bỏ nhiễu cũng như rút trích ra các đặc trưng cần thiết cho quá trình huấn luyện và nhận dạng. 2.3. Rút trích đặc trưng (feature extraction) Rút trích đặc trưng được hiểu như là một quá trình biến đổi từ vector có kích thước lớn sang vector có kích thước nhỏ hơn. Như vậy, về mặt hình thức, rút trích đặc trưng có thể được định nghĩa như một ánh xạ f: f : RN → Rd, trong đó d << N. Thông thường, để các mô hình người nói có khả năng mô hình hóa tốt, số lượng các vector huấn luyện phải đủ lớn. Như vậy, việc giảm kích thước của từng vector huấn luyện thông qua bước rút trích đặc trưng sẽ giúp làm giảm độ phức tạp tính toán của bước huấn luyện và nhận dạng. Đối với bài toán nhận dạng người nói, một đặc trưng được cho là tốt cần phải có các tính chất sau: - Sai biệt giữa các vectors đặc trưng của những người nói khác nhau phải lớn. - Sai biệt giữa các vectors đặc trưng của cùng một người nói phải nhỏ. - Kháng nhiễu tốt. - Phân biệt được giả mạo tốt. - Độc lập với các đặc trưng khác. 13 Hai tính chất đầu đòi hỏi đặc trưng phải mang tính tách biệt càng nhiều càng tốt. Một ví dụ minh họa thể hiện trong hình 2.2 cho thấy tính tách biệt của 2 đặc trưng khác nhau. Dễ dàng thấy được đặc trưng 2 tốt hơn hẳn đặc trưng 1 trong việc phân biệt giữa những người nói. Hinh 2.2: Ví dụ về tính tách biệt của 2 đặc trưng khác nhau. Một đặc trưng được gọi là tốt cũng cần phải có tính kháng nhiễu và phân biệt giả mạo tốt (đặc tính thứ 3 và thứ 4). Cuối cùng, nếu một hệ thống sử dụng nhiều hơn 1 đặc trưng, thì các đặc trưng này phải độc lập với nhau (tính chất 5); việc sử dụng các đặc trưng phụ thuộc lẫn nhau thường không đem lại kết quả tốt. Một đặc trưng lý tưởng (có tất cả 5 tính chất tốt nêu trên) thường không tồn tại trong thực tế. Trong lĩnh vực nhận dạng người nói, các đặc trưng thường được sử dụng là MFCC (Mel-Frequency Cepstral Coefficients), LSP (Line Spectral Pairs)… Đề tài này chỉ tập trung vào đặc trưng MFCC cho bài toàn định danh người nói. Hình 2.3 thể hiện các bước rút trích đặc trưng MFCC. Tín hiệu thô sẽ trải qua các bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-banks, lấy log và biến đổi cosin rời rạc. 14 Hình 2.3: Các bước rút trích đặc trưng MFCC. 2.3.1. Chia frame (enframing) Hình 2.4: Tín hiệu wave trước và sau khi lọc thông cao. Trước khi tiến hành quá trình rút trích đặc trưng, dữ liệu liệu tiếng nói được đưa qua bước xử lý pre-emphasis bằng bộ lọc thông cao (high-pass filter): Voice Signal Voice Frames Power Spectrum FFTChia Frames Hamming Window Apply Mel Filter Banks Lấy log DCT MFCC Vectors 15 s2(n) = s(n) – a * s(n - 1) Trong đó s(n) là tín hiệu input, s2(n) tín hiệu kết quả, hằng số a ∈ [0.9, 1]. Mục tiêu của bước pre-emphasis củng cố các tần số cao bị mất trong quá trình thu nhận tín hiệu. Hình 2.4 minh họa kết quả lọc pre-emphasis. Dữ liệu tiếng nói thường không ổn định, nên thông thường phép biến đổi Fourier được thực hiện trên từng đoạn tín hiệu ngắn. Mục tiêu của bước chia frame là chia dữ liệu tiếng nói thành từng frame nhỏ có kích thước khoảng từ 20ms đến 30ms. Các frame liền kề được xếp chồng lên nhau khoảng từ 10ms đến 15ms để tránh mất mát thông tin. Cơ chế chia frame này được minh họa trong hình 2.5. Hình 2.5: Cơ chế chia frame. Sau đó, mỗi frame sẽ được nhân với một hàm cửa sổ (window function): s(n) = s(n) * w(n) , n ∈ [0, N-1] Trong đó, s(n) là tín hiệu trong frame, N là kích thước của frame, w(n) là hàm cửa sổ. Một số window functions thường được dùng là: 16 - Hamming: ⎟⎠ ⎞⎜⎝ ⎛ −−= 1 2cos46164.053836.0)( N nnw π - Hann: ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ ⎟⎠ ⎞⎜⎝ ⎛ −−= 1 2cos15.0)( N nnw π - Cosine: ⎟⎠ ⎞⎜⎝ ⎛ −=⎟⎠ ⎞⎜⎝ ⎛ −−= 1sin21cos)( N n N nnw πππ Việc nhân mỗi frame với hàm cửa sổ sẽ giúp củng cố tính liên tục ở 2 biên của frame và tạo tính chu kỳ cho toàn bộ tín hiệu trong frame. Hình 2.6 minh họa kết quả nhân một frame với Hamming window. Hình 2.6: Tín hiệu trước và sau khi nhân với cửa sổ Hamming. 2.3.2. Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) Phép biến đổi Fourier rời rạc (DFT) chuyển tín hiệu âm thanh từ miền thời gian sang miền tần số. Một tín hiệu X có chiều dài N khi qua biến đổi DFT sẽ thu được tín hiệu phức có chiều dài N/2+1 ở miền tần số gồm 2 phần: ReX (kết quả phần thực) và ImX (kết quả phần ảo). Phương trình của phép biến đổi DFT: ∑− = = 1 0 )2cos(][][Re N i N kiixkX π ∑− = −= 1 0 )2sin(][][Im N i N kiixkX π 17 trong đó, i ∈ [0, N-1], k ∈ [0, N/2]. Trong không gian số phức (tọa độ Descartes), ReX và ImX còn có thể được biểu diễn dưới dạng độ lớn r của vector phức và góc quay φ (tọa độ cực) như trong hình 2.7. Hình 2.7: Tương quan giữa tọa độ Descartes và tọa độ cực. Như vậy, với phần thực ReX và phần ảo ImX, ta có thể tính độ lớn MagX (magnitude spectrum) và pha PhaseX theo công thức: 22 )(Im)(Re XXrMagX +== ⎟⎠ ⎞⎜⎝ ⎛== X XPhaseX Re Imarctanϕ Công thức biến đổi nghịch: ( )PhaseXMagXX cosRe = ( )PhaseXMagXX sinIm = Trong phép rút trích đặc trưng MFCC, kết quả của bước biến đổi Fourier là PowX - Power Spectrum (bình phương độ lớn vector phức): ( )2MagXPowX = PowX thể hiện mức tập trung năng lượng của tín hiệu âm thanh vào các vùng tần số. 18 2.3.3. Mel filter bank Mel là viết tắt của từ melody. Tần số mel (mel-frequency) tương ứng với logaric của tần số thông thường/tuyến tính (linear-frequency). Tần số mel phản ánh cách thức tiếp nhận âm thanh của tai người. Phương trình tương quan giữa mel-frequency và linear-frequency: mel = 1127.01048 * ln(1 + f/700) (2.1) f = 700(em/1127.01048 - 1) (2.2) Hình 2.8: Tương quan giữa tần số mel và tần số tuyến tính. Mel filter banks là các bộ lọc band-pass hình tam giác. Lọc band-pass là lọc thông các tần số trong khoảng mong muốn. Mục tiêu của bước áp dụng các bộ lọc Mel filter bank là để lọc lấy các tần số mà tai người có thể nghe được, đồng thời rút ngắn kích thước của vector đặc trưng. Các bộ lọc này được đặt sao cho các tần số trung tâm tăng đều trên miền mel, và logaric trên miền tần số (linear frequency), đồng thời hai cạnh của một bộ lọc phải được đặt trùng vào tần số trung tâm của hai bộ lọc lân cận. Hình 2.9 minh họa các bộ lọc trên miền mel và miền tẩn số. 19 Hình 2.9: Mel filter banks trên miền mel và miền tần số. Xét các mel filter banks trên miền tần số trong hình 2.10. Trong đó, fc(m) là tần số trung tâm của bộ lọc thứ m, Fs là sampling rate của tín hiệu âm thanh. Hình 2.10: Mel filter banks trên miền tần số tuyến tính. Các bộ lọc được cho bởi công thức: ⎪⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ +≥ +<≤+− +− <≤−−− −− −< = )1()(0 )1()()( )1()( )1()( )()()1( )1()( )1()( )1()(0 )( mfkffor mfkfmffor mfmf mfkf mfkfmffor mfmf mfkf mfkffor kH c cc cc c cc cc c c m với Hm là bộ lọc thứ m và f(k) = kFs/N. Tần số trung tâm fc(m) được tính theo tần số trung tâm tương ứng trên miền mel φc(m) theo công thức (2.2): fc(m) = 700(eφc(m)/1127.01048 - 1) Do các tần số trung tâm φc(m) tăng đều trên miền mel nên ta luôn có: φc(m) = mΔφ và Δφ = (φmax − φmin)/(M + 1) 20 trong đó, M là số bộ lọc, m ∈ [1, M], φmax và φmin có thể được tính từ fmax và fmin theo công thức (2.1) với fmin = 0 và fmax = Fs/2. Power spectrum từ bước biến đổi Fourier khi đưa qua các Mel filter banks sẽ được kết quả: ⎟⎠ ⎞⎜⎝ ⎛ ⋅= ∑− = )()(ln)( 1 0 kHkPowXme N k m Bước cuối cùng là áp dụng phép biến đổi cosine rời rạc lên e. 2.3.4. Biến đổi Cosine rời rạc (Discrete Cosine Transform - DCT) Biến đổi cosine rời rạc được cho bởi công thức: ∑ = ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ ⎟⎠ ⎞⎜⎝ ⎛ −= M m m M lmelc 1 2 1cos)()( π trong đó, c(l) là hệ số MFCC thứ l, l ∈ [1, L], L là số hệ số MFCC mong muốn, M là số bộ lọc. Thông thường M được chọn giá trị 24 và L là 12. Như vậy, vector c là kết quả của toàn bộ quá trình rút trích đặc trưng MFCC cho một frame. Từ các vector c, các đạo hàm bậc một (delta-cepstrum) và bậc hai (delta- delta cepstrum) có thể được tính như sau: ( )112 1 −+ −=Δ nnn ccc ( )112 1 −+ Δ−Δ=ΔΔ nnn ccc Các đạo hàm này được xem là đặc trưng động (dynamic features) thể hiện thay đổi giữa các frame. Ngoài ra, một đặc trưng khác cũng thường được quan tâm là mức năng lượng của frame: ∑ = = 2 1 2 )( t tt txEnergy 21 Trong các hệ thống nhận dạng lời thoại, thông thường vector đặc trưng được chọn gồm 39 thành phần: 12 MFCC, 1 MFCC-energy, 12 delta-cepstrum, 1 delta-energy, 12 delta-delta cepstrum, 1 delta-delta-energy. Tuy nhiên, hệ thống định danh người nói trong đề tài này chỉ sử dụng vector đặc trưng gồm 12 hệ số MFCC. 2.4. Dò tìm năng lượng (energy detection) Mục tiêu của bước dò tìm năng lượng là nhằm loại bỏ những đoạn âm thanh không có lời thoại. Công việc này được thực hiện thông qua việc so sánh năng lượng của mỗi vector đặc trưng với một ngưỡng T, nếu mức năng lượng nhỏ hơn T, vector đặc trưng đó sẽ bị loại ra. Sau bước dò tìm năng lượng, các vector đặc trưng có lời thoại sẽ được chuẩn hóa ở bước tiếp theo. 2.5. Chuẩn hóa đặc trưng (feature normalization) Thông thường, để giảm các ảnh hưởng phụ từ môi trường thu âm, các vector đặc trưng sẽ được chuẩn hóa thông qua 2 tham số là vector trung bình (mean) và phương sai (covariance) tính từ toàn bộ các vector đặc trưng. Khi đó, mỗi vector đặc trưng sẽ được chuẩn hóa như sau: 2' σ μ−= xx Đây cũng là bước cuối cùng của quá trình tiền xử lý dữ liệu. Các vector đặc trưng sau khi chuẩn hóa sẽ được đưa vào huấn luyện mô hình (ở giai đoạn enrollment) hoặc nhận dạng (ở giai đoạn test). 2.6. Xây dựng mô hình người nói Hạt nhân của một hệ thống nhận dạng/định danh người nói chính là các speaker models (mô hình người nói) đại diện cho từng người nói riêng biệt. Các speaker 22 models này được xây dựng bằng cách tổng quát hóa dữ liệu mẫu của speaker tương ứng. Điều này có nghĩa là ta phải huấn luyện sao cho mỗi speaker model thích nghi nhất với dữ liệu mẫu của nó. Mục tiêu của việc xây dựng các speaker models là tạo nền tảng cho bước nhận dạng các mẫu tiếng nói về sau. Hình 2.11: Các mô hình người nói. Tùy theo từng phương pháp tiếp cận mà speaker models sẽ được đại diện bằng các mô hình cụ thể. Chẳng hạn như trong phương pháp Vector Quantization, mỗi speaker model sẽ được đại diện bởi một codebook; đối với phương pháp GMM, mỗi speaker model tương ứng với một mô hình GMM; còn trong phương pháp Dynamic Time Warping, speaker model chỉ đơn thuần là tập các vector đặc trưng của người nói tương ứng mà không cần đến một cơ chế mô hình hóa nào cả. Như đã đề cập trong chương 1, hệ thống định danh người nói trong đề tài này được xây dựng theo hướng tiếp cận MGHMM. Mỗi speaker sẽ được mô hình hóa bằng một speaker model đại diện bởi một MGHMM riêng biệt. Định nghĩa và chi tiết các bước xây dựng MGHMM sẽ được trình bày cụ thể trong chương 3. 2.7. Nhận dạng Trong hệ thống định danh người nói trên tập dữ liệu mở (open-set test data), giai đoạn nhận dạng gồm 2 bước chính: Training Data of Speaker 1 Speaker Model 1 Modelization Method Training Data of Speaker 2 Speaker Model 2 Modelization Method Modelization Method Training Data of Speaker n Speaker Model n . . . . . . . . . 23 - Bước 1: chỉ ra identity (định danh người nói) của mẫu test. Nghĩa là cho biết ai trong số các thành viên hệ thống đã phát âm mẫu test đó. Bước này được gọi là identification. - Bước 2: xác minh lại xem mẫu test đó có thật sự thuộc về người nói đã xác định ở bước 1 hay thuộc về một người nói nào đó chưa biết. Bước này được gọi là verification. 2.7.1. Identification Sau khi các speaker model (MGHMM) đã được huấn luyện, mỗi speaker model λi sẽ thích nghi nhất với dữ liệu huấn luyện Xi của nó (λi được huấn luyện theo hướng cực đại hóa likelihood p(Xi | λi)). Khi cho một vector đặc trưng X vào speaker model bất kỳ λ, kết xuất nhận được sẽ là độ tương tự (likelihood) của X đối với λ: p(X | λ). Tuy nhiên, theo luật quyết định Bayes phân lớp theo tỉ lệ lỗi nhỏ nhất, mẫu X sẽ được phân vào lớp λi có p(λi | X) lớn nhất. )|(maxarg XpIdentity i i λ= (2.3) Theo công thức Bayes, ta có: )( )()|( )|( Xp pXpXp iii λλλ = trong đó, p(X) là xác suất xuất hiện vector X trong toàn không gian dữ liệu. Tuy nhiên p(X) độc lập và giống nhau với mọi λi nên sẽ không được xét. Xác suất p(λi) chính là tần xuất xuất hiện của người nói thứ i; thông thường những người nói này được xem là có tần suất xuất hiện như nhau nên n p i 1)( =λ với n là số lượng người nói trong hệ thống. Như vậy, công thức (2.3) có thể được quy về: )|(maxarg i i XpIdentity λ= với i ∈ [1, n] Likelihood p(X | λi) đóng vai trò như điểm (score) của mô hình λi cho vector đặc trưng X, và X sẽ được phân vào lớp của người nói có mô hình cho điểm cao nhất. 24 2.7.2. Verification Kết thúc bước identification, định danh (identity) của mẫu test đã được xác định là người nói có score cao nhất. Mục tiêu của bước verification là xác minh trở lại xem mẫu test có đúng thật là của người nói đó hay thuộc về một người nói chưa biết (unknown speaker/impostor). Hình 2.12: Các bước nhận dạng. Cơ chế xác minh thông qua việc so sánh score (có được từ bước identification) với một ngưỡng θ cho trước. Nếu score vượt ngưỡng θ, kết quả định danh ở bước trước sẽ được chấp nhận (confirmed); ngược lại, mẫu test sẽ được xem như thuộc về một người nói chưa biết. Hình 2.12 minh họa các bước của giai đoạn nhận dạng. Đối với bước verification, việc chọn ngưỡng thích hợp là rất quan trọng. Có 2 loại ngưỡng: - Ngưỡng toàn cục: một ngưỡng duy nhất được áp dụng cho tất cả các speaker. - Ngưỡng cục bộ: mỗi speaker sẽ có một ngưỡng riêng. Thông thường, ngưỡng tốt nhất được chọn tại điểm cân bằng lỗi trên đường DET (Detection Error Trade-off). Ngoài ra, chuẩn hóa score (score normalization) sẽ giúp cho việc chọn ngưỡng có hiệu quả hơn và giảm đáng kể tỉ lệ lỗi. Speaker Model 1 Speaker Model 2 Speaker Model n Test Data … P1 P2 … Pn Max → Pk > Ө ? ID = k Impostor 25 2.8. Score normalization Mục đích chính của việc chuẩn hóa score là tạo sự tách biệt giữa phân bố score của những speaker trong hệ thống và những speaker chưa biết, nghĩa là tăng cường score cho speaker trong hệ thống và giảm thiểu score của speaker chưa biết. Có 2 nhóm giải pháp chính cho vấn đề này: - Chuẩn hóa phân phối score (standardization of score distributions): bao gồm các kỹ thuật được sử dụng phổ biến của lĩnh vực xác minh người nói (speaker verification) như T-norm (test normalization), Z-norm (zero normalization) và H-norm (handset normalization). - Giải pháp Bayes: là một kỹ thuật trong Bayesian framework, áp dụng chuẩn hóa score cho hệ thống định danh người nói. Đề tài này sử dụng giải pháp Bayes cho bước chuẩn hóa score theo biểu thức: L(O) = log p(O | λML) – log p(O | λU) trong đó, λML = λi, )|(maxarg i i Opi λ= (λML là mô hình có điểm cao nhất ở bước identification), λU là mô hình đại diện cho một số unknown speaker có khả năng bị nhận nhầm vào speaker của mô hình λML. Trong thực tế, ta không thể xác định được λU, một lựa chọn tốt là tìm một đại lượng xấp xỉ gần đúng cho p(O | λU). Có 3 phương pháp giải quyết cho vấn đề này: World Model Normalisation (WMN), Cohort Normalisation (CN) và Unconstraint Cohort Normalisation (UCN). 2.8.1. World Model Normalization (WMN) Phương pháp này xấp xỉ p(O | λU) bởi p(O | λWM) với λWM là mô hình được tổng quát hóa từ một số lượng lớn các speaker. λWM thường được gọi là world model hay universal background model. 26 Để huấn luyện mô hình λWM, cần phải có một lượng lớn dữ liệu của rất nhiều speaker. 2.8.2. Cohort Normalization (CN) Trong phương pháp này, mỗi speaker model sẽ được liên hệ với một nhóm các speaker model gần nó nhất trong không gian speaker (thể hiện bởi bộ tham số λ). Khi đó, p(O | λU) sẽ được xấp xỉ bởi pCN(O, λML, K): ∑ = = K k kf ML CN MLOpK KOp 1 ),( )|(log1),,( λλλ trong đó, f (λML, i) ≠ f (λML, j) với i ≠j. ),()2,()1,( ,...,, Kfff MLMLML λλλ λλλ là các speaker model gần nhất với λML trong không gian speaker. Các speaker model này được chọn ra từ tập speaker model trong hệ thống trước giai đoạn test, và được gọi là nhóm “competitive speaker models” 2.8.3. Unconstraint Cohort Normalization (UCN) Phương pháp này giống với phương pháp Cohort Normalization, tuy nhiên nhóm “competitive speaker models” sẽ được chọn ra ngay trong giai đoạn test để xấp xỉ p(O | λU) bởi pUCN(O, λML, K) theo biểu thức: ∑ = = K k k ML UCN OpK KOp 1 )( )|(log 1),,( φλλ trong đó, Ф(i) ≠ Ф(j) với i ≠ j, và λФ(1), λФ(2), …, λФ(K) là các speaker models có score cao nhất sau λML. Các speaker models này có thể được chọn trực tiếp ngay sau bước identification mà không cần phải tốn chi phí phát sinh thêm mô hình (phương pháp World Model Normalization) hay tốn chi phí lựa chọn mô hình trong không gian speaker (phương pháp Cohort Normalization). 27 Trong [1], các phương pháp chuẩn hóa score được trình bày, phân tích và so sánh thực nghiệm. Kết quả cho thấy phương pháp Unconstraint Cohort Normalization đem lại hiệu quả tốt nhất cho việc chuẩn hóa score trong hệ thống định danh người nói trên tập mở. Đề tài này sử dụng giải pháp Bayes chuẩn hóa score theo phương pháp Unconstraint Cohort Normalization. 2.9. Một số hệ thống định danh người nói Một số hệ thống định danh người nói độc lập văn bản thường gặp được xây dựng theo hướng tiếp cận của Vector Quantization hoặc GMM (Gaussian Mixture Model)… 2.9.1. Hệ thống Vector Quantization Trong hệ thống định danh người nói xây dựng theo phương pháp Vector Quantization, mỗi người nói sẽ được mô hình hóa bằng một codebook. Một codebook có kích thước M sẽ gổm M codevectors – còn gọi là các vectors mẫu (prototype vectors). Hình 2.13: Vector Quantization với codebook có M = 3. Trên không gian vector của dữ liệu mẫu, M codevectors sẽ chia tập dữ liệu ra thành M cụm con mà mỗi codevector sẽ là trọng tâm (vector trung bình) của cụm con tương ứng. Hình 2.13 minh họa một không gian dữ liệu được phân cụm bởi 3 codevectors (prototype vectors). 28 Từ tập dữ liệu ban đầu, có một

Các file đính kèm theo tài liệu này:

  • pdf9.pdf
  • pdf1.pdf
  • pdf2.pdf
  • pdf3.pdf
  • pdf4.pdf
  • pdf5.pdf
  • pdf6.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf10.pdf
  • pdf11.pdf
  • pdf12.pdf
  • pdf13.pdf
Luận văn liên quan