Sự tiến bộ không ngừng của lĩnh vực công nghệ số cùng với công nghệ máy
tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn và cũng nhiều tri
thức hơn. Với những thiết bị tiên tiến, ngày nay người ta dễ dàng lưu trữ và chia sẻ
những dữ liệu âm thanh trong rất nhiều lĩnh vực như bản tin thời sự, bản tin quảng
cáo, các mẫu đối thoại hằng ngày, các cuộc hội nghị. Trong số đó, lĩnh vực hội
nghị đang ngày càng được các nhà khoa học quan tâm nghiên cứu bởi những thành
tựu thu được có thể mở ra nhiều ứng dụng to lớn cho các cá nhân, tổ chức, doanh
nghiệp và cho cả chính phủ.
Smart Meeting Room là thuật ngữ dùng để mô tả những thiết kế tiên tiến áp
dụng trong lĩnh vực hội nghị. Smart Meeting Room là những phòng họp trong đó
các thiết bị tương tác người dùng được lắp đặt và bố trí sao cho người nói và người
nghe có thể phát huy tối đa năng lực của cuộc họp. Bên cạnh đó, các hệ thống hỗ trợ
cho Smart Meeting Room có thể giúp ghi lại hay theo vết, nhận dạng những hoạt
động và trạng thái của những người tham gia. Hiện nay các hệ thống xử lý tiếng nói
liên quan đến lĩnh vực hội nghị bao gồm: Nhận dạng tiếng nói (Speech-to-text), Ghi
nhật ký người nói (Speaker Diarization), Nhận dạng tiếng nói theo người nói
(Speaker Attributed Speech-to-Text, là kết hợp của Ghi nhật ký người nói và Nhận
dạng tiếng nói). Trong đó, Ghi nhật ký người nói là kỹ thuật chỉ mới được phát triển
trong vài năm trở lại đây nhưng hứa hẹn mở ra nhiều thành tựu to lớn và do đó sẽ
được tập trung nghiên cứu trong khuôn khổ luận văn này.
Ghi nhật ký người nói là quá trình chia âm thanh thành các phân đoạn và gán
nhãn theo định danh người nói cụ thể. Đầu ra của quá trình này sẽ là đầu vào cho bộ
nhận dạng tiếng nói, từ đó chúng ta có thể xây dựng những ứng dụng như ghi nhật
ký cuộc họp tự động hay tường thuật trực tiếp một trận đấu bóng đá. Xa hơn nữa,
những dữ liệu (gồm âm thanh và văn bản) thu được từ các cuộc họp sẽ tạo thành
kho dữ liệu quý giá cho các tác vụ truy vấn thông tin và tri thức trong tương lai.
Với mục tiêu nghiên cứu về một số kỹ thuật xử lý âm thanh trong môi trường
Smart Meeting Room, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người
nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Cụ
thể là: 1) Luận văn nghiên cứu các kỹ thuật phổ biến hiện nay cho việc Ghi nhật ký
người nói cho dữ liệu hội nghị, 2) Luận văn nghiên cứu và trình bày một phương
pháp phân nhóm cải tiến cho hệ thống Ghi nhật ký người nói, cho phép phân nhóm
nhanh với độ chính xác tương đương những phương pháp phổ biến hiện nay nhưng
chi phí tính toán rất thấp, có thể triển khai ở mức độ thời gian thực, 3) Hiện thực
hóa hệ thống Ghi nhật ký người nói.
Cấu trúc luận văn được tổ chức như sau:
Chương 1 – Giới thiệu về Smart Meeting Room
- Lý do nghiên cứu về lĩnh vực hội nghị và những thách thức của việc
xử lý tiếng nói trong lĩnh vực này.
- Giới thiệu về Smart Meeting Room và những hệ thống xử lý tiếng nói
liên quan.
Chương 2 – Phát biểu bài toán Ghi nhật ký người nói cho dữ liệu hội
nghị
- Giới thiệu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần
thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến
để giải quyết bài toán.
- Định nghĩa hai tác vụ chính của bài toán: Phân đoạn và Phân nhóm.
- Trình bày ý tưởng của phương pháp phân nhóm nhanh (Fast
Clustering) cải tiến, nhằm đưa ra một giải pháp hiệu quả và nhanh
chóng cho bài toán Ghi nhật ký người nói.
Chương 3 – Hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị
- Trình bày hai mô hình hệ thống Ghi nhật ký người nói cho dữ liệu hội
nghị mà luận văn xây dựng: mô hình xử lý đa kênh (mô hình nền –
đây là mô hình phổ biến hiện nay) và mô hình xử lý nhanh (mô hình
trực tuyến – đây là mô hình cải tiến của luận văn).
- Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Ghi nhật
ký người nói: phát hiện tiếng nói (Voice Activity Detection), lượng
giá TDOA (Time Delay Of Arrival), chuẩn hoá TDOA. Phần này sẽ
trình bày chi tiết về phương pháp cải tiến Fast Clustering.
Chương 4 – Kết quả thực nghiệm và đánh giá: trong chương này, luận
văn vận dụng hai hệ thống Ghi nhật ký người nói đã xây dựng để thực
hiện các thực nghiệm và đánh giá, bao gồm:
- Thử nghiệm hai hệ thống xây dựng trên các bộ dữ liệu khác nhau.
- Thử nghiệm thời gian chạy của hệ thống cải tiến.
- So sánh hiệu quả của hệ thống cải tiến và các hệ thống phổ biến khác.
Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và
hướng phát triển trong tương lai.
28 trang |
Chia sẻ: tuandn | Lượt xem: 2218 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
17
Chƣơng 3 HỆ THỐNG GHI NHẬT KÝ NGƢỜI NÓI
CHO DỮ LIỆU HỘI NGHỊ
Trong phần này luận văn trình bày hai hệ thống Ghi nhật ký người nói cho
dữ liệu hội nghị. Hệ thống thứ nhất được gọi là Hệ thống xử lý đa kênh (Hệ thống
nền). Đây là hệ thống xử lý dựa trên việc mô hình hoá nhiều đặc trưng ngữ âm (đa
kênh) và là phương pháp nghiên cứu phổ biến trong môi trường có nhiều
microphone (Smart Meeting Room) hiện nay. Hệ thống thứ hai là hệ thống cải tiến
do luận văn cài đặt, gọi là Hệ thống xử lý nhanh. Mục tiêu của việc xây dựng hệ
thống này là cung cấp cho người dùng một ứng dụng Ghi nhật ký người nói hiệu
quả và nhanh chóng trong các lĩnh vực hội nghị trực tuyến. Ngoài ra, hệ thống được
xây dựng theo dạng module hoá, rất dễ dàng trong việc tích hợp linh hoạt những
thuật toán xử lý khác.
3.1. Mô hình hệ thống xử lý đa kênh
Hệ thống xử lý đa kênh được xây dựng theo cấu trúc sau (xem Hình 3.1):
Đầu vào: các kênh âm thanh (từ microphone 1 đến K).
Đầu ra: bản ghi nhật ký người nói của cuộc họp, gồm các đoạn âm thanh được
chia và đánh nhãn theo người nói cụ thể.
Bao gồm hai module là module tiền xử lý và module xử lý Phân đoạn – Phân
nhóm.
Module tiền xử lý: gồm các chức năng như lọc nhiễu, beamforming, tính toán
TDOA, rút trích đặc trưng ngữ âm và phát hiện tiếng nói. Những thông tin đầu
ra của module này sẽ gồm đặc trưng ngữ âm, đặc trưng thời gian TDOA và giá
trị nhận dạng tiếng nói – phi tiếng nói (VAD).
o Bước 1 – Lọc nhiễu: thực hiện việc lọc các âm thanh nhiễu như background
noise, tiếng ồn do các thiết bị trong phòng gây ra, tiếng vang…
o Bước 2 – Beamforming: tạo ra một kênh âm thanh “tổng” có chất lượng tốt
hơn bằng cách lọc và tổng hợp tín hiệu từ tất cả các kênh đầu vào.
18
o Bước 3 – Tính toán TDOA: tính toán đặc trưng TDOA dựa trên sự chênh
lệch về thời gian đến của tín hiệu âm thanh, bằng cách áp dụng các phương
pháp hiệu quả như [8],[40].
o Bước 4 – Phát hiện tiếng nói (VAD): phát hiện những frame nào trong dữ
liệu âm thanh đầu vào là tiếng nói hay phi tiếng nói, có thể được thực hiện
bằng cách xây dựng mô hình ngữ liệu với một số dữ liệu huấn luyện như
RT05s, RT06s và RT07s [59],[60],[61], hoặc bằng cách so sánh mức năng
lượng như [16].
o Bước 5 – Rút trích đặc trưng ngữ âm: sử dụng đặc trưng ngữ âm, ví dụ như
MFCC, LPCC, để biểu diễn cho tín hiệu âm thanh. Việc rút trích đặc trưng
được tiến hành trên dữ liệu của kênh âm thanh “tổng”. Kết quả sẽ là một
vector đặc trưng có Nvector giá trị.
Module xử lý Phân đoạn – Phân nhóm:
o Bước 6 – Phân đoạn: Chia tập tin âm thanh thành các phân đoạn theo các vị
trí chuyển lượt người nói hoặc các vị trí ranh giới giữa các frame tiếng nói
và phi tiếng nói.
o Bước 7 – Phân nhóm:
Bước 7.1 – Xây dựng mô hình: xây dựng mô hình ngữ liệu cho các
vector đặc trưng. Số nhóm khởi tạo ban đầu sẽ được quyết định ở
bước Phân đoạn.
Bước 7.2 – Phân nhóm tích tụ: thực hiện việc phân nhóm tích tự theo
bottom-up hoặc top-down. Tại mỗi vòng lặp sẽ tính toán khoảng
cách giữa các cặp mô hình và chọn ra cặp mô hình có khoảng cách
nhỏ nhất để trộn lại với nhau. Quá trình lặp lại cho đến khi giá trị
tiêu chí dừng được thoả.
o Bước 8 – Post-Processing: quá trình xử lý sau cùng sẽ làm mịn lại các biên
giữa các phân đoạn thông qua một bộ giải mã Viterbi [3].
19
Hình 3.1 Mô hình hệ thống xử lý đa kênh
3.2. Mô hình hệ thống xử lý nhanh
Mô hình hệ thống xử lý đa kênh đạt hiệu quả tốt trong hầu hết những điều
kiện, tuy nhiên lại không thể triển khai trong điều kiện ứng dụng theo thời gian
thực. Với mục tiêu xây dựng một hệ thống Ghi nhật ký người nói trong môi trường
MODULE TIỀN XỬ LÝ
:
microphone 1
microphone K
Lọc nhiễu
Âm thanh đầu vào
Tính toán TDOA
Rút trích
đặc trƣng
ngữ âm
Phát hiện
tiếng nói (VAD)
MODULE XỬ LÝ
vector
VAD
TDOA
Phân đoạn
Nhật ký ngƣời nói
Đầu ra
Phân nhóm
Xây dựng
mô hình
Phân nhóm
tích tụ
Tất cả các kênh
Danh sách các đoạn S={s1,s2,..,sM}
beamforming Tất cả các kênh
Post-Processing
20
không có hoặc có ít tiếng nói chồng lấp đồng thời đòi hỏi chi phí tính toán thấp và
đạt hiệu quả tương đương như các hệ thống xử lý đa kênh, luận văn đã đề xuất mô
hình cho hệ thống xử lý nhanh theo cấu trúc sau (xem Hình 3.2):
Đầu vào: các kênh âm thanh (từ microphone 1 đến K).
Đầu ra: bản ghi nhật ký người nói của cuộc họp, gồm các đoạn âm thanh được
chia và đánh nhãn theo người nói cụ thể.
Bao gồm hai module là module tiền xử lý và module xử lý Phân đoạn – Phân
nhóm.
Module tiền xử lý: gồm các chức năng tính toán TDOA và phát hiện tiếng nói.
Những thông tin đầu ra của module này sẽ gồm đặc trưng thời gian TDOA và
giá trị nhận dạng tiếng nói – phi tiếng nói (VAD).
o Bước 1 – Tính toán TDOA: tính toán đặc trưng TDOA dựa trên sự chênh
lệch về thời gian đến của tín hiệu âm thanh.
o Bước 2 – Phát hiện tiếng nói (VAD): phát hiện những frame nào trong dữ
liệu âm thanh đầu vào là tiếng nói hay phi tiếng nói.
Module xử lý Phân đoạn – Phân nhóm:
o Bước 3 – Lượng giá TDOA: lọc ra những giá trị xuất hiện nhiều nhất (gọi là
các peak hay centroid) trong chuỗi giá trị TDOA bởi đó chính là những
hướng đến chính của người nói, nhằm loại bỏ những giá trị nhiễu. Phương
pháp lọc phổ biến là xây dựng biểu đồ histogram.
o Bước 4 – Chuẩn hoá TDOA: đưa các giá trị còn lại về theo giá trị của các
peak (centroid). Với một vector thì tiến hành chuẩn hoá một chiều. Với N
vector (ứng với N microphone) thì sẽ chuẩn hoá N-chiều. Tất cả các giá trị
TDOA sau khi chuẩn hoá sẽ được trộn lại thành các đoạn âm thanh S = {S1,
S2, …, SM} (những giá trị TDOA gần nhau theo thứ tự frame được nhóm lại
với nhau thành phân đoạn Si).
o Bước 5 – Phân nhóm nhanh theo mô hình bottom-up: thuật toán phân nhóm
cải tiến dựa trên phương pháp phân nhóm tích tụ bottom-up. Khoảng cách
giữa hai phân nhóm (đại diện là hai centroid vì tất cả các giá trị TDOA
21
trong cùng một nhóm đều bằng giá trị của centroid) được tính bằng khoảng
cách Manhattan.
Hình 3.2 Mô hình hệ thống xử lý nhanh
3.3. Các kĩ thuật tiền xử lý
3.3.1. Kỹ thuật lọc nhiễu
Nhiễu là những tín hiệu âm học không mong muốn (ví dụ tiếng nhạc, tiếng
ồn của xe cộ, máy móc…) xuất hiện trong một dãy tín hiệu âm thanh [63] (ví dụ
như trong Hình 3.3). Các tín hiệu nhiễu này ảnh hưởng rất lớn đến hiệu quả của các
hệ thống xử lý tiếng nói như hệ thống Nhận dạng tiếng nói hay hệ thống Ghi nhật
MODULE TIỀN XỬ LÝ
:
microphone 1
microphone K
Âm thanh đầu vào
Tính toán TDOA
Phát hiện
tiếng nói (VAD)
MODULE XỬ LÝ
VAD
TDOA
Nhật ký ngƣời nói
Đầu ra
Phân đoạn
Lƣợng giá TDOA
Chuẩn hoá TDOA
TDOA đã chuẩn hoá
hoá Phân nhóm
Phân nhóm nhanh
theo bottom-up
Tất cả các kênh
Chọn kênh đầu tiên
22
ký người nói. Ví dụ, trong hệ thống Nhận dạng tiếng nói, nhiễu có thể gây ra sự
không tương thích giữa các điều kiện huấn luyện và thực nghiệm, hơn nữa sẽ làm
giảm độ chính xác của việc nhận dạng trong môi trường thực tế. Do đó, việc lọc
nhiễu sẽ giúp cải thiện độ chính xác và độ ổn định cho các ứng dụng xử lý tiếng nói.
(a) (b)
Hình 3.3 Một số ví dụ về nhiễu: (a) Tiếng xe hơi (b) Tiếng ồn trên đường
Có nhiều loại nhiễu khác nhau được phân chia theo màu sắc như nhiễu trắng,
nhiễu hồng, nhiễu nâu…[64]. Để giải quyết bài toán lọc nhiễu, ta có các phương
pháp phổ biến như sau:
Với một microphone (single microphone):
- Phương pháp trừ phổ (Spectral Subtraction): giá trị tần số của các phổ
tiếng nói được lượng giá theo các phổ nhiễu để từ đó loại bỏ các phổ
nhiễu [43].
- Phương pháp tham số (Parametric Technique): áp dụng các bộ lọc như
bộ lọc Wiener [21],[51], bộ lọc Kalman [32] cho các tín hiện nhiễu.
Với nhiều microphone (multiple microphone): phương pháp beamforming
(sử dụng thông tin âm thanh từ nhiều microphone để loại bỏ những thành
phần âm thanh nhiễu)
- Phương pháp cố định (fixed beamforming): lọc các tín hiệu microphone
bằng các bộ lọc cố định và do đó độc lập với dữ liệu. Gồm có các kỹ
thuật như Delay-And-Sum [58], Differential Microphone Array [33],
Superdirective Microphone Array [37] và Frequency-Invariant [30].
23
- Phương pháp thích nghi (adaptive beamforming): ngược với phương
pháp cố định, phương pháp thích nghi sử dụng những bộ lọc phụ thuộc
vào dữ liệu đã được thích nghi với các loại nhiễu, được áp dụng đặc
biệt trong môi trường có ít nguồn nhiễu (nghĩa là số nguồn gây nhiễu
nhỏ hơn số microphone) và ít tiếng vang [30],[37],[40].
Hình 3.4 Mô hình hoạt động của phương pháp Delay-and-Sum beamforming
Trong đó, kỹ thuật lọc Wiener và Delay-And-Sum là hai phương pháp được
sử dụng phổ biến trong việc lọc nhiễu với một microphone và nhiều microphone do
đặc tính cài đặt đơn giản nhưng hiệu quả đem lại khá cao. Hình 3.4 mô tả cách thức
hoạt động của phương pháp Delay-And-Sum.
3.3.2. Kỹ thuật tính TDOA
Các kỹ thuật tính TDOA thường được thực hiện trong môi trường hội nghị
có nhiều microphone (Multiple Distant Microphone - MDM). Tại bất cứ thời điểm
nào của cuộc họp, vì các microphone được đặt ở các vị trí khác nhau trong phòng
nên khoảng cách về không gian giữa người nói và mỗi microphone là khác nhau. Vì
tốc độ âm thanh là hằng số và giả định rằng sóng âm truyền từ người nói đến các
microphone theo hướng song song, điều này sẽ dẫn tới sự chênh lệch về thời gian
đến của tiếng nói tại mỗi microphone. Sự chênh lệch thời gian này được gọi là Time
Delay of Arrival (TDOA) giữa các kênh nhận âm thanh (các microphone) (xem
Hình 3.5).
24
Hình 3.5 Minh hoạ hướng đến của tiếng nói: c là tốc độ âm thanh, d là khoảng cách giữa
các microphone
Để tính toán giá trị TDOA, có hai phương pháp chủ ỵếu là phương pháp
GCC-PHAT (Generalized Cross-Correlation using Phase Transform) [8] và bộ lọc
NLMS (Normalized Least Means Squared) [40]. Phương pháp GCC-PHAT là
phương pháp phổ biến nhất hiện nay và được luận văn lựa chọn để tính toán giá trị
TDOA giữa các microphone trong môi trường SMR có độ phản âm cao (350ms).
3.3.3. Đặc trƣng ngữ âm
Một cách tổng quát, tín hiệu tiếng nói thô được chuyển hoá thành một dãy
các vector đặc trưng ngữ âm mang thông tin đặc tính về tín hiệu đó. Các đặc trưng
được sử dụng phổ biến hiện nay trong bài toán Ghi nhật ký người nói là Mel
Frequency Cepstral Coefficients (MFCC) [45], Linear Prediction Cepstral
Coefficients (LPCC) [22] and Perceptual Linear Prediction Cepstral (PLPC)
Coefficients [19].
Tất cả các đặc trưng này đều dựa trên thông tin phổ từ các khung tiếng nói có
kích thước ngắn. Điều này có được do quan sát rằng tín hiệu tiếng nói luôn luôn
biến thiên theo thời gian, tuy nhiên trong khoảng thời gian 10-20ms tín hiệu tiếng
nói được coi là tương đối ổn định. Các đặc trưng trên chỉ khác nhau ở bước phân
tích thời gian-tần số và các kỹ thuật làm trơn tần số.
d d d
c c c c
mic2 mic3 mic4
Người nói
mic1
25
Hình 3.6 Đặc trưng LPCC
Luận văn sử dụng hai đặc trưng MFCC và LPCC để biểu diễn cho tín hiệu
âm thanh trong Hệ thống xử lý đa kênh. Hình 3.6 là một ví dụ của đặc trưng LPCC.
MFCC là đặc trưng thể hiện cho các phổ có mức năng lượng bước sóng
ngắn, dựa trên biến đổi cosin tuyến tính của logarit phổ năng lượng trong miền tần
số [45]. Các bước để tính toán giá trị MFCC được miêu tả như trong Hình 3.7.
Hình 3.7 Các bước tính toán hệ số MFCC
26
LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin được rút trích từ
mô hình dự báo tuyến tính (linear predictive model) [22]. Định nghĩa của mô hình
dự báo tuyến tính như sau:
Giả sử giá trị mẫu hiện tại của tiếng nói được tiên đoán từ N mẫu trước đó:
𝑥 𝑛 = 𝑎1𝑥 𝑛 − 1 + 𝑎2𝑥 𝑛 − 2 +. . +𝑎𝑁𝑥 𝑛 − 𝑁 = 𝑎𝑖𝑥(𝑛 − 𝑖)
𝑁
𝑖=1
(3.1)
trong đó 𝑥 𝑛 là dự báo tuyến tính của x(n), x(n-i) là giá trị mẫu tại bước thứ
i trước đó, N là số mẫu hay còn gọi là bậc của dự báo và {ai} được gọi là các hệ số
dự báo tuyến tính (linear prediction coefficients). Giá trị lỗi giữa giá trị mẫu thực sự
và giá trị dự báo được biểu diễn như sau:
𝜀 𝑛 = 𝑥 𝑛 − 𝑥 𝑛 = 𝑥 𝑛 − 𝑎𝑖𝑥(𝑛 − 𝑖)
𝑁
𝑖=1
(3.2)
Các hệ số ai được chọn để làm cực tiểu hàm lỗi dự báo trung bình bình
phương sau:
𝐸 = 𝜀2 𝑛
𝑛
= 𝑥 𝑛 − 𝑎𝑖𝑥(𝑛 − 𝑖)
𝑁
𝑖=1
2
𝑛
(3.3)
Có nhiều phương pháp để tính các hệ số này: phương pháp dùng ma trận
hiệp phương sai (covariance matrix), phương pháp tự tương quan (auto-correlation
method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or
harmonic). Phương pháp thường được áp dụng nhất là phương pháp tự tương quan
dùng thuật toán đệ qui Levinson-Durbin như sau:
Tính p+1 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính –
bậc đệ quy) bằng công thức sau:
𝑟𝑖 = 𝑠𝑗 𝑠𝑗+𝑖
𝑁−𝑖
𝑗=1
(3.4)
Các hệ số sau đó được tính toán đệ qui như sau:
𝐸 0 = 𝑟0 , với i = 0 (3.5a)
27
𝑘𝑖 =
𝑟𝑖− 𝑎𝑗
𝑖−1𝑟𝑖−𝑗
𝑖−1
𝑗=1
𝐸𝑖−1
, trong đó 1 ≤ i ≤ p (3.5b)
𝑎𝑖
𝑖 = 𝑘𝑖 (3.5c)
𝑎𝑗
𝑖 = 𝑎𝑗
𝑖−1 − 𝑘𝑖𝑎𝑖−𝑗
𝑖−1 , với 1 ≤ j ≤ i-1 (3.5d)
𝐸 𝑖 = (1 − 𝑘𝑖
2)𝐸 𝑖−1 (3.5e)
Các bước trên được tính toán lặp với i=1,2,…,p. Cuối cùng ta thu các hệ số
aj=aj
p
với 1 ≤ j ≤ p.
3.4. Mô hình ngữ âm
Hai mô hình ngữ âm thường sử dụng trong bài toán Ghi nhật ký người nói là
Mô hình Markov ẩn (HMM – Hidden Markov Model) và Mô hình Hỗn hợp
Gaussian (GMM – Gaussian Mixture Model).
3.4.1. Mô hình Markov ẩn (HMM)
HMM là một tập hữu hạn các trạng thái, mỗi trạng thái được liên kết với một
phân số xác suất. Việc chuyển trạng thái được chỉ định bởi một tập các xác suất gọi
là ma trận xác suất chuyển trạng thái. Tại mỗi trạng thái, một quan sát có thể được
tạo ra dựa trên phân bố xác suất liên kết. Một mô hình Markov ẩn bao gồm các
thành phần sau:
Tập các trạng thái S = {S1,…,SN}.
Tập các ký hiệu đầu ra Y = {Y1,…,YM}.
Phân bố trạng thái ban đầu π = {πi} với
𝜋 = 𝑃 𝑞1 = 𝑆𝑗 , 1 ≤ 𝑗 ≤ 𝑁 (3.6)
Tập các chuyển trạng thái A = {aij} giữa các trạng thái. Chú ý rằng xác suất
chuyển trạng thái độc lập với thời gian
𝑎𝑖𝑗 = 𝑃 𝑞𝑡+1 = 𝑆𝑗 |𝑞𝑡 = 𝑆𝑖 , 1 ≤ 𝑖, 𝑗 ≤ 𝑁 (3.7)
Phân bố xác suất ký hiệu quan sát trong trạng thái j, B={bj(k)}, độc lập với
thời gian
𝑏𝑗 𝑘 = 𝑃 𝑥𝑡 = 𝑌𝑘 𝑞𝑡 = 𝑆𝑗 , 1 ≤ 𝑗 ≤ 𝑁, 1 ≤ 𝑘 ≤ 𝑀 (3.8)
28
Trong đó, Ʌ được chỉ định là các tham số của mô hình Markov ẩn. Khi được
dùng cho tiếng nói, mô hình HMM thường có dạng đồ thị từ trái sang phải. Cho một
dãy các vector quan sát X, các tham số của mô hình HMM được huấn luyện bằng
thuật toán Expectation-Maximization (EM) [4] để tối ưu hoá giá trị likelihood:
Xpmaxarg*
(3.9)
Dãy trạng thái ẩn tốt nhất (qbest) được xác định bằng thuật toán Viterbi [3]:
qpqXpqXpq
qq
best .,maxarg,maxarg
(3.10)
Giá trị likelihood của vector quan sát xn được cho bởi trạng thái qk,p(xn|qk),
được mô hình một cách tổng quát bởi một mô hình Gaussian Mixture Model
(GMM) như định nghĩa dưới đây.
3.4.2. Mô hình Gaussian Mixture Model (GMM)
GMM là một phân bố xác suất với sự kết hợp lồi của nhiều phân bố
Gaussian. Mật độ hỗn hợp như sau:
K
k
kk xfaxf
1
)()(
(3.11)
Trong đó:
K là số hỗn hợp.
ak là xác suất tiên nghiệm của hỗn hợp k sao cho
K
k k
a
1
1
fk(x) là mật độ thành phần của phân bố Gaussian được tham số hoá bởi giá trị
trung bình
k
và hiệp phương sai
k
:
2
exp
)2(
1
)(
1
kk
t
k
k
dk
xx
xf
(3.12)
với d là chiều của vector đặc trưng.
Cho một dãy các vector quan sát, các tham số của GMM có thể được huấn
luyện thông qua thuật toán EM để tối ưu hoá giá trị likelihood của dữ liệu . Với
tiếng nói, giả sử rằng mỗi quan sát trong dãy X={x1,…,xn} độc lập và được phân bố
một cách đồng nhất. Theo đó, giá trị likelihood của một GMM được tham số hoá
bởi
xác định bởi dãy quan sát X được tính như sau:
29
inii xpXp 1
(3.13)
3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection)
Phát hiện tiếng nói là kỹ thuật tìm ra các vùng âm thanh có chứa tiếng nói
của một người nói bất kỳ trong đoạn thu âm, xem Hình 3.8. Phụ thuộc vào miền dữ
liệu được dùng, các vùng phi tiếng nói có thể là các khoảng lặng, tiếng cười, tiếng
nhạc, tiếng ồn trong phòng hay là background noise. Các kỹ thuật phát hiện tiếng
nói/phi tiếng nói là một phần quan trọng của hệ thống Ghi nhật ký người nói. Sự tồn
tại của các frame phi tiếng nói trong quá trình phân nhóm sẽ khiến việc phân biệt
chính xác hai mô hình người nói thêm khó khăn hơn.
Hình 3.8 Minh hoạ cho việc phát hiện VAD trong dãy tín hiệu âm thanh
Các kỹ thuật phát hiện tiếng nói có thể được phân theo ba loại sau:
Phát hiện tiếng nói dựa trên mức năng lượng.
Phát hiện tiếng nói dựa trên mô hình.
Phát hiện tiếng nói lai.
Kỹ thuật phát hiện tiếng nói dựa trên mức năng lượng là phương pháp cổ
điển nhất và hiện nay vẫn được ứng dụng rộng rãi trong lĩnh vực truyền thông [16].
Ở phương pháp này, việc phát hiện tiếng nói chủ yếu dựa trên những đặc trưng theo
mức năng lượng như cao độ (pitch), âm sắc (tone), SNR (Signal-to-Noise
Ratio)…Tuy nhiên, phương pháp này có hạn chế là không thể chạy tốt trong môi
trường có nhiều loại nhiễu như tiếng gõ bàn phím, tiếng ho hay tiếng cười. Hình 3.9
thể hiện lượt đồ khối của kỹ thuật tính VAD theo mức năng lượng. Có ba bước
30
chính: rút trích đặc trưng (feature extraction), xây dựng công thức tính VAD
(decision module) và cuối cùng là làm trơn (decision smoothing).
Hình 3.9 Sơ đồ khối của kỹ thuật tính VAD theo mức năng lượng
Kỹ thuật phát hiện tiếng nói dựa trên mô hình ngược lại có thể mô hình hoá
nhiều loại hiện tượng ngữ âm khác nhau. Hệ thống đơn giản nhất chỉ dùng hai mô
hình tiếng nói và phi tiếng nói như của Wooters et al. [9]. Hệ thống phức tạp hơn
được mô tả trong Nguyen et al. [39] với bốn mô hình tiếng nói. Tiếng ồn và tiếng
nhạc được đặc biệt mô hình hoá trong Gauvain et al. [23], và Zhu et al. [53]. Hệ
thống bao gồm năm lớp: tiếng nói, tiếng nhạc, tiếng ồn, tiếng nói + tiếng nhạc, và
tiếng nói + tiếng ồn. Các mô hình tiếng nói + tiếng nhạc và tiếng nói + tiếng ồn
được dùng để cực tiểu hoá việc bỏ qua tiếng nói khi có xuất hiện tiếng nhạc hoặc
tiếng ồn, và các dữ liệu này được phân loại lại thành dữ liệu tiếng nói
[23],[41],[49],[53].
Kỹ thuật phát hiện tiếng nói theo mô hình, tuy nhiên, lại có giới hạn của nó:
các mô hình cần phải được huấn luyện với các dữ liệu được gán nhãn trong tập huấn
luyện. Điều này đòi hỏi dữ liệu phải được đánh nhãn và việc này tốn khá nhiều chi
phí. Hơn nữa, bởi vì sự phức tạp của các âm thanh phi tiếng nói nên không thể tìm
đủ dữ liệu để xây dựng nên các mô hình cho các loại âm thanh này. Hiệu quả thấp
của hệ thống trên các dữ liệu chưa được huấn luyện cũng là khuyết điểm chính của
kỹ thuật phát hiện tiếng nói dựa trên mô hình.
Kỹ thuật lai là sự kết hợp giữa hai kỹ thuật dựa vào mức năng lượng và dựa
vào mô hình ở trên [54][55]. Phương pháp này bao gồm hai bước: bước đầu tiên là
31
một bộ phát hiện dựa vào mức năng lượng đơn giản, bước thứ hai sử dụng cách tiếp
cận theo mô hình được huấn luyện trên chính dữ liệu thực nghiệm [9][40].
Tuy nhiên, do yêu cầu xử lý nhanh và có thể triển khai theo hướng thời gian
thực, luận văn đã sử dụng phương pháp phát hiện tiếng nói theo mức năng lượng.
Thực nghiệm cho thấy phương pháp này cho kết quả chấp nhận được trong môi
trường SMR với ít tiếng nói chồng lấp.
3.6. Kỹ thuật phân đoạn theo ngƣời nói
Mục tiêu chính của bài toán phân đoạn theo người nói là tìm những điểm
chuyển trạng thái (từ người nói này sang người nói khác, từ tín hiệu tiếng nói sang
tín hiệu phi tiếng nói) trong dãy tín hiệu âm thanh đầu vào. Để thực hiện điều này,
cần phải có phương pháp phù hợp để ước lượng sự khác biệt giữa các vùng âm
thanh. Các hướng tiếp cận phổ biến để ước lượn