Âm nhạc là một trong những món ăn tinh thần không thể thiếu trong đời sống của
mỗi con người. Con người thường nghe nhạc để giải toả cảm xúc, tạo cảm giác thoải
mái, thư giãn và tìm lại cân bằng trong cuộc sống hàng ngày.
Trước đây, các tác phẩm âm nhạc thường được phân phối đến người dùng dưới
dạng các đĩa CD/DVD, băng từ thông qua các cửa hàng băng đĩa nhạc. Mỗi album
như vậy thường chứa từ 10 đến 15 bài hát thường của cùng một ca sĩ hay nghệ sĩ.
Ngày nay, cùng với sự bùng nổ của Internet băng thông rộng, các đĩa CD/DVD và
băng từ đã trở nên không còn phổ biến và dần được thay thế bằng các cơ sở dữ liệu
(CSDL) nhạc số. Mỗi cá nhân hiện nay có thể sở hữu hàng nghìn bản nhạc số và họ
có thể tự xây dựng thư viện âm nhạc theo sở thích cho riêng mình để thưởng thức và
có thể chia sẻ chúng đến với cộng đồng.
Các nghiên cứu liên quan đến khai phá dữ liệu âm nhạc rất đa dạng và đã được
thực hiện từ rất lâu, theo nhiều hướng khác nhau như: Phân lớp âm nhạc theo thể loại
(MGC - Music Genre Classification), định danh nghệ sĩ/ca sĩ, phát hiện cảm xúc/tâm
trạng, nhận biết nhạc cụ Tuy nhiên, với số lượng các tác phẩm âm nhạc được số
hoá ngày càng nhiều đã gây ra không ít khó khăn cho người yêu nhạc (thậm chí ngay
cả các chuyên gia) trong việc tổ chức các CSDL nhạc số khổng lồ. Việc tìm kiếm các
phương pháp mới để khám phá, giới thiệu và quảng bá âm nhạc cũng đặt ra cho ngành
công nghiệp nhạc số và các nhóm nghiên cứu những thách thức không hề nhỏ.
Năm 2003, trong luận văn của mình, Heittola [1] đã đề xuất phương pháp hữu dụng
nhất để quản lý các CSDL nhạc số khổng lồ bằng cách phân lớp âm nhạc theo thể
loại. Tuy nhiên, việc xác định một thể loại âm nhạc cụ thể vẫn còn là một vấn đề rất
khó, vì ranh giới giữa các thể loại âm nhạc thường không rõ ràng. Một bản nhạc có
thể kết hợp các yếu tố từ nhiều thể loại khác nhau, làm cho việc phân loại trở nên khó
khăn. Mặt khác, một thể loại âm nhạc có thể chứa nhiều phong cách, biến thể, hoặc
ảnh hưởng từ văn hóa khác nhau, dẫn đến sự đa dạng trong cách biểu đạt và âm thanh.
Do đó, việc đưa ra khái niệm về thể loại còn chưa rõ ràng, phụ thuộc nhiều vào cảm
tính và nhận thức của con người [2].
Việt Nam là một quốc gia đa dân tộc với nền văn hóa lâu đời nên dân ca Việt Nam
hết sức đa dạng và phong phú. Dân ca của mỗi dân tộc, mỗi vùng miền lại mang màu
sắc, bản sắc văn hoá riêng. Ở Bắc Bộ có Quan họ Bắc Ninh, hát Chèo, hát Xoan, hát
Ví, hát Trống quân, hát Dô, ; ở Trung Bộ có hát Ví dặm, Hò Huế, Lý Huế, hát Sắc
bùa, ; ở Nam Bộ có các điệu Lý, điệu Hò, nói thơ, ; ở miền núi phía Bắc có dân
ca của đồng bào Thái, H' Mông, Mường, ; vùng Tây Nguyên có dân ca của các dân
tộc Gia-Rai, Ê-Đê, Ba-Na, Xơ-Đăng Dân ca là kho tàng văn hoá vô cùng rộng lớn,
rất đa dạng và phong phú của dân tộc Việt Nam.
123 trang |
Chia sẻ: Tài Chi | Ngày: 27/11/2023 | Lượt xem: 354 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Định danh tự động một số làn điệu dân ca Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Định danh tự động một số làn
điệu dân ca Việt Nam” là công trình nghiên cứu của cá nhân tôi. Các số liệu, kết quả
trong luận án là trung thực và chưa từng được tác giả khác công bố. Việc tham khảo
các nguồn tài liệu đã được thực hiện trích dẫn đầy đủ và ghi nguồn tài liệu tham khảo
đúng quy định.
GIÁO VIÊN HƯỚNG DẪN
Hà Nội, ngày 25 tháng 8 năm 2023
TÁC GIẢ LUẬN ÁN
PGS.TS. Trịnh Văn Loan
Chu Bá Thành
2
LỜI CẢM ƠN
Để hoàn thành Luận án này, ngoài sự nỗ lực, cố gắng của bản thân, tôi còn nhận
được sự hỗ trợ, giúp đỡ tận tình từ thầy hướng dẫn; các thầy cô trong Khoa Kỹ thuật
máy tính - Trường Công nghệ Thông tin & Truyền thông, Đại học Bách khoa Hà Nội
và các thành viên trong gia đình. Tôi muốn bày tỏ lòng biết ơn của mình đến các thầy
cô, bạn bè và đồng nghiệp đã giúp đỡ tôi để có được kết quả này.
Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn là PGS.TS. Trịnh
Văn Loan. Thầy đã luôn tận tình giúp đỡ, chỉ bảo, đưa ra những lời khuyên bổ ích,
những định hướng khoa học và phương pháp nghiên cứu hết sức quý báu để tôi có
thể triển khai và hoàn thành luận án này.
Tiếp đến, tôi xin trân trọng cảm ơn Đại học Bách khoa Hà Nội; Trường Công nghệ
Thông tin & Truyền thông; Khoa Kỹ thuật máy tính đã tạo điều kiện tốt nhất cho tôi
trong thời gian học tập. Tôi cũng xin chân thành cảm ơn các đồng nghiệp tại Khoa
Công nghệ Thông tin - Trường Đại học Sư phạm Kỹ thuật Hưng Yên đã hỗ trợ, giúp
đỡ và động viên tôi trong suốt thời gian học tập.
Cuối cùng, tôi xin bày tỏ lòng biết ơn sâu sắc đến cha mẹ, anh, chị, em và gia đình
đã luôn ở bên để động viên, giúp đỡ tôi vượt qua các khó khăn, trở ngại để hoàn thành
quá trình học tập của mình.
Xin trân trọng cảm ơn!
3
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................ 6
DANH MỤC CÁC BẢNG ......................................................................................... 7
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ................................................................. 9
MỞ ĐẦU .................................................................................................................. 12
Chương 1. TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂ
LOẠI ......................................................................................................................... 16
1.1 Âm thanh, âm nhạc ................................................................................................. 16
1.1.1 Khái niệm âm thanh, âm nhạc................................................................... 16
1.1.2 Một số yếu tố cơ bản của âm nhạc ............................................................ 17
1.2 Một số đặc trưng trích chọn từ tín hiệu âm nhạc ................................................... 18
1.2.1 Đặc trưng thống kê .................................................................................... 18
1.2.2 Đặc trưng trong miền thời gian ................................................................. 19
1.2.3 Đặc trưng phổ............................................................................................ 22
1.3 Một số thể loại âm nhạc phổ biến trên thế giới ..................................................... 25
1.4 Đôi nét về nhạc dân ca Việt Nam ........................................................................... 26
1.4.1 Đặc điểm âm nhạc, lời ca trong Chèo ....................................................... 27
1.4.2 Đặc điểm âm nhạc, lời ca trong Quan họ .................................................. 28
1.4.3 Đặc điểm kỹ thuật hát Chèo và Quan họ .................................................. 30
1.5 Phân lớp âm nhạc theo thể loại ............................................................................... 34
1.6 Một số bộ dữ liệu âm nhạc theo thể loại điển hình ............................................... 35
1.7 Một số mô hình dùng trong phân lớp thể loại âm nhạc ........................................ 35
1.7.1 Bộ phân lớp SVM (Support Vector Machine) .......................................... 35
1.7.2 Bộ phân lớp GMM (Gaussian Mixture Model) ........................................ 36
1.7.3 Mạng nơ-ron nhân tạo (Artificial Neural Network) ................................. 38
1.8 Một số kết quả nghiên cứu phân lớp thể loại âm nhạc trong và ngoài nước ....... 48
1.8.1 Tình hình nghiên cứu ngoài nước ............................................................. 48
1.8.2 Tình hình nghiên cứu trong nước ............................................................. 54
1.9 Kết chương 1 ........................................................................................................... 55
4
Chương 2. ĐỊNH DANH MỘT SỐ LÀN ĐIỆU DÂN CA VIỆT NAM ................. 56
2.1 Bộ dữ liệu âm nhạc Chèo và Quan họ ................................................................... 56
2.2 Một số phương pháp tăng cường dữ liệu ............................................................... 58
2.2.1 Chia đôi các file dữ liệu âm nhạc .............................................................. 59
2.2.2 Tạo tiếng vọng (creating echo) ................................................................. 59
2.2.3 Cộng nhiễu trắng (adding white noise) ..................................................... 59
2.2.4 Thay đổi cao độ (changing pitch) ............................................................. 60
2.3 Phân lớp, định danh một số làn điệu dân ca Việt Nam dùng một số thuật toán học
máy truyền thống ........................................................................................................... 61
2.3.1 Trường hợp 1: Định danh một số làn điệu Quan họ dùng một số mô hình
truyền thống thuộc bộ công cụ WEKA .............................................................. 61
2.3.2 Trường hợp 2: Định danh một số làn điệu Quan họ dùng GMM ............. 64
2.3.3 Trường hợp 3: Phân lớp, định danh Chèo và Quan họ ............................. 66
2.3.4 Trường hợp 4: Phân lớp Chèo và Quan họ ............................................... 69
2.3.5 Trường hợp 5: Định danh Chèo hoặc Quan họ ......................................... 72
2.3.6 Trường hợp 6: Định danh Chèo và Quan họ dùng i-vector ...................... 75
2.4 Phân lớp và định danh một số làn điệu dân ca Việt Nam dùng học sâu .............. 77
2.4.1 Bộ dữ liệu và tham số sử dụng .................................................................. 77
2.4.2 Các mạng nơ-ron sâu dùng trong nghiên cứu ........................................... 78
2.4.3 Kết quả nghiên cứu phân lớp và định danh .............................................. 84
2.5 Kết chương 2 ........................................................................................................... 88
Chương 3. PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT,
GTZAN VÀ FMA DÙNG HỌC SÂU ..................................................................... 89
3.1 Các độ đo Accuracy, Precision, Recall và f1-score .............................................. 89
3.2 Phân lớp nhạc Việt dùng RAN (Residual Attention Network) ............................ 90
3.3 Nghiên cứu phân lớp thể loại âm nhạc đối với các bộ dữ liệu GTZAN và
FMA_SMALL ............................................................................................................... 93
3.3.1 Nghiên cứu phân lớp đối với GTZAN ...................................................... 93
3.3.3 Nghiên cứu phân lớp đối với FMA_SMALL ......................................... 102
3.4 Kết chương 3 ......................................................................................................... 108
5
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN .................................................. 110
1. Kết luận ........................................................................................................ 110
2. Định hướng phát triển .................................................................................. 111
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ................. 113
TÀI LIỆU THAM KHẢO ...................................................................................... 114
6
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết đầy đủ Ý nghĩa
ANN Artificial Neural Network Mạng nơ-ron nhân tạo
CNN Convolutional Neural Networks Mạng nơ-ron lấy chập
CRNN
Convolutional Recurrent Neural
Networks
Mạng nơ-ron hồi quy lấy chập
CSN Capsule Neural Networks Mạng nơ-ron viên nang
DCNN
Deep Convolutional Neural
Networks
Mạng nơ-ron lấy chập sâu
ELU Exponential Linear Unit
Đơn vị kích hoạt tuyến tính và
hàm mũ
GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss
k-NN k- Nearest Neighbor
Bộ phân lớp k- láng giềng gần
nhất
MFCC
Mel Frequency Cepstral
Coefficients
Các hệ số Cepstrum theo thang
tần số Mel
MGC Music Genre Classification Phân lớp thể loại âm nhạc
MIR Music Information Retrieval Truy xuất thông tin âm nhạc
ReLU Rectified Linear Unit Đơn vị chỉnh lưu tuyến tính
SMO
Sequential Minimal
Optimization
Thuật toán tối ưu hóa tối thiểu
tuần tự
SVM Support Vector Machine Máy vector hỗ trợ
UBM Universal Background Model Mô hình nền phổ quát
DFT Discrete Fourier Transforms Biến đổi Fourier rời rạc
MSE Mean Square for Error Trung bình bình phương lỗi
EM Expectation Maximization Cực đại hóa kỳ vọng
ML Maximum-Likelihood Cực đại khả hiện
7
DANH MỤC CÁC BẢNG
Bảng 1.1 So sánh giữa các kỹ thuật hát Chèo và hát Quan họ (nguồn: [77]) .......... 30
Bảng 1.2 Một số bộ dữ liệu âm nhạc điển hình theo thể loại ................................... 35
Bảng 1.3 Một số hàm kích hoạt thường dùng (nguồn: [89]) .................................... 39
Bảng 1.4 Thời gian và địa điểm tổ chức ISMIR hàng năm (nguồn: [38]) ............... 49
Bảng 1.5 Tóm tắt một số kết quả nghiên cứu nổi bật về MGC trên GTZAN .......... 50
Bảng 1.6 Tóm tắt một số kết quả nghiên cứu nổi bật về MGC trên FMA_SMALL 52
Bảng 2.1 Ký hiệu các làn điệu Chèo và Quan họ dùng cho bộ dữ liệu .................... 57
Bảng 2.2 Các trường hợp phân lớp và định danh ..................................................... 61
Bảng 2.3 Tỷ lệ (%) định danh đúng dùng SMO ....................................................... 62
Bảng 2.4 Tỷ lệ (%) định danh đúng dùng MultiLayer Perceptron ........................... 63
Bảng 2.5 Tỷ lệ (%) định danh đúng dùng MultiClass Classifier ............................. 63
Bảng 2.6 Tổng hợp kết quả định danh...................................................................... 63
Bảng 2.7 Ma trận nhầm lẫn với M = 16 trên 2 bộ tham số ...................................... 64
Bảng 2.8 Ma trận nhầm lẫn với M = 8192 trên 2 bộ tham số .................................. 65
Bảng 2.9 Ma trận nhầm lẫn trong định danh làn điệu Chèo với M = 16 .................. 67
Bảng 2.10 Ma trận nhầm lẫn trong định danh làn điệu Quan họ với M = 16 .......... 67
Bảng 2.11 Ma trận nhầm lẫn trong định danh làn điệu Chèo với M = 4096............ 68
Bảng 2.12 Ma trận nhầm lẫn trong định danh làn điệu Quan họ với M = 4096 ...... 68
Bảng 2.13 Các bộ tham số sử dụng .......................................................................... 70
Bảng 2.14 Các bộ tham số dùng trong nghiên cứu................................................... 78
Bảng 2.15 Các tham số của CNN dùng trong trường hợp phân lớp ........................ 79
Bảng 2.16a Các tham số của LSTM-1 dùng trong định danh .................................. 80
Bảng 2.16b Các tham số của LSTM-2 dùng trong định danh .................................. 81
Bảng 2.17a Các tham số của CRNN-1 dùng trong phân lớp.................................... 83
Bảng 2.17b Các tham số của CRNN-2 dùng trong định danh ................................. 83
Bảng 2.18 Tổng hợp kết quả phân lớp Chèo và Quan họ với 2 bộ tham số ............. 85
Bảng 2.19 Tổng hợp kết quả định danh trên bộ dữ liệu Quan họ ............................ 85
Bảng 2.20 Tổng hợp kết quả định danh trên bộ dữ liệu Chèo .................................. 86
Bảng 2.21 Chênh lệch về tỷ lệ định danh đúng của CNN so với 2 mô hình còn lại 87
Bảng 3.1 Độ chính xác của phân loại ảnh phổ trên tập xác thực ............................. 92
Bảng 3.2 Độ chính xác của tập xác thực cho mỗi lần huấn luyện với fold_ext ....... 92
Bảng 3.3 Độ chính xác của tập xác thực trên ảnh phổ và trên file âm thanh ........... 93
Bảng 3.4 Số lượng từng thể loại nhạc trong bộ dữ liệu GTZAN [24] ..................... 94
Bảng 3.5 Cấu hình của CNN với 300 tham số ......................................................... 94
8
Bảng 3.6 Cấu hình của LSTM với 300 tham số ....................................................... 95
Bảng 3.7 Cấu hình của GRU với 300 tham số ......................................................... 95
Bảng 3.8 Cấu hình của CSN với 300 tham số .......................................................... 96
Bảng 3.9 Mô tả các bộ dữ liệu được sử dụng trong nghiên cứu .............................. 96
Bảng 3.10: Kết quả phân lớp trên tập dữ liệu S2n1 ................................................. 97
Bảng 3.11 Trung bình độ chính xác, AUC của LSTM, CNN, GRU, CSN trên S7 100
Bảng 3.12: Kết quả phân lớp trên tập dữ liệu S8 và S9 ......................................... 100
Bảng 3.13: Kết quả phân lớp trên tập dữ liệu S0, S1, S2n2, S2n3 ......................... 101
Bảng 3.14: Kết quả phân lớp trên tập dữ liệu S2n2 và S2n3 dùng GRU ............... 101
Bảng 3.15 Diễn giải các bộ dữ liệu sử dụng ........................................................... 103
Bảng 3.16: Kết quả phân lớp trên tập dữ liệu S4fH và S4fL dùng DensetNet169 104
Bảng 3.17: Kết quả phân lớp trên tập dữ liệu S4fL ................................................ 104
Bảng 3.18: Kết quả phân lớp trên tập dữ liệu S3e, S2 và S1 ................................. 106
Bảng 3.19: Kết quả phân lớp trên tập dữ liệu S3s, S5s và S5t ............................... 107
Bảng 3.20 Thời gian trung bình để huấn luyện một epoch và thời gian để hàm tổn thất
hội tụ ....................................................................................................................... 108
9
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Minh hoạ phân phối Skewness ................................................................. 19
Hình 1.2 Minh hoạ phân bố Kurtosis ....................................................................... 19
Hình 1.3 Năng lượng và RMS của một làn điệu Chèo ............................................ 20
Hình 1.4 ZCR của một làn điệu Chèo ...................................................................... 20
Hình 1.5 Các bước tính các hệ số MFCC ................................................................ 21
Hình 1.6 Các hệ số MFCC và các đạo hàm MFCC của một làn điệu Chèo ............ 22
Hình 1.7 Spectral Centroid của một làn điệu Chèo và Quan họ .............................. 22
Hình 1.8 Spectral Contrast của một làn điệu Quan họ và Chèo .............................. 23
Hình 1.9 Spectral Rolloff của một làn điệu Chèo và Quan họ ................................ 23
Hình 1.10 Spectral Bandwidth của một làn điệu Chèo và Quan họ ........................ 24
Hình 1.11 Spectral Flux của một làn điệu Quan họ ................................................. 24
Hình 1.12 Sơ đồ chung cho hệ thống phân lớp thể loại âm nhạc (nguồn: [22]) ...... 34
Hình 1.13 Hình ảnh dữ liệu, đường biên và lề trong SVM ..................................... 36
Hình 1.14 Phân bố Gauss với một số giá trị của 𝜇 và 𝜎 .......................................... 36
Hình 1.15 Phân bố Gauss đa thể hiện là tổ hợp của 3 phân bố Gauss đơn thể hiện 37
Hình 1.16a Cấu trúc của một nơ-ron sinh học (nguồn: [88]) .................................. 38
Hình 1.16b Cấu trúc của một nơ-ron nhân tạo ........................................................ 38
Hình 1.17 Minh hoạ cách lấy chập khi áp bộ lọc lên ma trận đầu vào .................... 41
Hình 1.18 Minh hoạ thao tác pooling sử dụng max-pooling ................................... 42
Hình 1.19 Gated Recurrent Unit (nguồn: [103]) ..................................................... 43
Hình 1.20 Sơ đồ của Residual Block với hàm ReLU .............................................. 44
Hình 1.21 Attention module là sự kết hợp của Soft mask branch và Trunk branch 44
Hình 1.22 Soft mask branch sử dụng trong Attention module ................................ 45
Hình 1.23 Kiến trúc DenseNet với 3 khối Dense .................................................... 46
Hình 1.24 Mạng CSN gồm M capsule ở mức cao và N capsule ở mức thấp .......... 47
Hình 1.25 Dạng sóng và phổ Mel tương ứng cho một trích đoạn của file
blues.00011.wav của thể loại nhạc Blue. ................................................................. 48
Hình 1.26 Thống kê số lượng bài báo có trích dẫn đến [24] ................................... 50
Hình 2.1 Minh họa việc chia một file âm thanh thành hai nửa cùng thể loại và phổ
Mel tương ứng .......................................................................................................... 59
Hình 2.2 Tiếng vọng được quan sát ở phần cuối của file âm thanh ........................ 59
Hình 2.3 Cách tính SNR của một file và giá trị trung bình của SNR ...................... 60
Hình 2.4 Minh hoạ việc dịch chuyển cao độ lên nửa cung và một cung ................. 60
Hình 2.5 Kết quả định danh dùng GMM với số thành phần Gauss M = 16 8192 65
10
Hình 2.6 Tỷ lệ nhận dạng đúng trong phân lớp sơ bộ ............................................. 66
Hình 2.7 Tổng hợp kết quả phân lớp chi tiết với M = 16 4096 ............................ 69
Hình 2.8 Sơ đồ phân lớp Chèo và Quan họ trên toàn bộ tập dữ liệu ....................... 70
Hình 2.9 Tỷ lệ phân lớp tương ứng với 4 bộ tham số trên dữ liệu Quan họ............ 70
Hình 2.10 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Quan họ 71
Hình 2.11 Tỷ lệ phân lớp tương ứng với 4 bộ tham số trên dữ liệu Chèo ............... 71
Hình 2.12 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Chèo ...... 72
Hình 2.13 Sơ đồ định danh Chèo và Quan họ dựa trên trích đoạn ngắn ................. 72
Hình 2.14 Tỷ lệ định danh đúng của các trích đoạn Chèo ứng với 3 giá trị của M . 73
Hình 2.15 Tỷ lệ định danh đúng của các trích đoạn Quan họ với 3 giá trị của M ... 75
Hình 2.16 So sánh tỷ lệ định danh đúng trung bình của PLDA, SphNormPLDA sử
dụng i-vector với GMM sử dụng bộ tham số S1 trên tập dữ liệu Chèo ................... 76
Hình 2.17 So sánh tỷ lệ định danh đúng trung bình của PLDA, SphNormPLDA sử
dụng i-vector với GMM sử dụng bộ tham số S1 trên tập dữ liệu Quan họ .............. 76
Hình 2.18 Cấu hình của mô hình CNN với 157 tham số dùng trong định danh ..... 80
Hình 2.19 Cấu hình của LSTM với 183 tham số dùng trong định danh ................. 81
Hình 2.20 Cấu hình của CRNN với 157 tham số dùng trong định danh ................. 82
Hình 2.21 Phân chia dữ liệu dùng cho huấn luyện, xác thực và nhận dạng ............ 84
Hình 2.22 Tổn thất của độ chính xác huấn luyện, xác thực trong phân lớp và định
danh biến thiên theo epoch ....................................................................................... 87
Hình 3.1 Số lượng file tương ứng với mỗi thể loại trong bộ dữ liệu ....................... 90
Hình 3.2 Số lượng ảnh phổ trong tập dữ liệu huấn luyện ........................................ 91
Hình 3.3 Kiến trúc của RAN dùng trong phân lớp thể loại nhạc Việt .................... 91
Hình 3.4 Trung bình độ chính xác phân lớp của các mô hình LSTM, CNN, GRU và
CSN trên bộ dữ liệu S2n1 ........................................................