Ngày nay nhu cầu của con người càng ngày càng lớn hơn. Sựphát triển của
Internet, Google, Yahoo, MSN là những tên tuổi được biết đến trong lĩnh vực cung
cấp dịch vụtìm kiếm tài liệu qua mạng. Với những dịch vụtìm kiếm tài liệu qua
mạng. Với những dịch vụnày người dùng có thểtìm kiếm các tài liệu, hình ảnh, video,
hay những tài nguyên khác có trên Internet qua từkhóa. Cho đến nay, phương pháp
tìm kiếm bằng từkhóa vẫn là phương pháp chủ đạo trong các hệthống truy vấn thông
tin và tìm kiếm dữliệu. Tuy nhiên, phương pháp này cũng thểhiện những hạn chếvà
khảnăng ứng dụng của nó trong loại dữliệu không phải là văn bản. Với dữliệu hình
ảnh, việc tìm kiếm phụthuộc rất nhiều vào việc gán nhãn cho hình ảnh trong dữliệu.
Phương pháp này xa rời với bản chất của hình ảnh là màu sắc và đường nét. Trong âm
nhạc, phương pháp này cũng tỏra những mặt hạn chếcủa nó. Bản chất của âm nhạc là
giai điệu, nhưng hầu hết các từkhóa không thểhiện được tính chất này của bản nhạc.
Tìm kiếm dựa vào thông tin nhạc sĩ, ca sĩvà lời bài hát là những ứng dụng chính
trong truy vấn thông tin âm nhạc hiện nay.Tưởng tượng rằng khi bạn đang nghe một
bài hát nào đó và rất thích nó và bạn muốn nghe lại nó. Nhưng bạn không biết tên bài
hát hay tên tác giảcủa nó. Bạn bắt đầu hỏi bạn bè của bạn, ngân nga giai điệu đó lên.
Không có một ai biết đểgiúp bạn, bởi vậy bạn sẽrơi vào bếtắc. Vì vậy phát sinh ra
máy tìm kiếm âm nhạc nhưhệthống QBH nhưvậy đểthỏa mãn nhu cầu của con
người. Hệthống giúp người dùng tìm kiếm dễdàng hơn dựa trên giai điệu được hát
hay ngân nga từngười dùng.
58 trang |
Chia sẻ: ngtr9097 | Lượt xem: 2533 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận văn Thiết kế hệ thống nhận dạng các dạng âm thanh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
Lời cảm ơn
Trước hết chúng em xin bày tỏ lời cảm ơn chân thành và sâu sắc nhất đến TS. Nguyễn
Hải Châu, người thầy đã hướng dẫn em trong đề tài này. Đây là đề tài mới và nhiều khó khăn
nhưng nhờ sự động viên và hướng dẫn nhiệt tình của thầy em đã có kết quả như hôm nay.
Em xin gửi lời cảm ơn chân thành đến các thầy cô trong khoa CNTT - Trường Đại
học Công Nghệ vì những kiến thức quý báu mà các thầy cô đã truyền dạy trong bốn năm vừa
qua. Những kiến thức này có giá trị đối với chúng em trong quá trình thực hiện luận văn,
cũng như trong quá trình xây dựng sự nghiệp trong tương lại.
Cảm ơn bạn bè đã luôn bên cạnh giúp đỡ hướng dẫn tôi trong quá trình nghiên cứu,
tìm hiểu khóa luận này.
Cuối cùng con xin cảm ơn bố mẹ và các anh chị đã luôn động viên giúp đỡ con vượt
qua những khó khăn để hoàn thành khóa luận này.
Mặc dù đã rất cố gắng tập trung nghiên cứu khóa luận song sẽ không tránh khỏi
những thiếu sót mong các thầy cô thông cảm.
Chân thành cảm ơn
2
Tóm tắt
Trong luận văn này chúng tôi xin trình bày những hiểu biết của mình về những
vấn đề sau đây:
• Rút trích đặc trưng về giai điệu từ một đoạn thu âm của người dùng
• Biểu diễn đặc trưng giai điệu phù hợp cho quá trình tìm kiếm
• Phương pháp tìm kiếm hay truy vấn giai điệu mong muốn trong cơ sở
dữ liệu trên đặc trưng đã chọn
Âm thanh truy vấn được thu âm từ người sử dụng sẽ được rút trích đường biểu
diễn cao độ (pitch sequence) hay còn gọi là tần số cơ bản f0. Chuổi cao độ sẽ được
dùng để tính đặc trưng đường biên giai điệu và đặc trưng này sẽ được dùng trong quá
trình tìm kiếm với phương pháp Dynamic Time Warping (DTW)
Khóa luận tốt nghiệp này được thực hiện trong khuôn khổ đề tài nghiên cứu
mang mã số QC.08.01, Đại học Quốc gia Hà Nôi.
3
Mục lục
Danh mục hình vẽ
Danh mục các từ viết tắt
4
Từ viết tắt Tiếng anh Tiếng việt
QBH Query by humming Truy vấn bởi giai điệu
SIFT Simple inverser filter tracking Bộ lọc nghịch đảo đơn giản
ACF Autocorrelation function Hàm tự tương đồng
DNA Deoxyribo Nucleic Acid Chuỗi axit
HMM Hidden Markov Model Phương pháp ẩn Markov
MMDBMS Multimedia Database
Management Systems
Các hệ thống quản lý cơ sở dữ liệu
đa phương tiện
MELDEX Melody Index Chỉ mục giai điệu
DTW Dynamic Time Warping Thuật toán thời gian động Warping
KNN K-nearist neighbour K- hàng xóm gần nhất
MIDI Musical Instrument
Digital Interface
Giao diện kỹ thuật số dành cho nhạc
cụ
CSDL Database Cơ sở dữ liệu
RA Recursive Alignment Thuật toán đệ quy
MSN Microsoft Network Dịch vụ Internet cung cấp bởi Microsoft
QBSH Query by Singing/Humming Truy xuất bởi giai điệu và lời hát
MaART Musical and Audio Retrieval tools Công cụ tìm kiếm nhạc
MIR Muscal Information Retrieval Hệ thống tìm kiếm âm nhạc
5
LỜI MỞ ĐẦU
Ngày nay nhu cầu của con người càng ngày càng lớn hơn. Sự phát triển của
Internet, Google, Yahoo, MSN… là những tên tuổi được biết đến trong lĩnh vực cung
cấp dịch vụ tìm kiếm tài liệu qua mạng. Với những dịch vụ tìm kiếm tài liệu qua
mạng. Với những dịch vụ này người dùng có thể tìm kiếm các tài liệu, hình ảnh, video,
hay những tài nguyên khác có trên Internet qua từ khóa. Cho đến nay, phương pháp
tìm kiếm bằng từ khóa vẫn là phương pháp chủ đạo trong các hệ thống truy vấn thông
tin và tìm kiếm dữ liệu. Tuy nhiên, phương pháp này cũng thể hiện những hạn chế và
khả năng ứng dụng của nó trong loại dữ liệu không phải là văn bản. Với dữ liệu hình
ảnh, việc tìm kiếm phụ thuộc rất nhiều vào việc gán nhãn cho hình ảnh trong dữ liệu.
Phương pháp này xa rời với bản chất của hình ảnh là màu sắc và đường nét. Trong âm
nhạc, phương pháp này cũng tỏ ra những mặt hạn chế của nó. Bản chất của âm nhạc là
giai điệu, nhưng hầu hết các từ khóa không thể hiện được tính chất này của bản nhạc.
Tìm kiếm dựa vào thông tin nhạc sĩ, ca sĩ và lời bài hát là những ứng dụng chính
trong truy vấn thông tin âm nhạc hiện nay.Tưởng tượng rằng khi bạn đang nghe một
bài hát nào đó và rất thích nó và bạn muốn nghe lại nó. Nhưng bạn không biết tên bài
hát hay tên tác giả của nó. Bạn bắt đầu hỏi bạn bè của bạn, ngân nga giai điệu đó lên.
Không có một ai biết để giúp bạn, bởi vậy bạn sẽ rơi vào bế tắc. Vì vậy phát sinh ra
máy tìm kiếm âm nhạc như hệ thống QBH như vậy để thỏa mãn nhu cầu của con
người. Hệ thống giúp người dùng tìm kiếm dễ dàng hơn dựa trên giai điệu được hát
hay ngân nga từ người dùng.
Trong luận văn này tôi sẽ trình bày những hiểu biết của mình về một hệ
thống tìm kiếm âm thanh dựa vào giai điệu được hát ngân nga (humming) từ người
dùng. Đề tài:”Hệ thống tìm kiếm âm thanh QBH trong cơ sở dữ liệu đa phương tiện
và ứng dụng”
Chương 1 Giới thiệu về hệ thống tìm kiếm âm thanh
Chương 2 Các vấn dề nghiên cứu liên quan
Chương 3 Hệ thống truy vấn âm nhạc qua giọng hát
Chương 4 Thực nghiệm, kết quả và hướng phát triển tìm kiếm âm nhạc
6
Chương 1. GIỚI THIỆU VỀ HỆ THỐNG QUERY BY HUMMING (QBH)
1.1 Giới thiệu
Hệ thống truy vấn Query by Humming (QBH) là một hệ thống được phát triển
dựa trên nền một hệ thống cơ bản gọi là MIR (Music information retrieval). Mục đích
của hệ thống MIR để xử lý thông tin âm nhạc và tìm kiếm cơ sở dữ liệu âm nhạc bởi
nội dung. MIR là một hệ thống bao gồm nhiều ngành khoa học nghiên cứu về việc
truy xuất thông tin từ âm nhạc. Bao gồm:
• Các phương pháp tính toán cho việc phân lớp, lấy mẫu, phân cụm – sự trích
chọn đặc trưng nhạc với dạng đơn và đa âm, việc ghép nối, lấy mẫu tương tự,
và sự truy xuất.
• Theo các phương pháp và cơ sở dữ liệu thông thường, những ứng dụng của
việc phát hiện và nhận dạng âm nhạc một cách tự động, phần nhạc đệm tự
động, sự định tuyến và lọc cho các bản nhạc và các truy vấn nhạc, ngôn ngữ
truy vấn, các chuẩn và siêu dữ liệu khác hoặc các giao thức cho việc xử lý và
truy xuất nhạc, các hệ thống đa xử lý và sự phân bổ tìm kiếm
• Phần mềm cho MIR là các trang web có ý nghĩa các chủ đề nhạc số, các
phương thức thông minh, các phần mềm cộng tác liên quan, tìm kiếm cơ bản
trên web và sự truy xuất có ý nghĩa (semantic retrieval), tìm kiếm bởi giai điệu
(QBH), nhận dạng âm thanh (acoustic fingerprinting).
• Sự nhận dạng bản nhạc, sự hiểu biết, sự ảnh hưởng và các cảm xúc – các chuẩn
đo độ tương tự âm nhạc, các tham biến có cú pháp, các tham biến có ý nghĩa,
các mẫu nhạc, cấu trúc, kiểu và thể loại, các phương pháp luận giải thích về âm
nhạc
• Sự phân tích âm nhạc và trình bày các kiến thức tổng kết tự đông, trích dẫn, sự
xuống cấp, sự chuyển đổi, các mẫu hình thức của âm nhạc, các khía cạnh về số
hóa và những đặc trưng, chỉ mục âm nhạc và siêu dữ liệu. Phân tích lý thuyết
vo hướng âm nhạc là một sự bổ sung cho sự tìm kiếm âm nhạc MIR với những
từ khóa và quy mô của tín hiệu âm nhạc mù là một sự theo đuổi không bình
thường.
7
Sau đây chúng ta cùng tìm hiểu về phương pháp tìm kiếm âm nhạc dựa vào giai
điệu qua hệ thống QBH dưới đây.
1.2 Cấu trúc của hệ thống Query by humming (QBH)
QBH (Query by humming) là một hệ thống truy vấn dựa trên nền tảng cơ bản
về nội dung của hệ thống tìm kiếm âm nhạc MIR [phần 1.1 ở trên]. Hệ thống truy vấn
thông tin âm nhạc sẽ nhận thông tin giai điệu truy vấn từ người dùng và trích xuất
thông tin đặc trưng cần thiết của giai điệu. Đặc trưng giai điệu sẽ được đem so sánh
với những đặc trưng giai điệu có sẵn trong cơ sở dữ liệu. Hệ thống trả về danh sách
các bài hát có giai điệu tương đồng, được sắp xếp theo thứ tự nhất định. [5, 6, 11]
Ta thấy, hệ thống cần những phần xử lý như sau. [Xem chi tiết Hình 1]
• Xử lý tín hiệu truy vấn từ người dùng: Nhận giai điệu truy vấn từ người dùng
và rút trích đặc trưng thích hợp
• Biểu diễn đặc trưng: thông tin giai điệu của bài hát trong cơ dữ liệu cũng như
trong tín hiệu truy vấn được biểu diễn dưới dạng thích hợp để sử dụng trong
quá trình tìm kiếm.
• Tìm kiếm (Matching module): Đặc trưng giai điệu được đem so sánh với các
đặc trưng có sẵn trong cơ sở dữ liệu. Trong quá trình xử lý này, điểm đánh giá
đọ tương đồng sẽ được tính cho các bài hát. Kết quả trả về sẽ là một danh sách
có thứ tự các bài hát trong cơ sở dữ liệu.
Mô hình đơn giản của một hệ thống truy vấn thông tin âm nhạc dựa trên giai điệu
được biểu diễn hình dưới đây:
8
Hình 1: Mô hình hệ thống truy vấn thông tin âm nhạc bằng giọng hát hoặc giai điệu
Có những hệ thống lại được cấu tạo khác đôi chút giống như hệ thống Sloud
QBH cơ bản dựa theo cấu trúc cơ bản của hệ thống QBH ở trên nhưng có phần khác:
Cấu trúc của một hệ thống tìm kiếm Sloud QBH bao gồm hai phần là khách và phần
chủ - bao gồm các cơ sở dữ liệu các giai điệu. [5]
9 Phần khách của máy là một giao diện web nhận dạng và định vị trí các nốt của
một giai điệu được huýt sáo vào. Phần này dùng để chuyển đổi một truy vấn
sang định dạng mà cho phép việc tìm kiếm trở nên thiết thực.
9 Phần chủ có nhiệm vụ nối truy vấn mà được đưa đến với các đoạn giai điệu
trong cơ sở dữ liệu để trả về kết quả cho người dùng.
9 Sơ đồ minh họa như sau :
9
Hình 2: Sơ đồ máy tìm kiếm QBH khác
Máy tìm kiếm QBH thực hiện những chức năng sau:
a. Cung cấp âm thanh được “hum” vào dưới dạng MIDI, ví dụ nhận dạng cao
độ và thời gian mà các note được hum vào.
b. Cung cấp sự biểu thị của việc nhận dạng đường viền cao độ trong khi đang
hát trong thời gian thực;
c. Cho phép chơi lại giai điệu nhận dạng, biến đổi trong MIDI, trước khi đưa ra
truy vấn
d. Tạo chỉ mục giai điệu và gửi một truy vấn đến mạng chủ Sloud QBH
e. Cung cấp việc bố trí các đại diện các note tìm kiếm và kết kết quả trả về [5]
10
1.3 Những ảnh hưởng đến việc tìm kiếm chính xác và hiệu quả [6]
1.3.1 Người không thể đưa ra một truy vấn hoàn hảo
Dù là người dùng có trí nhớ hoàn hảo về từng giai điệu khác nhau, người đó có
thể bắt đầu tại một khóa sai hoặc là có thể truy vấn nhiều nốt tắt cao độ ở trên khắp
giai điệu. Thỉnh thoảng có thể bỏ rơi vài nối hoặc thêm vào vài nốt mà nó không tồn
tại trong giai điệu bình thường. Thêm vào đó, không người dùng nào mong đợi có thể
hát hoàn hảo đúng nhịp điệu như bài hát chứa trong cơ sở dữ liệu. Cuối cùng, bởi vậy
không ai chấp nhận các khác một cách qua lại một truy vấn hum vào có thế chứa bất
kỳ một sự kết hợp của các nối này.
1.3.2 Bắt chính xác cao độ và các nốt từ việc ngân nga giai điệu của người dùng
Việc bắt chính xác cao độ và trường độ từ truy vấn của người dùng đưa vào thì
rất khó thực hiện.
1.3.3 Thu vào thông tin giai điệu từ một file nhạc ghi.
Khó để thực hiện điều này vì việc đưa ra một cách đúng đắn giai điệu từ một
bài hát được đưa ra là một trường nghiên cứu trên bản thân nó nhưng hoàn toàn chỉ
trích bởi một truy vấn chính xác bởi CSDL. Tạo một truy vấn hoàn hảo sẽ ít dùng nếu
cơ sở dữ liệu chứa những đại diện không chính xác của các bài hát. [6]
1.4 Những thách thử chính [8]
1.4.1 Sắp xếp một tập dữ liệu thích hợp cho bài
Các tập hợp âm nhạc có thể được chia ra một cách ngắn gọn thành hai loại:
những cái mà cung cấp các bài hát hoặc các phần nhỏ của bài hát như là các âm thanh
số, cái mà ghi lại dưới dạng sóng, và những phần cung cấp chúng như là việc sao chép
các chuỗi của những trường hợp riêng biệt ví dụ như các note (với cao độ và trường
độ) và các dấu lặng.Thật khó trong việc sắp xếp bao hàm nhiều khía cạnh, chất lượng
cao, tổ chức tốt các tập hợp nhạc chính xác.
1.4.2 Sao chép lời hát thành các nốt
Khi người dùng hát hoặc huýt sáo đưa vào các giai điệu thì việc chuyển đổi
chúng thành các nốt thì đang là vấn đề bởi vì người dùng được phép ghi lại giai điệu
11
bất cứ cách nào họ thích, với việc không thắt chặt các yêu cầu với họ thường thì có
vài vấn đề xảy ra trong việc ghi lại chúng là:
• Tiếng ồn bên ngoài vượt mức
• Giai điệu lệch lạc
• Sự thổi, huýt ngoài micro, là nguyên nhân những tiếng gió ồn che mất
những giai điệu đưa vào
• Hát với giai điệu thay vì những nốt thuần túy
• Hát với âm thanh thay đổi
• Hát quá nhanh
• Âm lượng ghi thấp
• Việc thu phức điệu (như là sự chơi trên piano hoặc guitar )
• Các nốt được hát , chơi với âm lượng khác nhau khá lớn
• Sự xen kẽ giữa việc hát, huýt sáo, giữa việc hát và humming…
Rất nhiều vấn đề nghe được trong quá trình ghi vì vậy việc xử lý âm thanh đầu vào rất
phức tạp.
1.4.3 Việc ghép nối giai điệu truy vấn với cơ sở dữ liệu:
Đầu tiên chúng ta định nghĩa vài thuật ngữ. Chúng ta định nghĩa một điệu hát
bao gồm có giai điệu và nhịp điệu với một chuỗi các note ví dụ như một đoạn giai
điệu thì là một cặp của các chuỗi có độ dài bằng nhau, một chuỗi biểu thị cao độ của
mỗi nốt và trường độ của mỗi nốt.Giai điệu mà người dùng đưa vào được gọi là truy
vấn và một điệu nhạc đưa ra trong tập dữ liệu âm nhạc được gọi là điệu nhạc kết quả.
Việc xử lý của việc tìm kiếm một giai điệu kết quả mà giống nhất với giai điệu truy
vấn được gọi là thuật toán tìm kiếm và ghép nối xấp xỉ hoặc ghép chính xác, trong các
trường hợp mà các lỗi được hoặc ko được giải thích, một cách tương ứng. Phần trung
tâm của hệ thống là thuật toán ghép nối. Nó thì khó bởi nó cần được giải thích các lỗi
và xử lý chúng.
Xử lý việc sao chép từ âm thanh ghi lại thành một chuỗi các nốt:
12
• Các nốt bị sai (Các nốt biểu thị trong bản ghi nhưng không tìm ra bởi
thuật toán sao chép)
• Sai vị trí (các nốt trong bản ghi được định dạng sai)
• Những nốt tắt bởi một nửa cung (định vị cao độ một cách không chính
xác)
• Sự chèn vào (một nốt lạ được chèn vào bởi một sự cố nào đó)
• Sự xóa (Một nốt bị nhầm, trễ hoặc thiếu)
• Sao chép (người hát vào thay đổi việc sao chép tại vài điểm trong truy
vấn, tạo nên một chuỗi nhỏ các nốt truy vấn cao hơn hoặc thấp hơn các
nốt kết quả)
Giai điệu thay đổi
Người hát có thể thay đổi một phần của giai điệu truy vấn tương tự với sự
chuyển giọng
Không tích lũy các nốt cục bộ
Một nốt riêng có thể hát không có cao độ hoặc có thể quá dài hoặc quá ngắn.
Điều này khác với việc sao chép và thay đổi giai điệu trong mà chỉ một nốt
riêng đó bị ảnh hưởng
Tích lũy các nốt cục bộ
Một lỗi cục bộ mà ảnh hưởng đến chuỗi nhỏ các nốt, ví dụ như một nốt quá là
nguyên nhân nốt sau quá ngắn trong việc thử của mọi người để thu được nhịp
điệu đúng.
Có hai cách cơ bản đi đến việc tìm kiếm cho một giai điệu trong một tập cơ sở dữ liệu
các bài hát. Một là chúng ta so sánh giai điệu truy vấn với mỗi phần có thể của giai
điệu trong bài hát (giai điệu bắt đầu tại mỗi nốt trong mỗi bài hát,việc làm cơ bản số
lượng các nốt xấp xỉ bằng với số các nốt và lớn hơn nó nếu chúng ta cho phép biến
đổi và chuyển đổi của các nốt) hoặc chúng ta chuẩn bị chỉ mục cho tất cả các nốt này
và dùng chỉ mục đó để định vị một cách nhanh chóng giai điệu mà chúng ta đang tìm
kiếm. Xem [5]
13
1.5 Các hệ thống truy vấn thông tin âm nhạc hiện nay
Việc truy vấn thông tin âm nhạc hiện nay đã trở nên ngày càng phổ biến.
Những hệ thống truy vấn thông tin liên quan đến âm nhạc trước đây được
phát triển theo hướng cho những người có hiểu biết về âm nhạc dùng để phân tích
những tác phẩm âm nhạc. Trong khi đó, những hệ thống gần đây lại hướng đến ngƣời
dùng thông thường và mang tính thương mại; nhiều ứng dụng có giao thức Web. Truy
vấn bằng giọng hát là một phương pháp gần gũi với người dùng thông thường
trong các phương pháp truy vấn thông tin âm nhạc. Trong những hệ thống này, một
đoạn thu âm của giọng hát hay ngân nga từ người dùng sẽ được biến đổi và bài hát có
thông tin tương ứng với đoạn thu âm sẽ được trả về từ cơ sở dữ liệu. Các kết quả sẽ
được sắp xếp theo thứ tự dựa trên tính gần giống với bản thu âm của mẫu truy
vấn (xem Hình 1). Hệ thống phải xử lý để chấp nhận những lỗi từ việc hát không
chính xác hoặc nhớ không chính xác giai điệu cũng nhận lỗi từ việc rút trích đặc trưng
của mẫu âm thanh truy vấn. Trong phần này, chúng ta sẽ xem xét một vài hệ
thống truy vấn âm nhạc và những đề tài nghiên cứu có liên quan. Xem trong
[Chương 5 của 16]
1.5.1 Shazam
Hiện nay, trong nước chưa có đề tài nghiên cứu nào về truy vấn thông
tin âm nhạc được công bố rộng rãi.Shazam ( là một
ứng dụng dùng để nhận dạng bản thu âm thông qua hệ thống mạng điện thoại di
động. Người dùng có điện thoại di động có thể sử dụng dịch vụ này ở khắp mọi nơi có
tiếng nhạc. Đây là dịch vụ thương mại kèm theo việc bán các tác phẩm âm nhạc số
qua mạng điện thoại di động.
1.5.2 Midomi
Đây là một ứng dụng web cho phép người dùng tìm kiếm bài hát từ một đoạn
giai điệu do chính người dùng hát. Hệ thống hoạt động theo hướng query-to-query
(tìm kiếm những câu truy vấn tương đồng mà kết quả đã biết trước). Dịch vụ tìm kiếm
miễn phí đi kèm với việc bán những bản thu âm qua mạng (dưới dạng MP3 hoặc đĩa
CD). Từ đây hai ứng dụng trên, ta có thể thấy được ý nghĩa thương mại to lớn của
dịch vụ truy vấn âm nhạc. (
14
1.5.3 CatFind
Catfind là một ứng dụng trên internet dùng để tìm kiếm âm nhạc, thực hiện bởi
trường đại học Hồng Kông. Phiên bản đầu tiên của ứng dụng cho phép tìm kiếm theo
đường biên giai điệu hay theo chuỗi những note cho trước (như là Đô-Rê-Mi…). Việc
biểu diễn Đường biên giai điệu được thực hiện bởi các ký kiệu „/‟, „-‟, và „\‟.
Như vậy, bài hát “Happy Birthday” sẽ được biểu diễn thành „-/\/\\-/\/\‟. Hiện tại, hệ
thống không nhận đường biên giai điệu trực tiếp từ người dùng, nhưng vẫn giữ cơ chế
này để tìm kiếm.
1.5.4 Echo
Echo là hệ thống tìm kiếm dựa theo giai điệu từ giọng hát của người dùng. Hệ
thống được phát triển bởi Tomonari Sonada et al, đại học Waseda University, Tokyo.
Pitch tracking được thực hiện tại một chương trình ở máy client, sau đó client sẽ gửi
đặc trưng truy vấn lên máy chủ và nhận về kết quả.
Hệ thống Echo sử dụng hai phương pháp để làm tăng kết quả tìm kiếm.
Phương pháp thứ nhất là sử dụng ngưỡng động để phân lớp pitch contour. Thay vì
chấp nhận xếp vào lớp Up (U) khi giá trị cao độ của note hiện tại lớn hơn giá trị cao
độ của note liền trước, Echo phân tích những bài hát trong cơ sở dữ liệu và xác định
ngưỡng thích hợp. Phương pháp tương tự cũng áp dụng với rhythm contour
Một hướng khác để làm tăng hiệu quả của hệ thống là sử dụng càng
lúc càng nhiều lớp melodic contour để so sánh với cơ sở dữ liệu cho đến khi còn ít
hoặc chỉ một bài trong kết quả. Hệ thống sẽ bắt đầu với 3 lớp pitch contour, sau đó sẽ
tăng lên đến 9lớp, và nếu kết quả vẫn còn quá nhiều bài hát, số lớp pitch contour sẽ
tăng lên đến 27 lớp.
1.5.5 Query by humming
Ghias et al sử dụng đặc trưng melodic pitch contour, nhưng dùng ký tự
S (Same) thay cho ký tự R (Repetition) để biểu diễn giai điệu và đánh giá độ tưong
đồng của các đặc trưng. Cơ sở dữ liệu bao gồm 183 bài hát. Hệ thống hỗ trợ tìm kiếm
tại bất kỳ vị trí nào trong bản nhạc và hỗ trợ file midi đa âm sắc. Tuy nhiên,
15
phần pitch tracking khá chậm và là phần tốn nhiều thời gian nhất trong toàn hệ
thống. Thời gian tìm kiếm sẽ chậm đáng kể nếu như có nhiều bài hát trong cơ sở dữ
liệu. Cũng do nhược điểm của việc hỗ trợ MIDI đa âm sắc, nhiều thông tin
không cần thiết (không phải thông tin giai điệu như tiếng trống, tiếng nhạc cụ
đệm…) vẫn làm tốn thời gian tìm kiếm.
1.5.6 Vocal Search
Hệ thống tìm kiếm trực tuyến được phát triển bởi Bryan Pardo et al (Trường
đại học Northwestern, USA). Nhóm nghiên cứu sử dụng đặc trưng Pitch Interval để
biểu diễn và phương pháp Local String Alignment (tham khảo phần 2.3.4.2) để tìm
kiếm giai điệu. Ứng dụng được xây dựng trên nền Java Applet và cơ sở dữ liệu gồm
những bài hát của ban nhạc The Beatles.
Biểu diễn Pitch Interval được phát triển dựa trên biểu diễn pitch
contour và rhythm contour. Trong đó thay vì phân độ sai khác vào các lớp U, D, R,
pitch interval sử dụng hiệu cao độ (đơn vị semitone) giữa hai note liền kề làm
giá trị cho pitch contour. Rhythm contour được sử dụng như khái niệm nguyên thuỷ
(gồm S, L, và R), nhưng được phân chi tiết làm 5 lớp con. Một Pitch Interval được
đặc trưng bởi ha