Luận văn Thiết kế hệ thống nhận dạng các dạng âm thanh

Ngày nay nhu cầu của con người càng ngày càng lớn hơn. Sựphát triển của Internet, Google, Yahoo, MSN là những tên tuổi được biết đến trong lĩnh vực cung cấp dịch vụtìm kiếm tài liệu qua mạng. Với những dịch vụtìm kiếm tài liệu qua mạng. Với những dịch vụnày người dùng có thểtìm kiếm các tài liệu, hình ảnh, video, hay những tài nguyên khác có trên Internet qua từkhóa. Cho đến nay, phương pháp tìm kiếm bằng từkhóa vẫn là phương pháp chủ đạo trong các hệthống truy vấn thông tin và tìm kiếm dữliệu. Tuy nhiên, phương pháp này cũng thểhiện những hạn chếvà khảnăng ứng dụng của nó trong loại dữliệu không phải là văn bản. Với dữliệu hình ảnh, việc tìm kiếm phụthuộc rất nhiều vào việc gán nhãn cho hình ảnh trong dữliệu. Phương pháp này xa rời với bản chất của hình ảnh là màu sắc và đường nét. Trong âm nhạc, phương pháp này cũng tỏra những mặt hạn chếcủa nó. Bản chất của âm nhạc là giai điệu, nhưng hầu hết các từkhóa không thểhiện được tính chất này của bản nhạc. Tìm kiếm dựa vào thông tin nhạc sĩ, ca sĩvà lời bài hát là những ứng dụng chính trong truy vấn thông tin âm nhạc hiện nay.Tưởng tượng rằng khi bạn đang nghe một bài hát nào đó và rất thích nó và bạn muốn nghe lại nó. Nhưng bạn không biết tên bài hát hay tên tác giảcủa nó. Bạn bắt đầu hỏi bạn bè của bạn, ngân nga giai điệu đó lên. Không có một ai biết đểgiúp bạn, bởi vậy bạn sẽrơi vào bếtắc. Vì vậy phát sinh ra máy tìm kiếm âm nhạc nhưhệthống QBH nhưvậy đểthỏa mãn nhu cầu của con người. Hệthống giúp người dùng tìm kiếm dễdàng hơn dựa trên giai điệu được hát hay ngân nga từngười dùng.

pdf58 trang | Chia sẻ: ngtr9097 | Lượt xem: 2565 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận văn Thiết kế hệ thống nhận dạng các dạng âm thanh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1 Lời cảm ơn Trước hết chúng em xin bày tỏ lời cảm ơn chân thành và sâu sắc nhất đến TS. Nguyễn Hải Châu, người thầy đã hướng dẫn em trong đề tài này. Đây là đề tài mới và nhiều khó khăn nhưng nhờ sự động viên và hướng dẫn nhiệt tình của thầy em đã có kết quả như hôm nay. Em xin gửi lời cảm ơn chân thành đến các thầy cô trong khoa CNTT - Trường Đại học Công Nghệ vì những kiến thức quý báu mà các thầy cô đã truyền dạy trong bốn năm vừa qua. Những kiến thức này có giá trị đối với chúng em trong quá trình thực hiện luận văn, cũng như trong quá trình xây dựng sự nghiệp trong tương lại. Cảm ơn bạn bè đã luôn bên cạnh giúp đỡ hướng dẫn tôi trong quá trình nghiên cứu, tìm hiểu khóa luận này. Cuối cùng con xin cảm ơn bố mẹ và các anh chị đã luôn động viên giúp đỡ con vượt qua những khó khăn để hoàn thành khóa luận này. Mặc dù đã rất cố gắng tập trung nghiên cứu khóa luận song sẽ không tránh khỏi những thiếu sót mong các thầy cô thông cảm. Chân thành cảm ơn 2 Tóm tắt Trong luận văn này chúng tôi xin trình bày những hiểu biết của mình về những vấn đề sau đây: • Rút trích đặc trưng về giai điệu từ một đoạn thu âm của người dùng • Biểu diễn đặc trưng giai điệu phù hợp cho quá trình tìm kiếm • Phương pháp tìm kiếm hay truy vấn giai điệu mong muốn trong cơ sở dữ liệu trên đặc trưng đã chọn Âm thanh truy vấn được thu âm từ người sử dụng sẽ được rút trích đường biểu diễn cao độ (pitch sequence) hay còn gọi là tần số cơ bản f0. Chuổi cao độ sẽ được dùng để tính đặc trưng đường biên giai điệu và đặc trưng này sẽ được dùng trong quá trình tìm kiếm với phương pháp Dynamic Time Warping (DTW) Khóa luận tốt nghiệp này được thực hiện trong khuôn khổ đề tài nghiên cứu mang mã số QC.08.01, Đại học Quốc gia Hà Nôi. 3 Mục lục Danh mục hình vẽ Danh mục các từ viết tắt 4 Từ viết tắt Tiếng anh Tiếng việt QBH Query by humming Truy vấn bởi giai điệu SIFT Simple inverser filter tracking Bộ lọc nghịch đảo đơn giản ACF Autocorrelation function Hàm tự tương đồng DNA Deoxyribo Nucleic Acid Chuỗi axit HMM Hidden Markov Model Phương pháp ẩn Markov MMDBMS Multimedia Database Management Systems Các hệ thống quản lý cơ sở dữ liệu đa phương tiện MELDEX Melody Index Chỉ mục giai điệu DTW Dynamic Time Warping Thuật toán thời gian động Warping KNN K-nearist neighbour K- hàng xóm gần nhất MIDI Musical Instrument Digital Interface Giao diện kỹ thuật số dành cho nhạc cụ CSDL Database Cơ sở dữ liệu RA Recursive Alignment Thuật toán đệ quy MSN Microsoft Network Dịch vụ Internet cung cấp bởi Microsoft QBSH Query by Singing/Humming Truy xuất bởi giai điệu và lời hát MaART Musical and Audio Retrieval tools Công cụ tìm kiếm nhạc MIR Muscal Information Retrieval Hệ thống tìm kiếm âm nhạc 5 LỜI MỞ ĐẦU Ngày nay nhu cầu của con người càng ngày càng lớn hơn. Sự phát triển của Internet, Google, Yahoo, MSN… là những tên tuổi được biết đến trong lĩnh vực cung cấp dịch vụ tìm kiếm tài liệu qua mạng. Với những dịch vụ tìm kiếm tài liệu qua mạng. Với những dịch vụ này người dùng có thể tìm kiếm các tài liệu, hình ảnh, video, hay những tài nguyên khác có trên Internet qua từ khóa. Cho đến nay, phương pháp tìm kiếm bằng từ khóa vẫn là phương pháp chủ đạo trong các hệ thống truy vấn thông tin và tìm kiếm dữ liệu. Tuy nhiên, phương pháp này cũng thể hiện những hạn chế và khả năng ứng dụng của nó trong loại dữ liệu không phải là văn bản. Với dữ liệu hình ảnh, việc tìm kiếm phụ thuộc rất nhiều vào việc gán nhãn cho hình ảnh trong dữ liệu. Phương pháp này xa rời với bản chất của hình ảnh là màu sắc và đường nét. Trong âm nhạc, phương pháp này cũng tỏ ra những mặt hạn chế của nó. Bản chất của âm nhạc là giai điệu, nhưng hầu hết các từ khóa không thể hiện được tính chất này của bản nhạc. Tìm kiếm dựa vào thông tin nhạc sĩ, ca sĩ và lời bài hát là những ứng dụng chính trong truy vấn thông tin âm nhạc hiện nay.Tưởng tượng rằng khi bạn đang nghe một bài hát nào đó và rất thích nó và bạn muốn nghe lại nó. Nhưng bạn không biết tên bài hát hay tên tác giả của nó. Bạn bắt đầu hỏi bạn bè của bạn, ngân nga giai điệu đó lên. Không có một ai biết để giúp bạn, bởi vậy bạn sẽ rơi vào bế tắc. Vì vậy phát sinh ra máy tìm kiếm âm nhạc như hệ thống QBH như vậy để thỏa mãn nhu cầu của con người. Hệ thống giúp người dùng tìm kiếm dễ dàng hơn dựa trên giai điệu được hát hay ngân nga từ người dùng. Trong luận văn này tôi sẽ trình bày những hiểu biết của mình về một hệ thống tìm kiếm âm thanh dựa vào giai điệu được hát ngân nga (humming) từ người dùng. Đề tài:”Hệ thống tìm kiếm âm thanh QBH trong cơ sở dữ liệu đa phương tiện và ứng dụng” Chương 1 Giới thiệu về hệ thống tìm kiếm âm thanh Chương 2 Các vấn dề nghiên cứu liên quan Chương 3 Hệ thống truy vấn âm nhạc qua giọng hát Chương 4 Thực nghiệm, kết quả và hướng phát triển tìm kiếm âm nhạc 6 Chương 1. GIỚI THIỆU VỀ HỆ THỐNG QUERY BY HUMMING (QBH) 1.1 Giới thiệu Hệ thống truy vấn Query by Humming (QBH) là một hệ thống được phát triển dựa trên nền một hệ thống cơ bản gọi là MIR (Music information retrieval). Mục đích của hệ thống MIR để xử lý thông tin âm nhạc và tìm kiếm cơ sở dữ liệu âm nhạc bởi nội dung. MIR là một hệ thống bao gồm nhiều ngành khoa học nghiên cứu về việc truy xuất thông tin từ âm nhạc. Bao gồm: • Các phương pháp tính toán cho việc phân lớp, lấy mẫu, phân cụm – sự trích chọn đặc trưng nhạc với dạng đơn và đa âm, việc ghép nối, lấy mẫu tương tự, và sự truy xuất. • Theo các phương pháp và cơ sở dữ liệu thông thường, những ứng dụng của việc phát hiện và nhận dạng âm nhạc một cách tự động, phần nhạc đệm tự động, sự định tuyến và lọc cho các bản nhạc và các truy vấn nhạc, ngôn ngữ truy vấn, các chuẩn và siêu dữ liệu khác hoặc các giao thức cho việc xử lý và truy xuất nhạc, các hệ thống đa xử lý và sự phân bổ tìm kiếm • Phần mềm cho MIR là các trang web có ý nghĩa các chủ đề nhạc số, các phương thức thông minh, các phần mềm cộng tác liên quan, tìm kiếm cơ bản trên web và sự truy xuất có ý nghĩa (semantic retrieval), tìm kiếm bởi giai điệu (QBH), nhận dạng âm thanh (acoustic fingerprinting). • Sự nhận dạng bản nhạc, sự hiểu biết, sự ảnh hưởng và các cảm xúc – các chuẩn đo độ tương tự âm nhạc, các tham biến có cú pháp, các tham biến có ý nghĩa, các mẫu nhạc, cấu trúc, kiểu và thể loại, các phương pháp luận giải thích về âm nhạc • Sự phân tích âm nhạc và trình bày các kiến thức tổng kết tự đông, trích dẫn, sự xuống cấp, sự chuyển đổi, các mẫu hình thức của âm nhạc, các khía cạnh về số hóa và những đặc trưng, chỉ mục âm nhạc và siêu dữ liệu. Phân tích lý thuyết vo hướng âm nhạc là một sự bổ sung cho sự tìm kiếm âm nhạc MIR với những từ khóa và quy mô của tín hiệu âm nhạc mù là một sự theo đuổi không bình thường. 7 Sau đây chúng ta cùng tìm hiểu về phương pháp tìm kiếm âm nhạc dựa vào giai điệu qua hệ thống QBH dưới đây. 1.2 Cấu trúc của hệ thống Query by humming (QBH) QBH (Query by humming) là một hệ thống truy vấn dựa trên nền tảng cơ bản về nội dung của hệ thống tìm kiếm âm nhạc MIR [phần 1.1 ở trên]. Hệ thống truy vấn thông tin âm nhạc sẽ nhận thông tin giai điệu truy vấn từ người dùng và trích xuất thông tin đặc trưng cần thiết của giai điệu. Đặc trưng giai điệu sẽ được đem so sánh với những đặc trưng giai điệu có sẵn trong cơ sở dữ liệu. Hệ thống trả về danh sách các bài hát có giai điệu tương đồng, được sắp xếp theo thứ tự nhất định. [5, 6, 11] Ta thấy, hệ thống cần những phần xử lý như sau. [Xem chi tiết Hình 1] • Xử lý tín hiệu truy vấn từ người dùng: Nhận giai điệu truy vấn từ người dùng và rút trích đặc trưng thích hợp • Biểu diễn đặc trưng: thông tin giai điệu của bài hát trong cơ dữ liệu cũng như trong tín hiệu truy vấn được biểu diễn dưới dạng thích hợp để sử dụng trong quá trình tìm kiếm. • Tìm kiếm (Matching module): Đặc trưng giai điệu được đem so sánh với các đặc trưng có sẵn trong cơ sở dữ liệu. Trong quá trình xử lý này, điểm đánh giá đọ tương đồng sẽ được tính cho các bài hát. Kết quả trả về sẽ là một danh sách có thứ tự các bài hát trong cơ sở dữ liệu. Mô hình đơn giản của một hệ thống truy vấn thông tin âm nhạc dựa trên giai điệu được biểu diễn hình dưới đây: 8 Hình 1: Mô hình hệ thống truy vấn thông tin âm nhạc bằng giọng hát hoặc giai điệu Có những hệ thống lại được cấu tạo khác đôi chút giống như hệ thống Sloud QBH cơ bản dựa theo cấu trúc cơ bản của hệ thống QBH ở trên nhưng có phần khác: Cấu trúc của một hệ thống tìm kiếm Sloud QBH bao gồm hai phần là khách và phần chủ - bao gồm các cơ sở dữ liệu các giai điệu. [5] 9 Phần khách của máy là một giao diện web nhận dạng và định vị trí các nốt của một giai điệu được huýt sáo vào. Phần này dùng để chuyển đổi một truy vấn sang định dạng mà cho phép việc tìm kiếm trở nên thiết thực. 9 Phần chủ có nhiệm vụ nối truy vấn mà được đưa đến với các đoạn giai điệu trong cơ sở dữ liệu để trả về kết quả cho người dùng. 9 Sơ đồ minh họa như sau : 9 Hình 2: Sơ đồ máy tìm kiếm QBH khác Máy tìm kiếm QBH thực hiện những chức năng sau: a. Cung cấp âm thanh được “hum” vào dưới dạng MIDI, ví dụ nhận dạng cao độ và thời gian mà các note được hum vào. b. Cung cấp sự biểu thị của việc nhận dạng đường viền cao độ trong khi đang hát trong thời gian thực; c. Cho phép chơi lại giai điệu nhận dạng, biến đổi trong MIDI, trước khi đưa ra truy vấn d. Tạo chỉ mục giai điệu và gửi một truy vấn đến mạng chủ Sloud QBH e. Cung cấp việc bố trí các đại diện các note tìm kiếm và kết kết quả trả về [5] 10 1.3 Những ảnh hưởng đến việc tìm kiếm chính xác và hiệu quả [6] 1.3.1 Người không thể đưa ra một truy vấn hoàn hảo Dù là người dùng có trí nhớ hoàn hảo về từng giai điệu khác nhau, người đó có thể bắt đầu tại một khóa sai hoặc là có thể truy vấn nhiều nốt tắt cao độ ở trên khắp giai điệu. Thỉnh thoảng có thể bỏ rơi vài nối hoặc thêm vào vài nốt mà nó không tồn tại trong giai điệu bình thường. Thêm vào đó, không người dùng nào mong đợi có thể hát hoàn hảo đúng nhịp điệu như bài hát chứa trong cơ sở dữ liệu. Cuối cùng, bởi vậy không ai chấp nhận các khác một cách qua lại một truy vấn hum vào có thế chứa bất kỳ một sự kết hợp của các nối này. 1.3.2 Bắt chính xác cao độ và các nốt từ việc ngân nga giai điệu của người dùng Việc bắt chính xác cao độ và trường độ từ truy vấn của người dùng đưa vào thì rất khó thực hiện. 1.3.3 Thu vào thông tin giai điệu từ một file nhạc ghi. Khó để thực hiện điều này vì việc đưa ra một cách đúng đắn giai điệu từ một bài hát được đưa ra là một trường nghiên cứu trên bản thân nó nhưng hoàn toàn chỉ trích bởi một truy vấn chính xác bởi CSDL. Tạo một truy vấn hoàn hảo sẽ ít dùng nếu cơ sở dữ liệu chứa những đại diện không chính xác của các bài hát. [6] 1.4 Những thách thử chính [8] 1.4.1 Sắp xếp một tập dữ liệu thích hợp cho bài Các tập hợp âm nhạc có thể được chia ra một cách ngắn gọn thành hai loại: những cái mà cung cấp các bài hát hoặc các phần nhỏ của bài hát như là các âm thanh số, cái mà ghi lại dưới dạng sóng, và những phần cung cấp chúng như là việc sao chép các chuỗi của những trường hợp riêng biệt ví dụ như các note (với cao độ và trường độ) và các dấu lặng.Thật khó trong việc sắp xếp bao hàm nhiều khía cạnh, chất lượng cao, tổ chức tốt các tập hợp nhạc chính xác. 1.4.2 Sao chép lời hát thành các nốt Khi người dùng hát hoặc huýt sáo đưa vào các giai điệu thì việc chuyển đổi chúng thành các nốt thì đang là vấn đề bởi vì người dùng được phép ghi lại giai điệu 11 bất cứ cách nào họ thích, với việc không thắt chặt các yêu cầu với họ thường thì có vài vấn đề xảy ra trong việc ghi lại chúng là: • Tiếng ồn bên ngoài vượt mức • Giai điệu lệch lạc • Sự thổi, huýt ngoài micro, là nguyên nhân những tiếng gió ồn che mất những giai điệu đưa vào • Hát với giai điệu thay vì những nốt thuần túy • Hát với âm thanh thay đổi • Hát quá nhanh • Âm lượng ghi thấp • Việc thu phức điệu (như là sự chơi trên piano hoặc guitar ) • Các nốt được hát , chơi với âm lượng khác nhau khá lớn • Sự xen kẽ giữa việc hát, huýt sáo, giữa việc hát và humming… Rất nhiều vấn đề nghe được trong quá trình ghi vì vậy việc xử lý âm thanh đầu vào rất phức tạp. 1.4.3 Việc ghép nối giai điệu truy vấn với cơ sở dữ liệu: Đầu tiên chúng ta định nghĩa vài thuật ngữ. Chúng ta định nghĩa một điệu hát bao gồm có giai điệu và nhịp điệu với một chuỗi các note ví dụ như một đoạn giai điệu thì là một cặp của các chuỗi có độ dài bằng nhau, một chuỗi biểu thị cao độ của mỗi nốt và trường độ của mỗi nốt.Giai điệu mà người dùng đưa vào được gọi là truy vấn và một điệu nhạc đưa ra trong tập dữ liệu âm nhạc được gọi là điệu nhạc kết quả. Việc xử lý của việc tìm kiếm một giai điệu kết quả mà giống nhất với giai điệu truy vấn được gọi là thuật toán tìm kiếm và ghép nối xấp xỉ hoặc ghép chính xác, trong các trường hợp mà các lỗi được hoặc ko được giải thích, một cách tương ứng. Phần trung tâm của hệ thống là thuật toán ghép nối. Nó thì khó bởi nó cần được giải thích các lỗi và xử lý chúng. Xử lý việc sao chép từ âm thanh ghi lại thành một chuỗi các nốt: 12 • Các nốt bị sai (Các nốt biểu thị trong bản ghi nhưng không tìm ra bởi thuật toán sao chép) • Sai vị trí (các nốt trong bản ghi được định dạng sai) • Những nốt tắt bởi một nửa cung (định vị cao độ một cách không chính xác) • Sự chèn vào (một nốt lạ được chèn vào bởi một sự cố nào đó) • Sự xóa (Một nốt bị nhầm, trễ hoặc thiếu) • Sao chép (người hát vào thay đổi việc sao chép tại vài điểm trong truy vấn, tạo nên một chuỗi nhỏ các nốt truy vấn cao hơn hoặc thấp hơn các nốt kết quả) Giai điệu thay đổi Người hát có thể thay đổi một phần của giai điệu truy vấn tương tự với sự chuyển giọng Không tích lũy các nốt cục bộ Một nốt riêng có thể hát không có cao độ hoặc có thể quá dài hoặc quá ngắn. Điều này khác với việc sao chép và thay đổi giai điệu trong mà chỉ một nốt riêng đó bị ảnh hưởng Tích lũy các nốt cục bộ Một lỗi cục bộ mà ảnh hưởng đến chuỗi nhỏ các nốt, ví dụ như một nốt quá là nguyên nhân nốt sau quá ngắn trong việc thử của mọi người để thu được nhịp điệu đúng. Có hai cách cơ bản đi đến việc tìm kiếm cho một giai điệu trong một tập cơ sở dữ liệu các bài hát. Một là chúng ta so sánh giai điệu truy vấn với mỗi phần có thể của giai điệu trong bài hát (giai điệu bắt đầu tại mỗi nốt trong mỗi bài hát,việc làm cơ bản số lượng các nốt xấp xỉ bằng với số các nốt và lớn hơn nó nếu chúng ta cho phép biến đổi và chuyển đổi của các nốt) hoặc chúng ta chuẩn bị chỉ mục cho tất cả các nốt này và dùng chỉ mục đó để định vị một cách nhanh chóng giai điệu mà chúng ta đang tìm kiếm. Xem [5] 13 1.5 Các hệ thống truy vấn thông tin âm nhạc hiện nay Việc truy vấn thông tin âm nhạc hiện nay đã trở nên ngày càng phổ biến. Những hệ thống truy vấn thông tin liên quan đến âm nhạc trước đây được phát triển theo hướng cho những người có hiểu biết về âm nhạc dùng để phân tích những tác phẩm âm nhạc. Trong khi đó, những hệ thống gần đây lại hướng đến ngƣời dùng thông thường và mang tính thương mại; nhiều ứng dụng có giao thức Web. Truy vấn bằng giọng hát là một phương pháp gần gũi với người dùng thông thường trong các phương pháp truy vấn thông tin âm nhạc. Trong những hệ thống này, một đoạn thu âm của giọng hát hay ngân nga từ người dùng sẽ được biến đổi và bài hát có thông tin tương ứng với đoạn thu âm sẽ được trả về từ cơ sở dữ liệu. Các kết quả sẽ được sắp xếp theo thứ tự dựa trên tính gần giống với bản thu âm của mẫu truy vấn (xem Hình 1). Hệ thống phải xử lý để chấp nhận những lỗi từ việc hát không chính xác hoặc nhớ không chính xác giai điệu cũng nhận lỗi từ việc rút trích đặc trưng của mẫu âm thanh truy vấn. Trong phần này, chúng ta sẽ xem xét một vài hệ thống truy vấn âm nhạc và những đề tài nghiên cứu có liên quan. Xem trong [Chương 5 của 16] 1.5.1 Shazam Hiện nay, trong nước chưa có đề tài nghiên cứu nào về truy vấn thông tin âm nhạc được công bố rộng rãi.Shazam ( là một ứng dụng dùng để nhận dạng bản thu âm thông qua hệ thống mạng điện thoại di động. Người dùng có điện thoại di động có thể sử dụng dịch vụ này ở khắp mọi nơi có tiếng nhạc. Đây là dịch vụ thương mại kèm theo việc bán các tác phẩm âm nhạc số qua mạng điện thoại di động. 1.5.2 Midomi Đây là một ứng dụng web cho phép người dùng tìm kiếm bài hát từ một đoạn giai điệu do chính người dùng hát. Hệ thống hoạt động theo hướng query-to-query (tìm kiếm những câu truy vấn tương đồng mà kết quả đã biết trước). Dịch vụ tìm kiếm miễn phí đi kèm với việc bán những bản thu âm qua mạng (dưới dạng MP3 hoặc đĩa CD). Từ đây hai ứng dụng trên, ta có thể thấy được ý nghĩa thương mại to lớn của dịch vụ truy vấn âm nhạc. ( 14 1.5.3 CatFind Catfind là một ứng dụng trên internet dùng để tìm kiếm âm nhạc, thực hiện bởi trường đại học Hồng Kông. Phiên bản đầu tiên của ứng dụng cho phép tìm kiếm theo đường biên giai điệu hay theo chuỗi những note cho trước (như là Đô-Rê-Mi…). Việc biểu diễn Đường biên giai điệu được thực hiện bởi các ký kiệu „/‟, „-‟, và „\‟. Như vậy, bài hát “Happy Birthday” sẽ được biểu diễn thành „-/\/\\-/\/\‟. Hiện tại, hệ thống không nhận đường biên giai điệu trực tiếp từ người dùng, nhưng vẫn giữ cơ chế này để tìm kiếm. 1.5.4 Echo Echo là hệ thống tìm kiếm dựa theo giai điệu từ giọng hát của người dùng. Hệ thống được phát triển bởi Tomonari Sonada et al, đại học Waseda University, Tokyo. Pitch tracking được thực hiện tại một chương trình ở máy client, sau đó client sẽ gửi đặc trưng truy vấn lên máy chủ và nhận về kết quả. Hệ thống Echo sử dụng hai phương pháp để làm tăng kết quả tìm kiếm. Phương pháp thứ nhất là sử dụng ngưỡng động để phân lớp pitch contour. Thay vì chấp nhận xếp vào lớp Up (U) khi giá trị cao độ của note hiện tại lớn hơn giá trị cao độ của note liền trước, Echo phân tích những bài hát trong cơ sở dữ liệu và xác định ngưỡng thích hợp. Phương pháp tương tự cũng áp dụng với rhythm contour Một hướng khác để làm tăng hiệu quả của hệ thống là sử dụng càng lúc càng nhiều lớp melodic contour để so sánh với cơ sở dữ liệu cho đến khi còn ít hoặc chỉ một bài trong kết quả. Hệ thống sẽ bắt đầu với 3 lớp pitch contour, sau đó sẽ tăng lên đến 9lớp, và nếu kết quả vẫn còn quá nhiều bài hát, số lớp pitch contour sẽ tăng lên đến 27 lớp. 1.5.5 Query by humming Ghias et al sử dụng đặc trưng melodic pitch contour, nhưng dùng ký tự S (Same) thay cho ký tự R (Repetition) để biểu diễn giai điệu và đánh giá độ tưong đồng của các đặc trưng. Cơ sở dữ liệu bao gồm 183 bài hát. Hệ thống hỗ trợ tìm kiếm tại bất kỳ vị trí nào trong bản nhạc và hỗ trợ file midi đa âm sắc. Tuy nhiên, 15 phần pitch tracking khá chậm và là phần tốn nhiều thời gian nhất trong toàn hệ thống. Thời gian tìm kiếm sẽ chậm đáng kể nếu như có nhiều bài hát trong cơ sở dữ liệu. Cũng do nhược điểm của việc hỗ trợ MIDI đa âm sắc, nhiều thông tin không cần thiết (không phải thông tin giai điệu như tiếng trống, tiếng nhạc cụ đệm…) vẫn làm tốn thời gian tìm kiếm. 1.5.6 Vocal Search Hệ thống tìm kiếm trực tuyến được phát triển bởi Bryan Pardo et al (Trường đại học Northwestern, USA). Nhóm nghiên cứu sử dụng đặc trưng Pitch Interval để biểu diễn và phương pháp Local String Alignment (tham khảo phần 2.3.4.2) để tìm kiếm giai điệu. Ứng dụng được xây dựng trên nền Java Applet và cơ sở dữ liệu gồm những bài hát của ban nhạc The Beatles. Biểu diễn Pitch Interval được phát triển dựa trên biểu diễn pitch contour và rhythm contour. Trong đó thay vì phân độ sai khác vào các lớp U, D, R, pitch interval sử dụng hiệu cao độ (đơn vị semitone) giữa hai note liền kề làm giá trị cho pitch contour. Rhythm contour được sử dụng như khái niệm nguyên thuỷ (gồm S, L, và R), nhưng được phân chi tiết làm 5 lớp con. Một Pitch Interval được đặc trưng bởi ha