Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu

Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty.) có ý nghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng - điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và phát triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút được rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hội thảo chuyên đề về học xếp hạng (learning to rank: LTR)[49]. Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu tại ICML năm 2007 [59], mô hình tính hạng thực thể trong máy tìm kiếm thực thể của nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng học xếp hạng để đánh giá trọng số của các cụm từ [65, 53]. Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bài toán học xếp hạng. Luận văn này gồm bốn chương, nội dung được mô tả như dưới đây. Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bản nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng. 1 MỞ ĐẦU 2 Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp học xếp hạng cơ bản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính. Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp hạng đối tượng và thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếm thực thể. Chương 4. Gán nhãn cụm tài liệu phân tích, áp dụng và báo cáo kết quả thực nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu. Phần kết luận tổng kết và tóm lược nội dung chính của luận văn.

71 trang | Chia sẻ: ngtr9097 | Lượt xem: 2251 | Lượt tải: 0Free

Bạn đang xem trước 20 trang tài liệu Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 luận văn thạc sĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội - 2008 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả trình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bất kỳ công trình luận văn nào trước đây. Học Viên Nguyễn Thu Trang ii Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy - Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên cứu đầu tiên và hoàn thành luận văn. Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, và phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơn tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn thành đề tài. Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu. Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn bè nguồn động viên tinh thần to lớn với tôi, luôn cổ vũ và tin tưởng tôi. Nguyễn Thu Trang iii Mục lục MỞ ĐẦU 1 1 Xếp hạng đối tượng 2 1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6 1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Học xếp hạng 9 2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11 2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13 2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Xếp hạng trong máy tìm kiếm thực thể 16 3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17 iv MỤC LỤC v 3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27 3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34 3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 Tạo nhãn cụm tài liệu 37 4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39 4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44 4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47 4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Kết luận 49 Tài liệu tham khảo 51 A Dữ liệu 59 MỤC LỤC vi A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . . . . . . 59 A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Danh sách hình vẽ 62 Danh sách bảng 63 Bảng ký hiệu và từ viết tắt Từ viết tắt Mô tả Trang định nghĩa IR Information Retrieval 6 SVM Suport Vector Machine 2 LTR Learning To Rank 1 MAP Mean Average Precision 7 OR Ordinal Regression 10 vii MỞ ĐẦU Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty...) có ý nghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng - điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và phát triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút được rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hội thảo chuyên đề về học xếp hạng (learning to rank: LTR)[49]. Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu tại ICML năm 2007 [59], mô hình tính hạng thực thể trong máy tìm kiếm thực thể của nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng học xếp hạng để đánh giá trọng số của các cụm từ [65, 53]. Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bài toán học xếp hạng. Luận văn này gồm bốn chương, nội dung được mô tả như dưới đây. Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bản nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng. 1 MỞ ĐẦU 2 Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp học xếp hạng cơ bản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính. Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp hạng đối tượng và thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếm thực thể. Chương 4. Gán nhãn cụm tài liệu phân tích, áp dụng và báo cáo kết quả thực nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu. Phần kết luận tổng kết và tóm lược nội dung chính của luận văn. C h ư ơ n g 1 Xếp hạng đối tượng 1.1 Giới thiệu Trong nhiều ứng dụng cần xếp hạng các đối tượng theo tiêu chí nào đó, đơn giản như việc xếp hạng học sinh trong một lớp theo điểm trung bình, hay xếp hạng các trường đại học,.. và đặc biệt là việc xếp hạng các kết quả trả về của máy tìm kiếm. Xếp hạng đối tượng là việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùy vào từng ứng dụng cụ thể. Do đó cần xác định hàm tính giá trị về độ phù hợp để sắp xếp của các đối tượng theo tiêu chí đã đặt ra, và hàm đó được gọi là hàm tính hạng (ranking function: RF). Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâm tới hàm tính hạng. Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về của máy tìm kiếm. Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quan trọng hay còn gọi hạng trang là đại lượng cơ sở để xếp hạng. Giá trị này được xác định dựa vào việc phân tích đồ thị liên kết giữa các trang web. Với tập các tài liệu D = d1, ..dn, khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu 2 CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 3 trong D phù hợp với truy vấn q, và sau đó sắp xếp các tài liệu theo độ phù hợp với truy vấn và độ quan trọng giảm dần. Đó là quá trình xếp hạng và hàm tính hạng là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, di) và hạng trang thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tới trong [6]. Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đối với chất lượng của máy tìm kiếm. Từ những năm 98, Cohen [21] đã đưa ra nhận định rằng có nhiều ứng dụng cần sắp xếp các đối tượng hơn là cần phân lớp chúng. Mọi ứng dụng mà kết quả trả về cho người dùng là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúp người dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể. Thực tế chúng ta gặp rất nhiều các bảng xếp hạng như ví dụ ở trên. Điều đó cho thấy, xếp hạng là một bài toán quan trọng và có ý nghĩa. Tuy nhiên khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng xếp hạng các đối tượng trên Web - cụ thể là các trang web. Các trang web cần được sắp xếp theo độ quan trọng giảm dần. Giá trị độ quan trọng đó gọi là hạng trang và PageRank [43] là phương pháp tính hạng đầu tiên, tính hạng trang các trang web dựa vào phân tích mối liên kết giữa các trang web trong đồ thị Web. 1.2 Phương pháp PageRank Page và các đồng tác giả [43] đã đưa ra ý tưởng: độ quan trọng của một trang chịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó. Và công thức tính PageRank cho một trang u, gọi là piu được tính như sau: piu = ∑ i∈BI (i) pii Ni (1.1) Với BI(i) là tập hợp các trang có liên kết đến trang i và Ni là số trang liên kết ra từ trang i. Biểu diễn đồ thị Web bởi ma trận chuyển P , khi đó phương trình 1.1 được viết lại dưới dạng ma trận: pi = piP (1.2) CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 4 Trong đó: pi = (pi1, pi2, . . . pin) là véc-tơ hạng các trang web, với thành phần pii là hạng của trang i. Từ 1.2 cho thấy véc-tơ hạng trang pi chính là véc-tơ riêng của ma trận chuyển P tương ứng với giá trị riêng λ = 1. Do tính chất của chuỗi Markov, để tính véc-tơ riêng của P thuật toán giả thiết rằng đồ thị trang web là liên thông, tức với cặp hai trang web i, j bất kì luôn có đường đi từ i tới j và ngược lại. Tuy nhiên thực tế trên World Wide Web (WWW) vẫn tồn tại không ít các trang web không có liên kết đến hoặc liên kết ra nên việc giả thiết đồ thị Web liên thông là không hợp lý. Và trong ma trận P vẫn tồn tại hàng chỉ toàn số 0, nên không tồn tại một phân phối xác suất dừng ổn định của P hay chính là véc-tơ hạng trang. Vì vậy cần phải biến đổi ma trận P thành P ′ sao cho phù hợp. Định nghĩa véc-tơ v, được chuẩn hóa ‖v‖ = 1, xác định xác suất phân phối với vi là xác suất trang web i được gọi đến ở lần duyệt web đầu tiên. véc-tơ v có vai trò trong việc hướng kết quả PageRank theo chủ đề, lĩnh vực mong muốn. Khi không xét đến ngữ cảnh đó có thể chọn vi = 1n với ∀i = 1, 2..n . Gọi d là véc-tơ n× 1 xác định các trang không có liên kết ra (dangling nút trên đồ thị Web): di = { 1 nếu N(i) = 0 0 ngược lại Ma trận P ′ được xác định: P ′ = P + dv (1.3) Khi thay đổi ma trận P như vậy tức thêm các liên kết ảo từ các dangling nút tới tất cả các nút khác trong đồ thị Web theo phân phối xác suất v. Điều đó giúp tránh việc khi duyệt các trang không có liên kết ra sẽ không duyệt tiếp được. Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương ứng với quá trình duyệt Web của người dùng cần có tính chất ergodic, tức từ một trang web người dùng có thể chuyển tới một trang bất kì khác. Do vậy ma trận Markov P˜ được xác định như sau: P˜ = αP ′ + (1− α) J (1.4) CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 5 Với: J = [1]n×1 v và α: là hệ số hãm α thường được chọn giá trị 0.85, với ý nghĩa tại mỗi bước duyệt Web người dùng có thể chuyển tới một trang trong các liên kết ra từ trang hiện tại với xác suất α và chuyển tới các trang khác trong đồ thị Web với xác suất (1− α) theo phân phối v. Khi đó, thay vì tính vector riêng của ma trận P ta tính vector riêng pi của ma trận P˜ : pi = piP˜ . Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ pi bằng 1:∑n i=1 pii = 1 Vậy véc-tơ hạng trang chính là véc-tơ riêng của ma trận P˜ . 1.3 Xếp hạng đối tượng Hạng trang PageRank là độ đo đầu tiên để xếp hạng các trang web. Và vì vậy, có thể coi hạng trang là hàm xếp hạng các đối tượng - cụ thể đối tượng trong trường hợp này là các trang web. Và ngày càng có nhiều các nghiên cứu về xếp hạng không chỉ là các trang web như xếp hạng các trường đại học [4, 3, 55], xếp hạng các nhà khoa học, bài báo [48]... Với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếp hạng các doanh nghiệp theo doanh thu năm...có một tiêu chí xếp hạng rõ ràng và hàm tính hạng "dễ dàng" xác định. Tuy nhiên trong nhiều ứng dụng như xếp hạng các trường đại học, xếp hạng các nhà khoa học, xếp hạng các kết quả trả về của máy tìm kiếm,...mỗi loại đối tượng cần xếp hạng có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó. Và từ đó kết hợp các đặc trưng thành một hàm gọi l hàm tính hạng để xếp hạng các đối tượng. Đối tượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1, và lần lượt giảm dần 2, 3 ..) Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều sự quan tâm. Webometric [55, 4] là một phương pháp xếp hạng trường đại học dựa vào các thông tin trên web với có 4 chỉ số đặc trưng được xác định. Hàm xếp hạng các trường là CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 6 một hàm tuyến tính của 4 chỉ số đó và Webometric cũng đưa ra hệ số cụ thể cho từng chỉ số. Việc xếp hạng các trường đại với độ đo Webometric vẫn đang được các nhà khoa học quan tâm nghiên cứu [55, 4] với các nghiên cứu về các chỉ số và xác định hàm xếp hạng. Học xếp hạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự phát triển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information retrieval)và học máy (machine learning). Nói một cách khác, học hàm tính hạng hiện đang là vấn đề được quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong truy tìm thông tin, theo [61]. Học xếp hạng là học hàm của các đặc trưng để sắp xếp các đối tượng theo độ phù hợp, ưu tiên hay độ quan trọng...tùy vào từng ứng dụng cụ thể. Hiện nay nghiên cứu các phương pháp học tính hạng đang được nhiều nhà khoa học trên thế giới quan tâm [8, 12, 16, 26, 37, 44, 46, 45, 50], có nhiều phương pháp học xếp hạng được đưa ra như RankSVM [34], SVM-MAP [62].. Chương sau sẽ giới thiệu cụ thể các phương pháp học xếp hạng hiện nay. 1.4 Phương pháp đánh giá xếp hạng Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong học máy như độ chính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng. Xếp hạng yêu cầu các đối tượng "đúng" (phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên của bảng xếp hạng càng tốt. Giả sử 6 đối tượng tương ứng là: a, b, c, d, e Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù hợp. Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e. Các độ đo về độ chính xác của xếp hạng thường được sử dụng: CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 7 Độ chính xác mức K: P@K Độ chính xác xếp hạng ở mức K - Precision@K (P@K): độ chính xác của K đối tượng đầu bảng xếp hạng. Xác định số đối tượng đúng ở K vị trí đầu tiên của xếp hạng và gọi là Match@K, và độ chính xác mức K: P@K = Match@K K Với ví dụ trên ta có: P@3 = 2/3 ; P@4 = 3/4; P@5 = 3/5; Độ chính xác trung bình: MAP Độ chính xác trung bình là giá trị trung bình của các P@K tại các mức K có đối tượng đúng. Gọi I(K) là hàm xác định đối tượng ở vị trí hạng K nếu đúng I(K) =1 và ngược lại I(K) = 0. Độ chính xác trung bình: AP = ∑n K=1 P@K × I(K)∑n j=1 I(j) Với n là số đối tượng được xét. Giá trị trung bình trên m xếp hạng (với bài toán tìm kiếm thì đó là giá trị trung bình của AP trên các truy vấn): MAP = ∑m i=1 APi m Ví dụ trên có: MAP = 1 3 .( 1 1 + 2 2 + 3 4 ) Trung bình nghịch đảo thứ hạng: MRR Xác định vị trí hạng của đối tượng đúng đầu tiên trong bảng xếp hạng: r, khi đó nghịch đảo hạng: RR = 1/r. Với ví dụ trên, ta có RR = 1/1. Trung bình nghịch đảo thứ hạng là giá trị trung bình nghịch đảo thứ hạng RR của tất cả các truy vấn/hay xếp hạng đang xét. MRR = ∑m i=1 RRi m CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 8 Một số độ đo khác Các độ đo ít được sử dụng hơn như: • Số đối tượng đúng ở mức K: Match@K. • Trung bình tổng nghịch đảo thứ hạng của các đối tượng đúng (MTRR): Với giá trị tổng nghịch đảo được xác định: TRR = n∑ i=1 ( 1 i × I(i)) Trong ví dụ ta có TRR = 1/1 + 1/2 1.5 Tổng kết Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng dụng trong thực tế. Vấn đề học xếp hạng là vấn đề thời sự đang nhận được nhiều sự quan tâm của các nhà khoa học. Hướng tiếp cận bài toán học xếp hạng đã được giới thiệu trong chương này, các chương sau tiếp tục làm rõ hơn về bài toán học xếp hạng và ứng dụng. C h ư ơ n g 2 Học xếp hạng 2.1 Giới thiệu Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài liệu trả về từ máy tìm kiếm dựa theo truy vấn. Có tập các tài liệu D = {d1, d2, ..., dn} và với truy vấn q, cần xác định hàm xếp hạng r để sắp xếp các tài liệu D theo độ phù hợp với truy vấn. Tổng quát bài toán xếp hạng đối tượng nói chung, ta có: tập X ⊂ Rn của các đối tượng x = (x1, .., xn) ∈ Rn, với n là số đặc trưng của mỗi đối tượng. Cần tìm hàm h(x) : X → R để sắp xếp các đối tượng x theo độ phù hợp. Dữ liệu học S là xếp hạng đúng của một tập các đối tượng X ′ ⊂ X được đưa ra để học hàm h(x). Tùy từng ứng dụng mà người dùng có các mức yêu cầu khác nhau về sắp xếp thứ hạng đúng và có các kiểu dữ liệu học: 1. Xác định giá trị độ phù hợp y cụ thể của từng đối tượng trong S. Do trong ứng dụng xếp hạng, người dùng quan tâm nhiều tới thứ tự thay vì giá trị xếp 9 CHƯƠNG 2. HỌC XẾP HẠNG 10 hạng (độ phù hợp) nên y thường được xác định: • Hai giá trị tương ứng xếp hạng phù hợp (releval) và không phù hợp (inreleval). Người dùng chỉ quan tâm các đối tượng có phù hợp tiêu chí đặt ra hay không (2 hạng). • N giá trị xác định tương ứng N hạng nhất định, ví dụ: rất phù hợp, phù hợp, có thể phù hợp, không phù hợp. 2. Đưa ra các so sánh độ phù hợp của từng cặp đối tượng. 3. Danh sách sắp thứ tự đúng của "tất cả" các đối tượng theo độ phù hợp. Với mỗi kiểu dữ liệu trên, xác định các kiểu ràng buộc xếp hạng khác nhau và có các phương pháp học xếp hạng tương ứng. Các phương pháp học xếp hạng theo Soumen Chakrabarti [14] và Tie-Yan Liu [40]: Hồi quy (Regression): Có S = {(xi, yi)} mỗi đối tượng xi xác định giá trị yi tương ứng về độ phù hợp. Học hàm h(x) thỏa mãn: h(xi) = yi với ∀x ∈ X ′ Trong học xếp hạng, khi giá trị yi xác định thứ hạng của đối tượng xi thì phương pháp gọi là hồi quy có thứ tự (Ordinal Regression). Cặp thứ tự (Pairwise): Có S = {(xi, xj)} là tập các cặp đối tượng được sắp thứ tự, với mỗi cặp (xi, xj) có nghĩa xi có thứ hạng cao hơn xj (xi phù hợp hơn xj : xi xj). Tìm h(x): ∀(xi, xj) ∈ S có xi xj thì h(xi) > h(xj) Danh sách sắp xếp (Listwise): Một thứ tự sắp xếp của tất cả các đối tượng được xác định [62]. Tuy nhiên trong nhiều ứng dụng (ví dụ máy tìm kiếm), việc sắp thứ tự của tất cả các đối tượng là không khả thi, thì một xếp hạng của K đối tượng đầu tiên được xác định, và tất cả các đối tượng khác đều có hạng thấp hơn [12] Có S = {x1, x2, ..., xm} với xi ∈ X ′ là một sắp thứ tự (x1 x2 ... xm) tìm hàm h(x) sao cho: h(x1) > h(x2) > ... > h(xm) CHƯƠNG 2. HỌC XẾP HẠNG 11 2.2 Phương pháp học xếp hạng 2.2.1 Hồi quy có thứ tự và Pairwise Học xếp hạng với phương pháp hồi quy có thứ tự: tập dữ dữ liệu học S = {(xi, yi)}li=1với yi ∈ 1, 2, ...R là một tập sắp thứ tự, cần học hàm h(x) thỏa mãn: Với mọi cặp (xi, yi) và (xj , yj) thuộc S thì yi > yj ⇔ h(xi) > h(xj) Gọi P là tập hợp tất cả các cặp (i, j) mà thứ hạng của xi cao hơn của xj (xi xj) trong S: P = {(i, j) : yi > yj} và |P | = m. Do vậy có thể phát biểu lại bài toán: có các cặp so sánh thứ tự S ′ = {(xi, xj) ∣∣xi xj}, tìm h(x) thỏa mãn: ∀(xi, xj) ∈ S ′ có xi xj thì h(xi) > h(xj) Như vậy, từ bài toán hồi quy có thứ tự đã được chuyển về bài toán Pairwise. Ví dụ có tập sắp thứ tự S = {(d1, 2), (d2, 1), (d3, 1)} khi đó có các cặp so sánh thứ tự S ′ = {(d2, d1), (d3, d1)}. Với ví dụ này có d2 và d3 không xác định thứ tự so sánh (cùng thứ hạng trong S). Để giải quyết bài