Khóa luận Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp nhiều. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu vẫn sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong các động lực để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang web. Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn. Rất nhiều các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com . đã áp dụng việc sinh từ khóa cho các trang này để người đọc, người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề đang được quan tâm. Một vấn đề quan trọng không kém, đó là với sự phát triển của web thì những chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ dàng. Nó được thể hiện trong các trang web là các thẻ trong mã HTML. Nó sẽ giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang web tốt hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng. Nó vừa đảm bảo thời gian, công sức vừa có thể tìm ra được những từ khoá mà ngay cả chủ trang web có thể thiếu xót. Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web”. Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích nội dung trang dựa trên thẻ HTML và đồ thị web. Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ. Với từng loại trang web sẽ có từng loại phương pháp khác nhau. Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang. Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan và có triển vọng với độ chính xác khá cao, nếu kết hợp với các từ khoá của chính người quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác. Ngoài phần MỞ ĐẦU và KẾT LUẬN, kết cấu của khoá luận bao gồm các chương sau: - Chương 1: Giới thiệu về bài toán. Nêu các khái niệm cơ bản về bài toán. Các ứng dụng của bài toán. Những thách thức đặt ra cho bài toán. - Chương 2: Các công trình liên quan. Giới thiệu sơ lược về các phương pháp đã được áp dụng với các bài toán sinh cho văn bản, cho trang web. - Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải quyết của tác giả, đề xuất mô hình có thể thực thi. -Chương 4 “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm, và đánh giá kết quả.

doc59 trang | Chia sẻ: tuandn | Lượt xem: 2070 | Lượt tải: 4download
Bạn đang xem trước 20 trang tài liệu Khóa luận Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu và CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường học tập của mình. Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học và làm khoá luận tốt nghiệp. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường. Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, và những người bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh TÓM TẮT NỘI DUNG Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng.... Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh và cho kết quả khả quan. MỤC LỤC Bảng các kí hiệu và chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language IR Information Retrieval SE Search Engine SEM Search Engine Marketing SEO Search Engine Optimization TF Term Frequency IDF Inverse Document Frequency URL Uniform Resource Locator W3C World Wide Web Consortium WWW World Wide Web Danh mục hình vẽ Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 9 Hình 2. Top từ khóa của baomoi.com 10 Hình 3. Top từ khóa của flickr.com 10 Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com 11 Hình 5. Hình minh họa kết quả sinh từ khóa của trang web 17 Hình 6. Mô tả đồ thị web 25 Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25 Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25 Hình 9. Mô hình đề xuất cho toàn hệ thống 28 Hình 10. Mô hình mô đun sinh từ khóa 30 Hình 11. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML 32 Hình 12. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 33 Hình 13. Mô hình mô đun sinh từ khóa dựa trên log 34 Hình 14. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ 35 Hình 15. Mô hình mô đun tổng hợp từ khóa 36 Hình 16. Thư mục Tiếng_Việt của dmoz 38 Hình 17. Các liên kết cần lấy về trong các thư mục 39 Danh mục các bảng biểu Bảng 1. Bảng trọng số các thẻ HTML trongTextNet 21 Bảng 2. Bảng các thẻ HTML quan trọng khác 22 Bảng 3. Ví dụ về các trường trong querylog của MSN 26 Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán 36 Bảng 5. Các gói của chương trình 36 Bảng 6. Các lớp của gói general 37 Bảng 7. Các lớp của gói methods 37 Bảng 8. Các lớp của gói SELink 37 Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng 38 Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh 40 Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử 44 MỞ ĐẦU Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp nhiều. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu vẫn sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong các động lực để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang web. Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn. Rất nhiều các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com ... đã áp dụng việc sinh từ khóa cho các trang này để người đọc, người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề đang được quan tâm. Một vấn đề quan trọng không kém, đó là với sự phát triển của web thì những chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ dàng. Nó được thể hiện trong các trang web là các thẻ trong mã HTML. Nó sẽ giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang web tốt hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng. Nó vừa đảm bảo thời gian, công sức vừa có thể tìm ra được những từ khoá mà ngay cả chủ trang web có thể thiếu xót. Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web”. Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích nội dung trang dựa trên thẻ HTML và đồ thị web. Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ. Với từng loại trang web sẽ có từng loại phương pháp khác nhau. Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang. Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan và có triển vọng với độ chính xác khá cao, nếu kết hợp với các từ khoá của chính người quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác. Ngoài phần MỞ ĐẦU và KẾT LUẬN, kết cấu của khoá luận bao gồm các chương sau: - Chương 1: Giới thiệu về bài toán. Nêu các khái niệm cơ bản về bài toán. Các ứng dụng của bài toán. Những thách thức đặt ra cho bài toán. - Chương 2: Các công trình liên quan. Giới thiệu sơ lược về các phương pháp đã được áp dụng với các bài toán sinh cho văn bản, cho trang web. - Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải quyết của tác giả, đề xuất mô hình có thể thực thi. -Chương 4 “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm, và đánh giá kết quả. Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 1.1. Đặt vấn đề Sự phát triển nhanh chóng của Internet và đặc biệt là sự bùng nổ World Wide Web (WWW) - còn gọi tắt là web - làm cho thông tin ngày càng lớn, khó kiểm soát, và trùng lặp nhiều. Tìm kiếm thông tin hiện nay càng là nhu cầu thiết yếu của nhiều người trên nhiều lĩnh vực khác nhau. Sự đột phá về công nghệ đã cho ra những máy tìm kiếm phần nào đã giải quyết được sự ngập lụt thông tin này. Vì nhu cầu sử dụng máy tìm kiếm hiện nay là rất lớn, nên nó cũng được sự quan tâm của các doanh nghiệp nhằm dựa vào máy tìm kiếm để quảng cáo sản phẩm của mình qua các từ khóa[26][2][36]. Đó cũng là động lực chính để phát triển bài toán sinh từ khóa cho trang web. Việc sinh từ khóa cho trang web không những chỉ có ý nghĩa trong các máy tìm kiếm, mà hiện nay nó còn có nhiều ứng dụng hơn trong các trang web tổng hợp thông tin khác như các blog, báo điện tử, tìm ảnh, tìm phim, thư viện sách.... Với mỗi trang web, các từ khóa của trang đó sẽ là những sự gợi ý rất tốt cho người dùng để tìm thấy những thông tin khác liên quan mà họ có thể đang quan tâm. Trong nhiều năm qua, bài toán trích xuất từ khóa đã được quan tâm, chú ý nhiều trong các hội nghị khoa học [26] [30] [28] [27] [11][25], và các doanh nghiệp kinh doanh, cũng như những người quản trị web với chiến dịch quảng bá web của mình (SEO: Search Engine Optimization) [4]. Những bài báo, luận văn trước chủ yếu làm trên miền văn bản. Còn đối với miền trang web thì khá phức tạp, tốn nhiều thời gian; nhiều phương pháp phải cần đến tập huấn luyện. Các từ khóa là các từ, cụm từ nhằm miêu tả nội dung của trang web, văn bản một cách ngắn gọn nhất, chính xác nhất. Các từ khóa phải không quá chung chung hay không quá xa lạ đối với người sử dụng. Bài toán trích xuất từ khóa cho trang web là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29]. Chính những sự áp dụng rộng rãi và nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web. Khóa luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính là: độ quan trọng của các thẻ HTML, đồ thị web. Bên cạnh đó, tôi cũng bổ sung hai phương pháp hỗ trợ việc tìm từ khóa đó là: khai phá query log của máy tìm kiếm, tập từ điển hỗ trợ. 1.2. Khái niệm và các đặc trưng của từ khóa Từ khóa là một từ hay một cụm từ dùng để mô tả một cách chính xác, ngắn gọn nhất nội dung chính của một tài liệu (văn bản, hay các trang web) [20][5][8][18]. Trong tiếng Anh, từ khóa được thể hiện dưới nhiều thuật ngữ khác nhau như: keywords, term, query term, hay tags; nhưng ý nghĩa của chúng là giống nhau [25]. Trong các tài liệu thì cách viết keywords và tags được sử dụng nhiều nhất. Hiện nay, các trang web chuẩn theo W3C (World Wide Web Consortium) đều có chứa những từ khóa của trang trong thẻ với thuộc tính “keywords”. Các từ khóa của các trang web đa số được sinh thủ công bởi người quản trị web. Bài toán trích xuất từ khóa của tài liệu tiếng Việt và tiếng Anh là một trong những bài toán cấp thiết trong nghiên cứu xử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày. Tập các từ khóa có thể coi như là một bản tóm tắt đơn giản nhất của văn bản[25]. Tập các từ khóa sẽ nói lên rõ hơn ý nghĩa của văn bản hay trang web đó. Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng, tập các từ, hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web đó[24][29]. Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang web hay các thông tin liên quan đến trang web để tìm ra các từ khóa đại diện cho trang web này một cách tự động. Một số đặc điểm, tiêu chí ảnh hưởng [37] đến quá trình rút trích từ khóa: Từ dừng: Các từ dừng(stopword) không nằm trong danh sách các từ khóa được sinh ra. Các từ dừng là các từ không bao hàm ý nghĩa như là các từ: a , an , the, about, with, on ... trong tiếng Anh và các từ : là , sẽ , cùng, tới... trong tiếng Việt. Loại từ: Các từ trong danh sách từ khóa thường là các động từ, hoặc danh từ. Tuy nhiên, có thể các từ có thể được viết tắt cũng cần xem xét. Các danh từ riêng được coi trọng hơn các danh từ thường. Liên quan đến tiêu đề :Những từ khóa trong văn bản phải liên quan đến đầu đề văn bản. Số lượng: Tập từ khóa của một trang web, văn bản là một danh sách các từ khóa khác nhau, nó phù hợp với từng loại văn bản, trang web khác nhau. Thông thường là 5-10 từ khóa cho trang web, và 15-20 cho các bài báo... 1.3. Đánh giá các từ khóa Thường thì các công ty, người quản trị trang web đều chắc chắn rằng họ đã biết từ khoá lý tưởng nhất. Nhưng thường thì họ sai. Nguyên nhân là do không dễ dàng tách một cá nhân ra  khỏi một công ty và nhìn nhận với tư cách là một khách hàng tiềm năng. Soạn ra một danh sách các từ khoá thì không nên bắt buộc phải là một quá trình nội bộ. Mọi người thường rất ngạc nhiên về những từ khoá được gợi ý, đôi khi còn không tưởng tượng được hầu hết các khách không nói cùng một ngôn ngữ với họ. Một khi đã có được một danh sách từ khóa hoàn hảo, lúc này là lúc đánh giá từng cụm từ để chọn ra trong danh sách đến những từ khoá mà sẽ mang lại cho trang web lượng người vào trang web cao. Mặc dù rất nhiều cá nhân đều đánh giá các cụm từ khoá dựa trên số đông, nhưng một số khía cạnh cần phải có cho các từ khóa[2]: Tính phổ biến Cho đến nay cách dễ nhất để đánh giá đó là tính phổ biến. Các phần mềm như WordTracker đưa ra các con số phổ biến của cụm từ được tìm kiếm dựa vào hoạt động thực tế của SE [2]. Rõ ràng là con số nào cao hơn thì dự kiến sẽ có người vào cao hơn. Tính đặc trưng Khái niệm này trừu tượng hơn là con số thể hiện tính phổ biến nhưng lại quan trọng không kém. Ví dụ, giả dụ rằng có thể đạt được thứ hạng cao trên SE nhờ cụm từ khoá “insurance companies”. Nhưng nếu doanh nghiệp chỉ kinh doanh trong lĩnh vực bảo hiểm ô tô ( auto insurance). Mặc dù từ khoá “insurance companies” có tính phổ biến cao hơn từ khoá “auto insurance”, nhưng cụm từ khoá “insurance companies” sẽ dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ, bảo hiểm sức khoẻ và bảo hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện. Hướng người sử dụng Nhân tố này dựa vào cách nghĩ của số đông người dùng. Ví dụ, giả dụ một đại lý bất động sản ở Atlanta đang cân nhắc hai từ khóa đó là  "Atlanta real estate listings" và “Atlanta real estate agents”. Hai từ khoá này có tính phổ biến tương tự nhau. Chúng cũng có tính đặc trưng riêng, vì nó liên hệ mật thiết đến công ty. Vậy thì từ nào thì tốt hơn. Nếu nhìn vào động cơ của người sử dụng trong log thì sẽ thấy từ thứ hai sẽ tối ưu hơn. Từ khoá thứ hai cho rằng người sử dụng muốn tìm kiếm một đại lý nhiều hơn. 1.4. Thách thức của bài toán sinh từ khóa cho trang web Các nghiên cứu trước đây chủ yếu tập trung trên miền trích xuất từ khóa cho các văn bản hay các bài toán kiểu tóm tắt văn bản. Một lợi điểm trong các văn bản là do văn bản chỉ thuần nói về một đề tài hay một chủ đề xác định, ít nhiễu. Trong khi đó đối với các trang web nó là tổng hợp của nhiều thông tin trên một trang web, có nhiều thông tin không liên quan như: quảng cáo, thực đơn, thông tin liên quan. Vì vậy, những thách thức của bài toán trích xuất từ khóa cho trang web đó là nhiễu trên các trang là lớn, nội dung của nhiều trang là không tập trung. 1.4.1. Đối với các trang có nội dung tập trung Các trang có nội dung tập trung là các trang mà trong nó chứa những nội dung cụ thể về một vấn đề. Nói khác đi, khi loại bỏ các phần thông tin ngoài thì phần còn lại như một văn bản. Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng như tần số từ, vị trí từ trong các đoạn văn, độ tương đồng từ....Các trang có nội dung tập trung như bài báo điện tử, bài viết hướng dẫn, một bài văn...Nói chung, việc lọc nhiễu cho các trang này là một điều quan trọng giúp tăng chất lượng của việc trích xuất từ khóa. Với những bài viết quá dài thì thời gian chạy cũng khá lâu. 1.4.2. Đối với các trang có nội dung tổng hợp Hiện nay, thông tin ngày càng được cập nhật thường xuyên trong mỗi trang web. Nhu cầu tổng hợp tin tức là rất cần thiết. Các trang web luôn muốn những thông tin cập nhật sẽ được hiển thị trên trang đầu khi mà người dùng tới trang của họ. Những trang đầu này còn gọi là các trang chủ. Các trang web portal cũng tương tự [35]. Một trang web portal là một trang đưa ra những thông tin ở nhiều nguồn khác nhau theo một cách thống nhất. Ngoài thỏa mãn là một công cụ tìm kiếm, web portal cung cấp các thông tin dịch vụ khác như báo tin tức, chứng khoán, giải trí. Ví dụ về các web portal như: AOL, MSN, yahoo, iGoogle. Nếu áp dụng việc trích xuất từ khóa áp dụng đối với nội dung trong các trang web này sẽ dẫn đến kết quả không chính xác. Cần có những phương pháp khác để có thể sinh từ khóa cho loại trang này, và trong khóa luận này tôi áp dụng phương pháp dùng đồ thị Web và log hỗ trợ. 1.4.3. Các vấn đề khác Ngày nay, số lượng các trang web trên Internet là rất nhiều. Vì vậy việc kiểm soát nội dung cũng đã khó, chưa kể đến những lỗi trong việc mã hóa HTML trên trang web. Ngôn ngữ HTML là một ngôn ngữ có cấu trúc chặt chẽ theo chuẩn của W3C, với các luật như thẻ mở, đóng, hay thẻ đơn. Để có thể phân tích, lấy được những thông tin trong trang web thì chúng ta cần các trang có mã HTML theo chuẩn. Tuy các trình duyệt có thể bỏ qua các lỗi HTML để thể hiện thị, nhưng những lỗi như vậy làm cho các chương trình xử lý của chúng ta gặp vấn đề về việc phân tích cú pháp, xác định sai các đoạn văn trong trang web. Do tiếng Việt và Tiếng Anh có những cụm từ, nên một số từ khi xuất hiện một mình sẽ không có ý nghĩa. Vì vậy, cần phải có một bộ tách từ tốt, nhất là đối với tiếng Việt. Ngoài các lỗi về cấu trúc của HTML, ngay trong nội dung văn bản của các trang web cũng có những lỗi như: viết tiếng Việt không dấu, viết sai.... Một số trang web có sử dụng các tên miền miễn phí như : www.dot.tk , www.co.cc ...., cho nên khi trỏ đến các trang của họ thì mã HTML hiển thị lại không là mã HTML của trang web thực mà lại là mã HTML của các trang cung cấp tên miền. 1.5. Ứng dụng của từ khóa trong các lĩnh vực 1.5.1. Vai trò từ khóa trong máy tìm kiếm 1.5.1.1. Quảng cáo trên máy tìm kiếm Việc ra đời máy tìm kiếm đã giải quyết phần nào nhu cầu về tím kiếm thông tin trên mạng. Do đó, máy tìm kiếm là một công cụ không thể thiếu cho những người dùng web hiện nay. Chính vì sự phổ biến, và lượng lớn người dùng sử dụng nó cho nên quảng cáo trên máy tìm kiếm là một trong những hình thức quảng cáo khá hiệu quả, và có phần nở rộ hơn trong những năm gần đây. Các nhà doanh nghiệp, quản trị của các trang web (webmaster) cần có những chiến lược khác nhau khi quảng cáo trên máy tìm kiếm một cách hiệu quả nhất. Do việc tìm kiếm trên máy tìm kiếm chủ yếu dựa trên từ khoá cho nên việc tìm ra những từ khoá đại diện cho các trang web để quảng cáo là một trong những nhiệm vụ hàng đầu của các doanh nghiệp, các người quản trị web muốn quảng bá trang web của mình. Các doanh nghiệp này cần đăng kí các từ khoá này với các máy tìm kiếm để có thể quảng cáo trang web của mình. Tuy nhiên, có rất nhiều doanh nghiệp khác cũng muốn quảng cáo sản phẩm, và nảy sinh ra trường hợp cạnh tranh những từ khoá chung. Trong quá khứ, những nhà quảng cáo thích đặt giá cho những từ khoá mà