Luận văn Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu

. Sử dụng tài nguyên CPU  Hỗ trợ nhiều định dạng  Thời gian tìm kiếm  Bảo mật dữ liệu  Mã nguồn bí mật  Hỗ trợ ngôn ngữ  Khả năng phát triển  Cài thêm các ứng dụng hỗ trợ file

33 trang | Chia sẻ: tuandn | Lượt xem: 2400 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Luận Văn Tốt Nghiệp Kỹ Sư Đại học Bách Khoa Khoa Công Nghệ Thông Tin 1  Mở đầu  Mô hình hệ thống Search Engine  Phân tích và thiết kế  Demo  Kết luận & Hướng phát triển 2 3 Số lượng thông tin tăng Nhu cầu tìm kiếm tăng 4 Web Mở đầu Hỗ trợ tốt 5  Sử dụng tài nguyên CPU  Hỗ trợ nhiều định dạng  Thời gian tìm kiếm  Bảo mật dữ liệu  Mã nguồn bí mật  Hỗ trợ ngôn ngữ  Khả năng phát triển  Cài thêm các ứng dụng hỗ trợ file Các vấn đề gặp phải  Mở đầu  Mô hình hệ thống Search Engine  Phân tích và thiết kế  Demo  Kết luận & Hướng phát triển 6 7 Bộ Thu thập thông tin Bộ lập chỉ mục Bộ tìm kiếm  Mở đầu  Mô hình hệ thống Search Engine  Phân tích và thiết kế  Demo  Kết luận & Hướng phát triển 8 9 Mô hình hệ thống API Lucence Phát triển 10 Thuật toán : 11 Extractor pdf Extractor html Extractor docx Extractor xml Extractor rtd 12 Xử Lí Text (Lucene) Phương pháp : 13 • WhitespaceTokenizer • StandardTokenizer • Chuyển font VNI sang unicode • Streaming book, books →book • Stop-word “á”,”vâng”.. 14 Dựa trên mô hình không gian vector và được tính theo công thức : Phương pháp :  Lập chỉ mục 15 Phương pháp : 16 Phương pháp lưu trữ từ : 17  .CFS File : Lưu trữ chỉ mục của hệ thống  .gen :Tổng hợp lưu trữ các segment nhỏ  Segment_N : segment được thêm vào  .lock :ngăn nhiều xử lí index trong 1 thời gian (Mỗi chỉ mục bao gồm nhiều segment nhỏ , sau đó nhập lại segment lớn ) 18 19 Câu truy vấn Phân tich truy vấn Dựa vào file nghịch đảo , lấy danh sách các tài liệu tương ứng với từng mục từ Kết hợp các phép toán tử đưa ra kết quả Sắp xếp kết quả theo thư tự giảm dần của độ ưu tiên Kết quả Từ Điển Index Thuật toán Thu thập thông tin : Nhanh (Cần Giảm) - Sử dụng thông tin file Lập chỉ mục : Chậm ( Cần Nhanh) -Đọc và lấy văn bản của file -Xử lý văn bản -Lập Index -Mở tệp tin ở đĩa và ghi vào đĩa 20 -Nhiều luồng thu thập thông tin -Một luồng lập chỉ mục (Tránh lỗi)->tăng số lượng 21 22 1.Chuyển trạng thái “Sleep” trong 1 khoảng thời gian nếu tìm được một file hợp lệ 2.Chuyển trạng thái “Sleep” trong 1 khoảng thời gian sau khi đã lướt qua n file không hợp lệ Giảm hoạt động các luồng thu thập thông tin 23  Sử dụng nhiều luồng hiển thị T = Tmax > T =T1+T2…… T : Thời gian hiển thị tất cả kết quả T1: Thời gian hiển thị kết quả số 1 24 25 Add,delete Spyder Search Manual Index User View File 26 UI CoreData Index 27 Data Index File data Index .lock .cfs .gen Segments_N ... 28 29 TabPage TabControl Static TabPage Index TabPageSearch TabPage Main TabControl MainForm FormPanel  Mở đầu  Mô hình hệ thống Search Engine  Phân tích và thiết kế  Demo  Kết luận & Hướng phát triển 30 31 Tên Loại tài liệu Số file,dung lượng Truy vấn Thời gian Ứng Dụng Docx,pdf,html,xml ... 550 (~2GB) “Lucene” 0,15 giây Foxit Reader pdf 150(~200MB) “Lucene” 5,05 phút Notepad ++ Html,xml 30(~40MB) “Lucene” 1,34 phút  Mở đầu  Mô hình hệ thống Search Engine  Phân tích và thiết kế  Demo  Kết luận & Hướng phát triển 32 Em xin chân thành cảm ơn 33

Các file đính kèm theo tài liệu này:

Slice.pdf
Demo Bao Cao TT.pdf