. Sử dụng tài nguyên CPU
Hỗ trợ nhiều định dạng
Thời gian tìm kiếm
Bảo mật dữ liệu
Mã nguồn bí mật
Hỗ trợ ngôn ngữ
Khả năng phát triển
Cài thêm các ứng dụng hỗ trợ file
33 trang |
Chia sẻ: tuandn | Lượt xem: 2275 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Luận Văn Tốt Nghiệp Kỹ Sư
Đại học Bách Khoa
Khoa Công Nghệ Thông Tin
1
Mở đầu
Mô hình hệ thống Search Engine
Phân tích và thiết kế
Demo
Kết luận & Hướng phát triển
2
3
Số lượng
thông tin
tăng
Nhu cầu
tìm kiếm
tăng
4
Web
Mở đầu
Hỗ trợ tốt
5
Sử dụng tài nguyên CPU
Hỗ trợ nhiều định dạng
Thời gian tìm kiếm
Bảo mật dữ liệu
Mã nguồn bí mật
Hỗ trợ ngôn ngữ
Khả năng phát triển
Cài thêm các ứng dụng hỗ trợ file
Các vấn đề gặp phải
Mở đầu
Mô hình hệ thống Search Engine
Phân tích và thiết kế
Demo
Kết luận & Hướng phát triển
6
7
Bộ
Thu
thập
thông
tin
Bộ
lập
chỉ
mục
Bộ
tìm
kiếm
Mở đầu
Mô hình hệ thống Search Engine
Phân tích và thiết kế
Demo
Kết luận & Hướng phát triển
8
9
Mô hình hệ thống
API Lucence
Phát
triển
10
Thuật toán :
11
Extractor pdf
Extractor html
Extractor docx
Extractor xml
Extractor rtd
12
Xử Lí Text (Lucene)
Phương pháp :
13
• WhitespaceTokenizer
• StandardTokenizer
• Chuyển font VNI sang unicode
• Streaming
book, books →book
• Stop-word
“á”,”vâng”..
14
Dựa trên mô hình không gian vector và được tính theo công thức :
Phương pháp :
Lập chỉ mục
15
Phương pháp :
16
Phương pháp lưu trữ từ :
17
.CFS File : Lưu trữ chỉ mục của hệ thống
.gen :Tổng hợp lưu trữ các segment nhỏ
Segment_N : segment được thêm vào
.lock :ngăn nhiều xử lí index trong 1 thời gian
(Mỗi chỉ mục bao gồm nhiều segment nhỏ , sau đó
nhập lại segment lớn )
18
19
Câu truy vấn
Phân tich truy vấn
Dựa vào file nghịch đảo , lấy danh
sách các tài liệu tương ứng với
từng mục từ
Kết hợp các phép toán tử đưa ra
kết quả
Sắp xếp kết quả theo thư tự giảm
dần của độ ưu tiên
Kết quả
Từ Điển
Index
Thuật toán
Thu thập thông tin : Nhanh (Cần Giảm)
- Sử dụng thông tin file
Lập chỉ mục : Chậm ( Cần Nhanh)
-Đọc và lấy văn bản của file
-Xử lý văn bản
-Lập Index
-Mở tệp tin ở đĩa và ghi vào đĩa
20
-Nhiều luồng thu thập thông tin
-Một luồng lập chỉ mục (Tránh lỗi)->tăng số lượng
21
22
1.Chuyển trạng thái “Sleep” trong 1 khoảng
thời gian nếu tìm được một file hợp lệ
2.Chuyển trạng thái “Sleep” trong 1 khoảng
thời gian sau khi đã lướt qua n file không
hợp lệ
Giảm hoạt động các luồng thu thập
thông tin
23
Sử dụng nhiều luồng hiển thị
T = Tmax > T =T1+T2……
T : Thời gian hiển thị tất cả kết quả
T1: Thời gian hiển thị kết quả số 1
24
25
Add,delete Spyder
Search
Manual Index
User
View File
26
UI
CoreData Index
27
Data Index
File data
Index
.lock
.cfs
.gen
Segments_N
...
28
29
TabPage
TabControl
Static TabPage
Index TabPageSearch TabPage
Main TabControl
MainForm
FormPanel
Mở đầu
Mô hình hệ thống Search Engine
Phân tích và thiết kế
Demo
Kết luận & Hướng phát triển
30
31
Tên Loại tài liệu Số file,dung lượng Truy vấn Thời gian
Ứng Dụng Docx,pdf,html,xml
...
550 (~2GB) “Lucene” 0,15 giây
Foxit Reader pdf 150(~200MB) “Lucene” 5,05 phút
Notepad ++ Html,xml 30(~40MB) “Lucene” 1,34 phút
Mở đầu
Mô hình hệ thống Search Engine
Phân tích và thiết kế
Demo
Kết luận & Hướng phát triển
32
Em xin chân thành
cảm ơn
33
Các file đính kèm theo tài liệu này:
- Slice.pdf
- Demo Bao Cao TT.pdf