Sự đổi mới không ngừng của khoa học kỹ thuật công nghệ, nhiều lĩnh vực đã và đang phát triển vượt bậc đặc biệt là lĩnh vực công nghệ thông tin. Thành công lớn nhất có thể kể đến là sự ra đời của chiếc máy tính. Máy tính được coi là một phương tiện trợ giúp đắc lực cho con người trong nhiều công việc đặc biệt là công tác quản lý. Mạng máy tính được sinh từ nhu cầu muốn chia sẻ và dùng chung dữ liệu. Máy tính cá nhân là công cụ tuyệt vời giúp tạo dữ liệu, bảng tính, hình ảnh, và nhiều dạng thông tin khác, nhưng không cho phép chia sẻ dữ liệu bạn đã tạo nên. Sự bùng nổ dịch vụ Internet cũng như bùng nổ số lượng người sử dụng khi công nghệ trở nên thân thiện với con người, các cơ hội đã được mở ra với một thị trường cực kì rộng lớn cho các doanh nghiệp, các sản phẩm, dịch vụ được phân phối và cung cấp rộng khắp, nhanh chóng và cực kì tiện lợi. Để thông tin về sản phẩm của mình, các doanh nghiệp thường sử dụng các hình thức quảng cáo, tuy nhiên với chi phí đắt đỏ, cho dù mang lại hiểu quả cao nhưng các hình thức quảng cáo trên truyền hình, báo chí chưa thực sự tối ưu. Từ thực tế đó, các hình thức quảng cáo qua thư điện tử, máy tìm kiếm thông tin trên mạng đã dần có được sự quan tâm đặc biệt. Với những doanh nghiệp mới thành lập, quảng cáo trực tuyến là một sự lựa chọn hoàn hảo để cân bằng giá và hiệu quả. Đã có rất nhiều doanh nghiệp sử dụng các hình thức quảng cáo trực tuyến để mang sản phẩm và dịch vụ của mình đến người tiêu dung với chi phí thấp. Điều quan trọng của loại hình quảng cáo qua máy tìm kiếm là khi được lựa chọn kĩ càng và tối ưu, chi phí sẽ giảm xuống rất nhiều.
39 trang |
Chia sẻ: tuandn | Lượt xem: 1936 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Đề tài Phần mềm tối ưu chi phí quảng cáo trực tuyến Easy-Op, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN
---o0o---
Báo cáo nghiên cứu khoa học sinh viên
ĐỀ TÀI: Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op
GV Hướng dẫn : Ts. Phạm Hoàng Duy
Ths. Nguyễn Thị Ngọc Vinh
Hà Nội, Tháng 11 năm 2011
Table of Contents
LỜI MỞ ĐẦU
Sự đổi mới không ngừng của khoa học kỹ thuật công nghệ, nhiều lĩnh vực đã và đang phát triển vượt bậc đặc biệt là lĩnh vực công nghệ thông tin. Thành công lớn nhất có thể kể đến là sự ra đời của chiếc máy tính. Máy tính được coi là một phương tiện trợ giúp đắc lực cho con người trong nhiều công việc đặc biệt là công tác quản lý. Mạng máy tính được sinh từ nhu cầu muốn chia sẻ và dùng chung dữ liệu. Máy tính cá nhân là công cụ tuyệt vời giúp tạo dữ liệu, bảng tính, hình ảnh, và nhiều dạng thông tin khác, nhưng không cho phép chia sẻ dữ liệu bạn đã tạo nên. Sự bùng nổ dịch vụ Internet cũng như bùng nổ số lượng người sử dụng khi công nghệ trở nên thân thiện với con người, các cơ hội đã được mở ra với một thị trường cực kì rộng lớn cho các doanh nghiệp, các sản phẩm, dịch vụ được phân phối và cung cấp rộng khắp, nhanh chóng và cực kì tiện lợi. Để thông tin về sản phẩm của mình, các doanh nghiệp thường sử dụng các hình thức quảng cáo, tuy nhiên với chi phí đắt đỏ, cho dù mang lại hiểu quả cao nhưng các hình thức quảng cáo trên truyền hình, báo chí chưa thực sự tối ưu. Từ thực tế đó, các hình thức quảng cáo qua thư điện tử, máy tìm kiếm thông tin trên mạng đã dần có được sự quan tâm đặc biệt. Với những doanh nghiệp mới thành lập, quảng cáo trực tuyến là một sự lựa chọn hoàn hảo để cân bằng giá và hiệu quả. Đã có rất nhiều doanh nghiệp sử dụng các hình thức quảng cáo trực tuyến để mang sản phẩm và dịch vụ của mình đến người tiêu dung với chi phí thấp. Điều quan trọng của loại hình quảng cáo qua máy tìm kiếm là khi được lựa chọn kĩ càng và tối ưu, chi phí sẽ giảm xuống rất nhiều. Chính vì đó em đã chọn đề tài Xây dựng phầm mềm tối ưu hóa chi phí quảng cáo trực tuyến. Nhưng do thời gian và kiến thức có hạn nên bài viết còn hạn chế, rất mong được sự góp ý của các thầy cô giáo và chung em xin chân thành cảm ơn TS.Phạm Hoàng Duy, ThS. Nguyễn Thị Ngọc Vinh đã giúp đỡ để em hoàn thành đề tài này.
CHƯƠNG I :TỔNG QUAN VỀ E - MARKETING
E-marketing (Internet marketing hay online marketing), hay tiếp thị qua mạng, tiếp thị trực tuyến là hoạt động cho sản phẩm và dịch vụ thông qua mạng kết nối toàn cầu Internet. Sự xuất hiện của Internet đã đem lại nhiều lợi ích như chi phí thấp để truyền tải thông tin và truyền thông (media) đến số lượng lớn đối tượng tiếp nhận, thông điệp được truyền tải dưới nhiều hình thức khác nhau như văn bản, hình ảnh, âm thanh, phim, trò chơi,... Với bản chất tương tác của E-marketing, đối tượng nhận thông điệp có thể phản hồi tức khắc hay giao tiếp trực tiếp với đối tượng gửi thông điệp. Đây là lợi thế lớn của E-marketing so với các loại hình khác.
E-marketing kết hợp tính sáng tạo và kỹ thuật của Internet, bao gồm thiết kế, phát triển, quảng cáo và bán hàng. Các hoạt động của E-marketing bao gồm: search engine marketing, web display advertising, e-mail marketing, affiliate marketing, interactive advertising, blog marketing và viral marketing.
Một trong những lợi thế của E-marketing là sự sẵn sàng của lượng lớn thông tin. Người tiêu dùng có thể truy cập thông tin sản phẩm và thực hiện giao dịch, mua bán mọi lúc mọi nơi. Doanh nghiệp sử dụng e-makerting có thể tiết kiệm được chi phí bán hàng như chi phí thuê mặt bằng, giảm số lượng nhân viên bán hàng,.. E-marketing còn giúp doanh nghiệp tiếp cận với thị trường rộng lớn cũng như phát triển ra toàn cầu. Ngoài ra, so sánh với các phương tiện khác như in ấn, báo đài, truyền hình, e-marketing có lơi thế rất lớn về chi phí thấp.
E-marketing đã và đang có ảnh hưởng rộng lớn với nhiều ngành công nghiệp như âm nhạc, ngân hàng, thương mại, cũng như bản thân ngành công nghiệp quảng cáo. Trong ngành công nghiệp âm nhạc, nhiều khách hàng mua và tải các bản nhạc qua Internet thay vì mua CD. Ngày càng nhiều ngân hàng cung cấp các dịch vụ trực tuyến. Dịch vụ ngân hàng trực tuyến được cho rằng sẽ hấp dẫn khách hàng hơn khi họ không phải đến các chi nhánh ngân hàng để thực hiện. Hiện tại, hơn 150 triệu người Mỹ sử dụng dịch vụ ngân hàng trực tuyến và tốc độ tăng trưởng ngày càng cao. Sự cải thiện tốc độ kết nối Internet là nguyên nhân chính cho sự tăng trưởng này. 44% những cá nhân sử dụng Internet thực hiện các giao dịch với ngân hàng qua Internet. Đấu giá qua Internet cũng đang trở nên phổ biến. Những mặt hàng hiếm trước đây chỉ có thể tìm ở các chợ trời nay đang được rao bán trên eBay. Trang Web nay cũng có ảnh hưởng mạnh đến giá cả. Người mua và người bán thường tham khảo giá trên eBay trước khi đến chợ trời và giá trên eBay thường trở thành giá mà sản phẩm được bán. Ngày càng nhiều người bán hàng ở chợ trời rao bán hàng trên eBay và điều hành công việc kinh doanh ở nhà. Sự ảnh hưởng của E-marketing lên nền công nghiệp quảng cáo ngày càng lớn. Chỉ trong vài năm, quảng cáo trực tuyến tăng trưởng đều đặn đến hàng chục tỷ USD. Theo báo cáo của Pricewaterhouse Coopers, thị trường E-marketing Mỹ trị giá tổng cộng 16,9 tỷ USD trong năm 2006.
Trong tất cả các công cụ của E – Marketing, Seach Engine Marketing và thiết kế web là một trong những công cụ không thể thiểu đế tạo nên thành công của chiến dịch Marketing. Trong xu thế phát triển của mạng Internet như hiện nay. Mọi thứ đều có thể được đưa lên mạng để cùng chia sẻ. Người tiêu dùng đã mặc nhiên coi Google là một công cụ tìm kiếm hữu hiệu và với họ. Họ mặc định rằng mọi thứ muốn tìm kiếm thì cứ lên trang Google tìm là có. Do vậy việc đòi hỏi tối ưu hóa công cụ tìm kiếm cũng như các hình thức quảng cáo trên máy tìm kiếm là rất cần thiết trong môi trường đầy cạnh tranh hiện nay.
CHƯƠNG II: GIỚI THIỆU CÔNG CỤ TÌM KIẾM
1. Công cụ tìm kiếm là gì?
Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính. Công cụ tìm kiếm tối thiểu hóa thời gian cần thiết để tìm kiếm thông tin bằng việc lưu trữ và xử lý thông tin theo nhiều cách.
Dạng phổ biến nhất của công cụ tìm kiếm đó là công cụ tìm kiếm Web (Web Search Engine) .
vd: Google Search, Yahoo Search, …
Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọn thông tin cần tìm và có cơ chế xử lý và tìm được thông tin tương ứng. Thông tin cần tìm sẽ tương ứng với một câu truy vấn.
2. Nguyên tắc hoạt động của công cụ tìm kiếm.
Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn được 3 điều kiện:
- Cho phép tìm kiếm trong một tập hợp lớn các trang web.
- Đưa ra kết quả gần với mong muốn của người sử dụng nhất.
- Tốc độ tìm kiếm chấp nhận được.
Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại đều tiến hành lần lượt theo bốn bước: web crawler, indexing, rank page và searching. Sau đây ta sẽ đi chi tiết vào từng phần.
2.1. Web crawler:
Web crawler là bộ phận chịu trách nhiệm download các trang web và lưu trữ chúng dưới dạng nén ở trong kho dữ liệu. Mục đích thiết kế của web crawler là làm cho nó download được số lượng trang web nhiều nhất trong khả năng đáp ứng của tài nguyên mạng và tốc độ, khả năng lưu trữ của máy.
Hình1.2a - Hoạt động của web crawler
Tất cả các công cụ tìm kiếm đều dựa trên mô hình web crawler như hình 1.2a Một Webcrawler sẽ sử dụng hai hàng đợi để quản lý các URL, đó là URLsToVisit (URL sẽ tới) và VisitedURLs (URL đã tới). Hàng đợi VisitedURL chứa danh sách các trang đã được download. Danh sách này rất quan trọng đối với các crawler để tránh việc download một trang nhiều lần. Trong khi đó hàng đợi URLsToVisit chứa danh sách các trang sẽ được download.
Nội dung ban đầu của hàng đợi URLsToVisit được gọi là seed list (danh sách hạt giống). Danh sách này sẽ ngày càng mở rộng theo thời gian. Trước khi crawler chạy lần đầu tiên, danh sách URLs hạt giống này sẽ được khởi tạo một cách thủ công hoặc có thể được lấy từ một số nguồn khác. Danh sách khởi tạo này lúc đầu có thể là một tập các web site bất kỳ, hoặc có thể là một tập các web site có chủ đề nhất định do người khởi tạo quyết định.
Webcrawler hoạt động dưới dạng các vòng lặp nối tiếp nhau. Một vòng lặp sẽ bắt đầu với việc lấy một URL từ hàng đợi URLsToVisit, tiếp đó webcrawler sẽ download trang web tương ứng với URL đó, lưu trữ trang web đó vào trong kho và đẩy URL đó vào trong hàng đợi VisitedURLs. Trong mỗi vòng lặp, webcrawler sẽ trích tất cả các link mà trang web vừa được lấy về, chuyển nó từ dạng link tương đối sang dạng link tuyệt đối, rồi kiểm tra ở hàng đợi VisitedURLs xem các trang này đã được download về chưa. Nếu URL nào đã được download về rồi, nó sẽ bỏ qua URL đó còn nếu chưa được download, nó sẽ chuyển URL đó vào hàng đợi URLsToVisit.
Quá trình này sẽ được lặp đi lặp lại cho đến khi nào hàng đợi URLsToVisit rỗng hoặc nó được dừng lại một cách có mục đích bởi người điều khiển.
Nếu việc lấy về một URL thất bại, crawler sẽ chuyển URL đó ngược lại vào hàng đợi URLsToVisit để thử lại lần sau. Nếu như việc lấy một URL thất bại trong nhiều lần, crawler sẽ bỏ qua nó vì rất có thể webserver chứa URL đó đã không còn hoạt động nữa.
Theo cách này, một crawler có thể lấy về một số lượng lớn các trang web chỉ từ một lượng rất nhỏ URL trong danh sách khởi tạo (seed list). Để có thể hiểu kỹ hơn về webcrawler, ta sẽ tìm hiểu những thiết kế và những rủi ro tiềm ẩn có thể gặp phải trong việc cài đặt và điều hành một webcrawler mức độ lớn.
Crawler song song
Hình 1.2a chỉ nêu nguyên tắc hoạt động chung của 1 crawler riêng biệt, nó chỉ sử dụng một hàng đợi URLsToVisit và một hàng đợi VisitedURLs. Mô hình trên là tổng quát cho các crawler nhưng có các nhược điểm sau:
- Dung lượng của bộ nhớ chính sẽ giới hạn kích thước của các hàng đợi URL, khi số trang web tăng lên rất lớn, một crawler riêng lẻ sẽ có thể bị quá tải và hiệu năng sẽ không cao.
- Tốc độ download các trang web về sẽ chậm do tiến trình download diễn ra một cách tuần tự.
Để giải quyết vấn đề trên, người ta đưa ra mô hình crawler song song (parallelism)
Web site – đơn vị cho quá trình crawler song song
Trước hết ta định nghĩa: một web site là một tập các trang web có cùng một tên miền đầy đủ trong URL của nó.
VD: các trang và trang sẽ thuộc cùng một website trong khi đó trang sẽ không thuộc cùng một Site với hai trang trên.
Vì vậy các link tương đối chắc chắn sẽ nằm trên cùng một site với trang đang xét còn các link tuyệt đối sẽ cần phải kiểm tra trước.
Hình 1.2b - Mô hình crawler song song
Tiếp theo ta sẽ làm rõ mô hình crawler song song. Hình 1.2b cho chúng ta thấy mô hình chung của một webcrawler song song. Mô hình này thực chất là một tập hợp các phần tử của mô hình crawler riêng biệt trong đó mỗi một crawler sẽ chịu trách nhiệm lấy về các trang web của chỉ duy nhất một Site và tiến trình lấy về các trang web này sẽ được diễn ra một cách đồng thời giữa các crawler trong mô hình.
Một điểm đáng lưu ý là mô hình trên đưa ra một bộ phân phối các URL khởi tạo (seed-URL dispenser). Bộ phân phối trên chứa danh sách tất cả các URL khởi tạo cho tất cả các tiến trình crawl. Mỗi một phần tử trong danh sách trên chứa các URL khởi tạo cho chỉ một Website, thông thường nó chứa URL gốc của site đó.
Trong mô hình trên, mỗi một site crawler sẽ bắt đầu bằng việc lấy về URL khởi tạo cho một Website từ bộ phân phối URL và sử dụng nó để khởi tạo cho hàng đợi URLsToVisit. Crawler sẽ đẩy vào hàng đợi URLsToVisit các URL mà nó lấy được trong site đó. Nguyên tắc của nó là nếu gặp các link ở trong site đó, nó sẽ lấy về còn nếu gặp các link ở ngoài site đó, nó sẽ bỏ qua.
Việc sử dụng crawler song song có giải quyết được các nhược điểm của crawler riêng biệt.
- Dung lượng của bộ nhớ chính sẽ không còn là vấn đề vì mỗi một site crawler chỉ lấy về các trang web có URL nằm trong site đó, do đó kích thước của các hàng đợi URLsToVisit và VisitedURLs không quá lớn.
- Tốc độ download các trang web lớn do việc lấy các trang web về diễn ra đồng thời. Các trang web không liên quan đến nhau sẽ được lấy về cùng một lúc.
Đó là nguyên tắc hoạt động chung của crawler, tất nhiên việc crawler không chỉ phụ thuộc vào nguyên tắc hoạt động, cấu trúc của nó mà còn phụ thuộc vào các yêu tố khác trên các trang web mà nó cần phải giải quyết. Một vấn đề điển hình đó là việc lấy về các trang web sẽ sinh ra những lưu lượng lớn trên đường truyền, và sẽ chẳng thú vị gì nếu những người chủ các site đó phải trả tiền cho băng thông của họ.
Một cách tự nhiên, có những luật đã được phát triển để quy định phương thức hoạt động của crawler, tuy không có ai chịu trách nhiệm hay đứng ra bảo đảm cho những luật này nhưng các crawler tốt đều chấp nhận và thực hiện đúng theo nó.
Thời gian trễ
Như chúng ta đã đặt vấn đề ở trên, việc tìm ra thời gian chạy một vòng lặp là rất quan trọng, nó phục thuộc vào kích thước và băng thông của mỗi site. Các site có kích thước và băng thông chênh lệch nhau quá lớn không thể có cùng một thời gian chạy các vòng lặp.
Thông thường đối với mỗi site, crawler sẽ lưu thông tin về thời gian trễ tương ứng với site đó ở chính trong danh sách URL khởi tạo. Ví dụ như mặc định của thời gian trễ của webBase crawler là 5 giây cho các trang web thương mại lớn và 20 giây cho các trang web nhỏ. Tuy nhiên điều này không cố định, các chủ nhân của site đó có thể liên lạc và thỏa thuận với quản trị của search engine về thời gian trễ này.
Các quy định đối với từng Server
Khi một quản trị web không muốn một số trang của họ bị crawl, họ sẽ sử dụng một công cụ đặc biệt đó là giao thức Robots Exclusion. Giao thức này bắt buộc tất cả các crawler sẽ phải tìm file robots.txt ở thư mục gốc của site đó. File này sẽ liệt kê một danh sách các URL mà crawler không được lấy về và một crawler tốt sẽ tuân theo quy định này.
Một trong những nhược điểm của crawler song song đó là vấn đề các trang cô lập địa phương. Bởi vì các site crawler không theo các link tới các trang ở ngoài site đó nên có thể có nhiều site sẽ không được lấy về.
Hình 1.2c chỉ rõ vấn đề này. Hai Website S1 và S2 được download bởi hai site crawler C1 và C2. Vì trang d chỉ có thể đến thông qua link từ site S2 nên các trang d và e sẽ không bao giờ được download bởi bất cứ crawler nào. Bằng cách kiểm tra các nhanh các trang có được trong lần crawl trước. Nếu một trang trong lần kiểm tra trước có một link tới trang d, nhưng trang d không tồn tại trong lần kiểm tra này, trang d sẽ được cho vào bộ phân phối URL khởi tạo cho lần crawl tiếp theo.
Hình 1.2c - Các site bị khuất
Crawler đơn tiến trình
Một cách tiếp cận thiết kế điển hình như trên là mô hình thiết kế một tiến trình gắn với một site (process-per-site). Cách thiết kế này sẽ thực hiện mỗi site crawler như một tiến trình độc lập, nó sẽ trút gánh nặng quản lý song song vào bộ phận điều khiển tiến trình của hệ điều hành.
Trong khi đó, thiết kế crawl đơn tiến trình (single-crawl-process) gói tất cả các site crawler vào một tiến trình duy nhất và quản lý các yêu cầu như một vòng lặp sự kiện. Trong thiết kế này, vòng lặp được tạo ra các sự kiện site request một cách tuần tự sau khi đã có thời gian trễ. Cách tiếp cận này được chỉ ra trong hình 1.2d.
Hình 1.2d - Crawl nhiều site trên một tiến trình
Hình trên cho thấy 2 crawler chạy trên cùng một tiến trình. Ngược lại với thiết kế ở hình 1.2a, việc cài đặt crawl đơn tiến trình đưa ra một bộ đếm thời gian trước khi lấy về các trang từ URLsToVisit. Bộ đếm thời gian này sẽ quyết định độ trễ trước mỗi một lần request trang đó. Vòng lặp sự kiện trung tâm sẽ điều khiển việc đồng bộ các crawler.
2.2. Indexing:
Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục vụ cho các truy vấn. Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ mục offset (offset index), chỉ mục text (text index) và chỉ mục link/graph (link/graph index). Offset index ghi nhận vị trí vật lý của mỗi trang web trong cơ sở dữ liệu, nơi mà lưu trữ các trang web đã được nén.
Chỉ mục này cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở dữ liệu. Text index cho phép truy vấn hướng nội dung, sử dụng các chỉmục ngược để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ liệu. Cuối cùng, link index cung cấp truy vấn hướng liên kết (VD: Gọi đến tập các trang mà trang X trỏ tới ).
Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ xây dựng lên các chỉ mục gốc khác nhau. Ví dụ, sử dụng chỉ mục liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính toán và lưu trữ PageRank của mỗi trang trong cơ sở dữ liệu ( chỉ mục PageRank ).
Tương tự, bằng cách kết hợp thông tin liên kết và nội dung của trang web, khối phân tích có thể xây dựng một chỉ mục tương tự mà ánh xạ mỗi trang tới 1 tập các trang tương tự.
Thiết kế chiến lược
Ảnh hưởng to lớn bởi số lượng khổng lồ các trang Web trên mạng, chúng ta phải thiết kế một lược đồ xây dựng và cấu trúc biểu diễn mới cho rất nhiều chỉ mục được sử dụng. Thiết kế này có các đặc điểm sau:
- Chỉ mục được xây dựng song song và phân tán. Do kích cỡ khổng lồ của mạng không cho phép thực hiện trực tiếp lược đồ xây dựng chỉ mục tuần tự đơn giản mà áp dụng rất tốt cho các tập hợp dữ liệu vừa và nhỏ ( khoảng vài triệu văn bản hoặc hình ảnh của vài nghìn node ). Cách thực hiện song song và phân tán các tính toán tích kiệm lớn chi phí và thời gian thực hiện.
- Nén và bộ đệm của cấu trúc chỉ mục. Nhiều chỉ mục trên mạng quá đồ sộ để có thể chứa trong bộ nhớ chính. Vì vậy, chỉ mục được nén và lưu đệm là giải pháp nhằm giảm thiểu thời gian truy cập các chỉ mục.
- Định danh trang đặc tả chỉ mục. Điều này cấn thiết cho mỗi cấu trúc chỉ mục để tận dụng các định danh đặc tả chỉ mục của chính nó để giảm thiểu thời gian truy nhập và kích cỡ chỉ mục.
Chỉ mục văn bản ( Text index)
Để cung cấp dịch vụ hướng văn bản cơ sở, chúng ta xây dựng các chỉ mục ngược thông qua tập các trang web trong cơ sở dữ liệu. Kích cỡ của cơ sở dữ liệu các trang web lưu trữ và sự cần thiết của việc thu thập định kì và xây dựng lại chỉ mục yêu cầu chúng ta xây dựng một lược đồ xây dựng chỉ mục tin cậy và hiệu quả cao.
Việc xây dựng các chỉ mục ngược tăng tối đa tốc độ và khối lượng sử lý index cho hệ thống. Do đó các hệ thống hiện nay đều sử dụng phương pháp này để tiết kiệm tài nguyên.
Hình 1.2e - Chỉ mục văn bản
Chỉ mục ngược xây dựng hệ thống kiến trúc không chia sẻ phân tán như hình trên. Chỉ mục ngược được xây dựng thành 2 giai đoạn. Giai đoạn đầu tiên, mỗi một chỉ mục nhận một tập con tách rời của trang web. Khối Indexer sẽ phân tích và trích dẫn các đoạn từ trang web, sắp xếp các đoạn vào trong bộ nhớ, và chuyển chúng vào cấu trúc hiện tại trên đĩa. Trong giai đoạn thứ hai, các cấu trúc này được trộn lẫn nhau để tạo ra một hoặc nhiều file phân tán.
Hai chức năng chính của hệ thống là đánh chỉ mục song song mức độ cao và việc sử dụng hệ thống cơ sở dữ liệu nhúng để lưu trữ và quản lý các file chỉ mục ngược.
Đánh chỉ mục song song mức độ cao.
Chúng ta chia quá trình sắp xếp thành ba pha: pha tải (một số trang được đọc từ luồng đầu vào và được lưu trong bộ nhớ), pha xử lý (các trang được phân tích và đánh dấu để sinh ra các đoạn, mà sau đó được sắp xếp thứ tự), và pha ghi