Khóa luận Nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ Web theo yêu cầu

Ngày nay, Internet đã trở thành một dịch vụ thông dụng và phổ biến trên thế giới. Cùng với sự phát triển của Internet, nhu cầu truy xuất thông tin qua mạng của con người ngày càng tăng. Với một khối lượng dữ liệu khổng lồ như hiện nay sẽ khiến cho người dùng vô cùng khó khăn khi muốn tìm kiếm một thông tin nào đó phục vụ cho nhu cầu của mình. Xuất phát từ thực tế này, nhu cầu tổng hợp và rút trích thông tin đã trở thành một nhu cầu cấp bách và không thể thiếu được. Đây cũng chính là mục tiêu trong đề tài nghiên cứu của chúng em. Nội dung đề tài tập trung vào việc nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ web theo yêu cầu. Hệ thống này sẽ giúp cho người dùng có thể thu thập nhiều thông tin khác nhau một cách tự động. Quá trình thu thập thông tin sẽ được hệ thống ghi nhận lại dưới tập tin XML được gọi là WebBot. Hệ thống sẽ tự động vận hành các WebBot theo một chu kỳ định trước để thu thập các thông tin cần thiết theo yêu cầu của người dùng. Đồng thời, hệ thống cung cấp các dịch vụ để truyền dữ liệu đầu ra cho người dùng tại một địa chỉ nhất định theo các định dạng theo yêu cầu của mà người dùng hoặc các hệ thống khác. Dựa vào hệ thống xây dựng sẽ là một máy rút trích tổng quát phục vụ cho nhiều nhu cầu rút trích thông tin ứng dụng trong nhiều lĩnh vực khác nhau như chứng khoán, tổng hợp tin tức, tìm kiếm bài hát, phần mềm, Nội dung khóa luận bao gồm 9 chương: Chương 1: Mở đầu Chương 2: Khảo sát hiện trạng Chương 3: Các vấn đề và giải pháp cho hệ thống xây dựng và vận hành robot thu thập thông tin trên web Chương 4: Tổng quan toàn bộ hệ thống Chương 5: Phân hệ WebBot Creator Chương 6: Phân hệ WebBot Online Manager Chương 7: Phân hệ WebBot Watcher Chương 8: Phân hệ WebBot Services Chương 9: Kết luận và hướng phát triển hệ thống

97 trang | Chia sẻ: tuandn | Lượt xem: 2541 | Lượt tải: 0Free

Bạn đang xem trước 20 trang tài liệu Khóa luận Nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ Web theo yêu cầu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN ĐỨC HUY – NGUYỄN HUY KHÁNH NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG XÂY DỰNG VÀ VẬN HÀNH TỰ ĐỘNG WEBBOT THU THẬP THÔNG TIN TRÊN INTERNET ĐỂ CUNG ỨNG CÁC DỊCH VỤ WEB THEO YÊU CẦU KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN CNTT TP.HCM, 2008 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN ĐỨC HUY 05HC077 NGUYỄN HUY KHÁNH 05HC087 NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG XÂY DỰNG VÀ VẬN HÀNH TỰ ĐỘNG WEBBOT THU THẬP THÔNG TIN TRÊN INTERNET ĐỂ CUNG ỨNG CÁC DỊCH VỤ WEB THEO YÊU CẦU KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN Th.S ĐỖ HOÀNG CƯỜNG - Th.S TRẦN MINH TRIẾT NIÊN KHÓA 2005 – 2008 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… Khóa luận đáp ứng yêu cầu của LV cử nhân tin học. TpHCM, ngày …… tháng …… năm 2008 Giáo viên hướng dẫn NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… Khóa luận đáp ứng yêu cầu của LV cử nhân tin học. TpHCM, ngày …… tháng …… năm 2008 Giáo viên phản biện LỜI CÁM ƠN Chúng em xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học Khoa Học Tự Nhiên, Tp.HCM đã tạo điều kiện tốt cho chúng em thực hiện đề tài tốt nghiệp này. Chúng em xin chân thành cảm ơn Thầy Đỗ Hoàng Cường và Thầy Trần Minh Triết những người đã tận tình hướng dẫn, chỉ bảo chúng em trong suốt thời gian thực hiện đề tài. Chúng em cũng xin gửi lời cảm ơn sâu sắc đến quý Thầy Cô trong Khoa đã tận tình giảng dạy, trang bị cho chúng em những kiến thức quí báu trong những năm học vừa qua. Chúng em xin gửi lòng biết ơn sâu sắc đến ba, mẹ, các anh chị và bạn bè đã ủng hộ, giúp đỡ và động viên chúng em trong những lúc khó khăn cũng như trong suốt thời gian học tập và nghiên cứu. Mặc dù chúng em đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các bạn. Nhóm thực hiện Nguyễn Đức Huy & Nguyễn Huy Khánh ĐỀ CƯƠNG CHI TIẾT Tên Đề Tài: Nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ web theo yêu cầu Giáo viên hướng dẫn: ThS. Đỗ Hoàng Cường – ThS. Trần Minh Triết Thời gian thực hiện: từ ngày 07/12/2007 đến ngày 15/07/2008 Sinh viên thực hiện: Nguyễn Đức Huy (05HC077) – Nguyễn Huy Khánh (05HC087) Loại đề tài: Tìm hiểu công nghệ và xây dựng ứng dụng Nội Dung Đề Tài (mô tả chi tiết nội dung đề tài, yêu cầu, phương pháp thực hiện, kết quả đạt được, …): Đây là đề tài thuộc về hướng tìm hiểu công nghệ và phát triển ứng dụng. Đề tài bao gồm các phần sau: Khảo sát hiện trạng các hệ thống phần mềm thu thập thông tin tự động hiện đang có trên thế giới: Kapow Mashup Server, iMacros, Newbie Web Automation, Automation Anywhere, SWExplorerAutomation. Thông qua việc khảo sát hiện trạng của các hệ thống trên, phân tích các vấn đề cũng như giải pháp về kỹ thuật, công nghệ khi phát triển hệ thống xây dựng và vận hành WebBot.. Nêu lên các vấn đề khi xây dựng hệ thống. Đề ra các giải pháp mang tính kĩ thuật, công nghệ. Trên cở sở tìm hiểu và phân tích các vấn đề, nhóm sẽ phát triển hệ thống xây dựng và vận hành WebBot thu thập thông tin trên Web. Trên cơ sở phát triển hệ thống này, nhóm xây dựng website cung cấp dịch vụ web cho phép những website khác đưa lên những thông tin đã được rút trích, thu thập thông tin từ nhiều nguồn khác nhau Kế Hoạch Thực Hiện: 07/12/2007 đến 14/12/2007: Khảo sát hiện trạng các chức năng của công cụ rút trích thông tin và các hệ thống so sánh giá hiện có. 15/12/2007 đến 15/01/2008: Phân tích các yêu cầu, vấn đề, giải pháp khi xây dựng hệ thống. 16/01/2008 đến 16/02/2008: Tìm hiểu và hoàn tất các yêu cầu về mặt kĩ thuật. 17/02/2008 đến 31/02/2008: Xây dựng khung chương trình cho hệ thống thu thập thông tin trên Web. 01/03/2008 đến 13/04/2008: Hoàn thành các chức năng chính của hệ thống. 14/04/2008 đến 31/04/2008: Nâng cấp, cải thiện hiệu suất tốc độ xử lý 01/05/2008 đến 11/05/2008: Xây dựng khung chương trình cho hệ thống dịch vụ web 12/05/2008 đến 31/05/2008: Hoàn thành các chức năng của dịch vụ web 01/06/2008 đến 22/06/2008: Nâng cấp giao diện và tính tiện dụng của website cung cấp dịch vụ 23/06/2008 đến 15/07/2008: Hoàn thành toàn bộ chương trình dựa trên qui trình và giải pháp đã xây dựng. Xác nhận của GVHD Ngày 10 tháng 01 năm 2008SV Thực hiện MỤC LỤC DANH MỤC CÁC HÌNH Hình 21 Mô hình Kapow Mashup Server 6 Hình 22 Giao diện của phần mềm Robot Maker 6.4 7 Hình 23 Mô hình Web 2.0 Editon của hệ thống Kapow Mashup Server 8 Hình 24 Giao diện của hệ thống iMacros 9 Hình 25 Mô hình hệ thống iMacros 10 Hình 26 Giao diện của hệ thống New Web Automation 14 Hình 27 Mô hình hệ thống Automation Anywhere 16 Hình 28 Giao diện của phần mềm Web Recorder 16 Hình 29 Giao diện hệ thống Automation Anywhere 17 Hình 210 Giao diện của hệ thống SWExplorerAutomation 19 Hình 31 Hiển thị trực quan cấu trúc trang web 29 Hình 32 Context menu đã được thay đổi 30 Hình 41 Mô hình kiến trúc hệ thống 42 Hình 42 Nội dung lưu trữ tầng Data 43 Hình 43 Các thành phần ở tầng Business 44 Hình 44 Các thành phần ở tầng Data Presentation 44 Hình 45 Các ứng dụng chính ở tầng Application 45 Hình 51 Trình đơn ngữ cảnh 47 Hình 52 Giao diện WebBot Creator 48 Hình 53 Kiến trúc WebBot Creator 49 Hình 54 Sử dụng WebBot Creator 51 Hình 55 Cửa sổ Action Diagram của WebBot Creator 52 Hình 56 Trình đơn ngữ cảnh của WebBot Creator 52 Hình 57 Rút trích chi tiết thuộc tính của element 53 Hình 58 Đặt tham số cho hành động của WebBot 54 Hình 59 Kết quả thực thi WebBot trên WebBot Creator 55 Hình 61 Qui trình Upload WebBot 57 Hình 62 Qui trình gửi kết quả thực thi WebBot 58 Hình 63 Mô hình kiến trúc hệ thống phân hệ WebBot Online Manager 60 Hình 64 Giao diện WebBot Online Manager 61 Hình 65 Giao diện quản lý tài khoản 62 Hình 66 Hộp thoại Upload WebBot 63 Hình 67 Giao diện quản lý WebBot 64 Hình 71 Qui trình theo dõi yêu cầu thực thi WebBot 66 Hình 72 Qui trình thực thi WebBot 67 Hình 73 Mô hình kiến trúc phân hệ WebBot Watcher 68 Hình 74 Giao diện WebBot Watcher 69 Hình 81 Tạo WebBot Feed bằng WebBot Creator 73 Hình 82 Xem Feed bằng Window Sidebar 74 Hình 83 Ví dụ Web clip trên vnexpress.net 75 Hình 84 Mô hình kiến trúc phân hệ WebBot services 76 DANH MỤC CÁC BẢNG Bảng 21 Bảng giá các gói phần mềm hệ thống iMacros 12 Bảng 22 Bảng giá các gói phần mềm hệ thống Newbie Web Automation 15 Bảng 23 Bảng giá các gói phần mềm hệ thống Automation Anywhere 18 Bảng 24 Bảng giá các gói phần mềm hệ thống SWExplorerAutomation 20 Bảng 25 Bảng so sánh các chức năng của các hệ thống phần mềm đã khảo sát 22 Bảng 41 Các thành phần chính của hệ thống WebBot 41 Bảng 42 Các thành phần ở tầng Data 43 Bảng 43 Các thành phần ở tầng Business 44 Bảng 44 Các thành phần ở tầng Data Presentation 45 Bảng 45 Các thành phần ở tầng Application 45 Bảng 51 Các thành phần của phân hệ WebBot Creator 50 Bảng 61 Các thành phần của phân hệ WebBot Online Manager 60 Bảng 71 Các thành phần của phân hệ WebBot Watcher 69 Bảng 81 Các API của SOAP Webservice 71 Bảng 82 Các tham số trong URI của REST Web service 72 TÓM TẮT KHÓA LUẬN Ngày nay, Internet đã trở thành một dịch vụ thông dụng và phổ biến trên thế giới. Cùng với sự phát triển của Internet, nhu cầu truy xuất thông tin qua mạng của con người ngày càng tăng. Với một khối lượng dữ liệu khổng lồ như hiện nay sẽ khiến cho người dùng vô cùng khó khăn khi muốn tìm kiếm một thông tin nào đó phục vụ cho nhu cầu của mình. Xuất phát từ thực tế này, nhu cầu tổng hợp và rút trích thông tin đã trở thành một nhu cầu cấp bách và không thể thiếu được. Đây cũng chính là mục tiêu trong đề tài nghiên cứu của chúng em. Nội dung đề tài tập trung vào việc nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ web theo yêu cầu. Hệ thống này sẽ giúp cho người dùng có thể thu thập nhiều thông tin khác nhau một cách tự động. Quá trình thu thập thông tin sẽ được hệ thống ghi nhận lại dưới tập tin XML được gọi là WebBot. Hệ thống sẽ tự động vận hành các WebBot theo một chu kỳ định trước để thu thập các thông tin cần thiết theo yêu cầu của người dùng. Đồng thời, hệ thống cung cấp các dịch vụ để truyền dữ liệu đầu ra cho người dùng tại một địa chỉ nhất định theo các định dạng theo yêu cầu của mà người dùng hoặc các hệ thống khác. Dựa vào hệ thống xây dựng sẽ là một máy rút trích tổng quát phục vụ cho nhiều nhu cầu rút trích thông tin ứng dụng trong nhiều lĩnh vực khác nhau như chứng khoán, tổng hợp tin tức, tìm kiếm bài hát, phần mềm, … Nội dung khóa luận bao gồm 9 chương: Chương 1: Mở đầu Chương 2: Khảo sát hiện trạng Chương 3: Các vấn đề và giải pháp cho hệ thống xây dựng và vận hành robot thu thập thông tin trên web Chương 4: Tổng quan toàn bộ hệ thống Chương 5: Phân hệ WebBot Creator Chương 6: Phân hệ WebBot Online Manager Chương 7: Phân hệ WebBot Watcher Chương 8: Phân hệ WebBot Services Chương 9: Kết luận và hướng phát triển hệ thống Mở đầu ? Nội dung của chương này trình bày xu hướng phát triển hiện nay và nhu cầu của việc xây dựng các hệ thống rút trích và tổng hợp thông tin tự trên Internet đồng thời nêu lên mục tiêu, nội dung và ý nghĩa của đề tài. Giới thiệu Web 2.0 và xu hướng phát triển Cách đây vài thập kỉ Internet là một khái niệm khá xa lạ với mọi người. Internet dường như chỉ dành cho những nhà nghiên cứu, những người có chút kiến thức về tin học, là nơi trao đổi thông tin dữ liệu qua lại với nhau. Thì ngày nay, người sử dụng Internet có thể là bất cứ ai, phục vụ mọi nhu cầu thiết yếu của con người từ vui chơi giải trí, nghe nhạc, chơi game, mua sắm, theo dõi thông tin thời sự, thời tiết, chứng khoán, đến học tập, nghiên cứu, quảng bá sản phẩm, kinh doanh. Có thể nói Internet là một một thư viện thông tin khổng lồ được cập nhật liên tục từng phút từng giây, và phát triển với tốc độ chóng mặt. Cũng chính vì sự phát triển nhanh chóng và rộng khắp của Internet, nội dung của một trang web được pha trộn rất nhiều thông tin với nhau, ngoài thông tin chính còn có các thông tin liên quan và các thông tin quảng cáo. Điều này gây nhiều bối rối với người muốn tìm chính xác thông tin mình cần trên Internet. Cùng với sự ra đời và phát triển của Web 2.0 trong thời gian gần đây. Web 2.0 đã không còn làm một khái niệm khá xa lạ đối với nhiều người nó ngày càng trở nên phổ biến hơn bao giờ hết. Dường như hiện nay hầu hết người sử dụng web không ai mà không sử dụng ứng dụng của Web 2.0. Dù biết hay không nhưng họ cũng nhận ra rằng các trang web hiện nay không chỉ đơn thuần là nguồn cung cấp thông tin đơn thuần như báo hay truyền hình mà còn có thể tương tác với chúng. Nội dung của trang web không chỉ gói gọn trong website đó mà có thể liên kết với những trang web hoặc những ứng dụng khác. Web 2.0 đã làm xuất hiện thêm các thuật mới như Web API, Syndication Feed, Mashup, … Nếu như Web API mang đến khả năng cung cấp thông tin web mà không cần phải vào trang web đó, Syndication Feed là dịch vụ cho phép cập nhật nhanh chóng nội dung tóm lược của trang web thì Mashup như một công cụ có khả năng lấy thông tin từ nhiều nguồn dữ liệu khác nhau nhằm tạo một dịch vụ mới tổng hợp từ các nguồn dữ liệu đó. Giới thiệu về đề tài Web 2.0 đã mở ra một thời kì mới cho công nghệ web. Các trang web phát triển theo Web 2.0 đa phần cung cấp các giao thức truyền thông SOAP hoặc REST để trao đổi thông tin giữa trang web với người dùng hoặc các ứng dụng khác. Tuy nhiên không hẳn các dịch vụ mà trang web đó cung cấp đáp ứng đúng nhu cầu của người dùng, hơn nữa các trang Web 1.0 không có các dịch vụ này. Vì thế vấn đề đặt ra ở đây là làm thế nào ta có thể thiết kế một Robot tự động hay bán tự động để có thể thực hiện việc rút trích các thông tin cần thiết cũng như tổng hợp thông tin trên web thành các dịch vụ API cung cấp cho người sử dụng hoặc các hệ thống khác. Mục tiêu của đề tài Đây là đề tài thuộc về hướng tìm hiểu công nghệ và phát triển ứng dụng. Đề tài hướng vào mục tiêu là chính là hỗ trợ người dùng tạo ra các WebBot tổng hợp thông tin tự động hoặc bán tự động từ các website theo yêu cầu của người dùng. Đề tài bao gồm các phần sau: Khảo sát hiện trạng các hệ thống phần mềm thu thập thông tin tự động hiện đang có trên thế giới: Kapow Mashup Server, iMacros, Newbie Web Automation, Automation Anywhere, SWExplorerAutomation. Thông qua việc khảo sát hiện trạng của các hệ thống trên, phân tích các vấn đề cũng như giải pháp về kỹ thuật, công nghệ khi phát triển hệ thống xây dựng và vận hành WebBot. Xác định các vấn đề khi phát triển hệ thống. Đề ra các giải pháp kỹ thuật và công nghệ. Trên các cơ sở tìm hiểu và phân tích, nhóm sẽ phát triển hệ thống vận hành các WebBot. Các WebBot này sẽ vận hành để lấy về kết quả là các thông tin mà người dùng yêu cầu và cung cấp dịch vụ trả dữ liệu về theo các yêu cầu như: SOAP Web Service, REST Web Service, RSS Feed, ATOM Feed. Trên cơ sở phát triển hệ thống này, nhóm xây dựng các ứng dụng minh họa cho các tính năng chính của hệ thống. Nội dung của luận văn Luận văn bao gồm 9 chương, sau đây là nội dung chính của từng chương: Chương 1: Mở đầu Nội dung của chương này trình bày xu hướng phát triển hiện nay và nhu cầu của việc xây dựng các hệ thống rút trích và tổng hợp thông tin tự trên Internet đồng thời nêu lên mục tiêu, nội dung và ý nghĩa của đề tài. Chương 2: Khảo sát hiện trạng Nội dung của chương 2 trình bày về việc khảo sát hiện trạng của các công cụ rút trích thông tin tự động trên Internet trên thế giới. Chương 3: Các vấn đề và giải pháp cho hệ thống xây dựng và vận hành robot thu thập thông tin trên web Nội dung chương này sẽ trình bày về các vấn đề cũng như giải pháp khi phát triển hệ thống. Từ đó quyết định công nghệ và nền tảng xây dựng hệ thống. Chương 4: Tổng quan toàn bộ hệ thống Chương 4 sẽ giới thiệu tính năng của toàn bộ hệ thống đồng thời mô tả kiến trúc của toàn hệ thống. Ứng với mỗi phân hệ chính sẽ có những mô tả tổng quát. Chương 5: Phân hệ WebBot Creator Nội dung của chương 5 trình bày chi tiết qui trình thực hiện, kiến trúc hệ thống và các tính năng của phân hệ WebBot Creator cộng với các dịch vụ mà hệ thống này cung cấp trong việc hỗ trợ tạo WebBot. Chương 6: Phân hệ WebBot Online Manager Nội dung của chương 6 trình bày chi tiết qui trình thực hiện, kiến trúc hệ thống và các tính năng của phân hệ WebBot Manager cộng với các dịch vụ mà hệ thống này cung cấp trong việc quản lý các tài khoản người dùng, quản lý các WebBot, quá trình thực hiện upload WebBot lên hệ thống máy chủ và hiển thị nộp dung kết quả thực hiện của WebBot. Chương 7: Phân hệ WebBot Watcher Nội dung của chương 7 trình bày chi tiết qui trình thực hiện, kiến trúc hệ thống và các tính năng của phân hệ WebBot Watcher cộng với các dịch vụ mà hệ thống này cung cấp trong việc giám sát các yêu cầu thực thi của các WebBot và tự động vận hành các WebBot này khi có yêu cầu. Chương 8: Phân hệ WebBot Services Nội dung của chương 8 trình bày chi tiết qui trình thực hiện, kiến trúc hệ thống và các tính năng của phân hệ WebBot Services cộng với các dịch vụ mà hệ thống này cung cấp trong việc định dạng các kết quả thực hiện của WebBot và cung cấp các dịch vụ để kết xuất các kết quả này ra bên ngoài theo yêu cầu của người dùng. Chương 9: Kết luận Nội dung của chương 9 trình bày các kết quả đạt được và hướng phát triển của đề tài. Khảo sát hiện trạng ? Nội dung của chương 2 trình bày về việc khảo sát hiện trạng của các công cụ rút trích thông tin tự động trên Internet trên thế giới. Khảo sát các công cụ tự động hóa và rút trích thông tin trên web Kapow Mashup Server Website: Tổng quan hệ thống phần mềm Kapow Technologies được thành lập năm 1998 bởi Stefan Andreasen và Ebbe Groes. Đây là một trong những công ty hàng đầu thế giới về lĩnh vực cung ứng các dịch vụ và công cụ trong lĩnh vực thu thập thông tin, tương tác web,… đặc biệt là hệ thống thu thập thông tin tự động trên web với với phần mềm RobotMaker. Hình 21 Mô hình Kapow Mashup Server Kapow Mashup Server là một phần mềm rất mạnh về việc tạo ra các Robot để rút trích thông tin hay tương tác với các website. Phần mềm được sử dụng để tạo ra các robot có khả năng phân tích các RSS mà các website trên Internet có hỗ trợ hay khả năng thu thập thông tin một cách tự động ví dụ như robot thu thập nhiều links tìm được trong google, hay thu thập thông tin về các trận đấu bóng đá, thu thập các email mới trong hộp mail yahoo, gmail, thực hiện việc gửi tin nhắn tự động cho danh sách các thuê báo từ một hệ thống web của Mobifone hay Vinaphone… Các Robot là một loạt các hành động do người dùng thực hiện và phần mềm RobotMaker của hệ thống Kapow Mashup Server sẽ ghi nhận lại tạo thành một file kịch bản (script) được gọi là Robot. Hình 22 Giao diện của phần mềm Robot Maker 6.4 Sau khi thực hiện đầy đủ các hành động cho Robot. RobotMaker sẽ hỗ trợ cơ chế lưu trữ Robot này lại dưới dạng một file kịch bản (script) nhị nhân. Để Robot này có thể vận hành được thì Kapow hỗ trợ cho người dùng 2 phương thức sau: Nếu bạn là người dùng thử thì sau khi tạo ra robot để thực thi được nó, người sử dụng phải gửi robot này đến trang web mà công ty Kapow Technologies cung cấp để có thể kiểm chứng và xem kết quả quá trình thực thi robot mà bạn đã tạo ra. Nếu bạn là khách hàng của Kapow Technologies, thì bạn sẽ có phần mềm để có thể thực thi robot, không cần đến service mà công ty này hỗ trợ Sau khi đưa Robot vào vận hành tự động thì chúng ta cần phải thiết lập một số thông số để định dạng dữ liệu đầu ra theo ý muốn. Hình 23 Mô hình Web 2.0 Editon của hệ thống Kapow Mashup Server Hệ thống Web 2.0 Edition của Kapow Mashup Server cung ứng cho người dùng nhiều định dạng dữ liệu đầu ra: Mashup Builder: là một cơ chế định dạng và tổ chức dữ liệu từ nhiều Robot lấy thông tin từ nhiều nguồn khác nhau. Java/.Net Toolkits: hỗ một số dịch cung ứng để các ứng dụng Java hay .Net có thể lấy dữ liệu về được. Ví dụ: hệ thống Ajax, PHP, …. Hiện nay, phần mềm RobotMaker của công ty Kapow Technologies đã được phát triển lên đến version 6.4 và vẫn còn đang được tiếp tục phát triển để hoàn thiện các chức năng. Về giá của hệ thống này thì tùy thuộc vào nhu cầu của doanh nghiệp mà phía Công ty Kapow Technologies sẽ có một định mức giá khác nhau. Khi muốn đang ký sử dụng hệ thống thì khách hàng phải liên lạc trực tiếp với để thương lượng giá cả và ký kết hợp đồng. Ngôn ngữ xây dựng lên hệ thống: Java Ưu khuyết điểm Ưu điểm Hệ thống hỗ trợ nhiều cơ chế định dạng dữ liệu đầu ra. Tính mềm dẻo trong việc thiết kế Robot. Khuyết điểm Thao tác duyệt web thực hiện qua nhiều thao tác khiến người dùng gặp nhiều khó khăn trong việc thiết kết Robot. Hệ thông bị hạn chế không lấy được link trong các website có chứa Frame. iMacros Website: Tổng quan hệ thống phần mềm Sử dụng iMacros để tạo các solution cho web automation, web scraping hoặc web testing chỉ trong 5 phút. Hình 24 Giao diện của hệ thống iMacros Hình 25 Mô hình hệ thống i