Luận văn Tóm tắt Phân cụm người sử dụng Web dựa trên mẫu truy cập

Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web. Nói cách khác, khai phá Web là việc thăm dò những thông tin quan trọng và những mẫu tiềm năng từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang, bằng việc sử dụng các kỹ thuật khai phá dữ liệu, nó có thể giúp con người rút ra những tri thức, cải tiến việc thiết kế các Web site và phát triển thương m ại điện tử tốt hơn[12]. Khai phá Web được phân loại thành 3 lĩnh vực chính [12]: Khai phá nội dung Web (Web Content Mining); Khai phá cấu trúc Web (Web Structure Mining); Khai phá sử dụng Web (Web Usage Mining). Khai phá sử dụng Web là một trong những lĩnh vực nghiên cứu chính trong khai phá Web tập trung vào việc xem xét người sử dụng Web và tương tác của họ với các trang Web. Động lực của khai phá sử dụng Web là tìm những mô hình truy cập của người sử dụng từ khối lượng lớn dữ liệu đăng nhập Web, chẳng hạn như: đường dẫn truy cập thường xuyên, tần xuất truy cập nhóm trang và phân nhóm người dùng.

25 trang | Chia sẻ: tuandn | Lượt xem: 2374 | Lượt tải: 4

Bạn đang xem trước 20 trang tài liệu Luận văn Tóm tắt Phân cụm người sử dụng Web dựa trên mẫu truy cập, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------------- HOÀNG VŨ PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Người hướng dẫn khoa học: PGS. TS Trần Đình Quế TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2012 - 1 - MỞ ĐẦU Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web. Nói cách khác, khai phá Web là việc thăm dò những thông tin quan trọng và những mẫu tiềm năng từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang,… bằng việc sử dụng các kỹ thuật khai phá dữ liệu, nó có thể giúp con người rút ra những tri thức, cải tiến việc thiết kế các Web site và phát triển thương mại điện tử tốt hơn[12]. Khai phá Web được phân loại thành 3 lĩnh vực chính [12]: Khai phá nội dung Web (Web Content Mining); Khai phá cấu trúc Web (Web Structure Mining); Khai phá sử dụng Web (Web Usage Mining). Khai phá sử dụng Web là một trong những lĩnh vực nghiên cứu chính trong khai phá Web tập trung vào việc xem xét người sử dụng Web và tương tác của họ với các trang Web. Động lực của khai phá sử dụng Web là tìm những mô hình truy cập của người sử dụng từ khối lượng lớn dữ liệu đăng nhập Web, chẳng hạn như: đường dẫn truy cập thường xuyên, tần xuất truy cập nhóm trang và phân nhóm người dùng. Thông qua khai phá sử dụng Web, thông tin đăng nhập máy chủ, đăng ký thông tin và thông tin liên quan khác của người - 2 - truy cập sẽ cung cấp nền tảng cho việc ra quyết định đối với việc tổ chức không gian Web, tối ưu Web site [9][11]. Phân cụm người sử dụng Web là việc tạo các nhóm người sử dụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa các dịch vụ Web [10]. Việc nghiên cứu các mô hình phân cụm và áp dụng các phương pháp phân cụm người dùng Web trong khai phá sử dụng Web là một xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn. Luận văn tập trung nghiên cứu về ứng dụng của kỹ thuật phân cụm người sử dụng Web dựa trên mẫu truy cập Web. Dựa trên những tiêu chuẩn khác nhau, người dùng Web có thể được phân cụm và tri thức hữu ích có thể được lấy ra từ các mẫu truy cập của họ. Nội dung bao gồm:  Tìm hiểu về bài toán phân cụm người sử dụng Web dựa trên mẫu truy cập và các ứng dụng.  Nghiên cứu, cài đặt các thuật toán sử dụng trong quá trình tiền xử lý dữ liệu, bao gồm các giải thuật trong các pha: - Làm sạch dữ liệu - Xác định người sử dụng - Xác định phiên của người sử dụng - Xác định phiên giao dịch với đường dẫn đầy đủ - Biểu diễn dữ liệu theo mô hình không gian vector - 3 -  Tiến hành thực nghiệm với nguồn dữ liệu thực tế: Từ nguồn dữ liệu thực tế, sau các pha tiền xử lý, dữ liệu được biểu diễn theo mô hình không gian vector, phù hợp với định dạng mà bộ công cụ WEKA chấp nhận, tiến hành thực nghiệm phân cụm.  Dựa trên các kết quả thử nghiệm, phân tích và đánh giá, hỗ trợ đưa ra khuyến cáo giúp cho việc phát triển các chiến lược tiếp cận người sử dụng phù hợp, xây dựng và tổ chức một cách tốt nhất không gian Web. Luận văn được chia thành 3 chương chính như sau: Chương 1 – Tổng quan về khai phá Web: Chương này trình bày tổng quan về lĩnh vực khai phá Web, những vấn đề trong khai phá sử dụng Web cũng như các ứng dụng của bài toán. Giới thiệu các đặc trưng và một số kỹ thuật phân cụm, một số phương pháp, thuật toán tiêu biểu. Chương 2 – Phân cụm người sử dụng Web dựa trên mẫu truy cập: Chương này giới thiệu về phân cụm người sử dụng Web, mẫu truy cập, phân cụm người sử dụng Web dựa trên mẫu truy cập. Chương này cũng đi sâu trình bày về kỹ thuật và các thuật toán liên qua đến quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu để thực nghiệm phân cụm. Chương 3 – Cài đặt và thử nghiệm: Chương này sẽ mô tả chi tiết về các công cụ, dữ liệu, phương pháp, kỹ thuật lựa chọn thực nghiệm và toàn bộ quá trình tiến hành thực nghiệm. Kết quả thực nghiệm sẽ được phân tích, so sánh và đánh giá. - 4 - - 5 - Chương 1. TỔNG QUAN VỀ KHAI PHÁ WEB 1.1. Khai phá Web Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để tự động hóa quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web. Có thể phân các hướng nghiên cứu khai phá Web thành 3 lĩnh vực chính, bao gồm:  Khai phá nội dung Web (Web Content Mining): Khai phá nội dung web là các quá trình xử lý để lấy ra các tri thức từ nội dung các trang văn bản hoặc mô tả của chúng.  Khai phá cấu trúc Web (Web Structure Mining): Nhờ vào các kết nối giữa các văn bản siêu liên kết, World Wide Web có thể chứa đựng nhiều thông tin hơn nhiều so với các thông tin ở bên trong văn bản. Nội dung của khai phá cấu trúc Web là các quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang Web.  Khai phá sử dụng Web (Web Usage Mining): Phân tích các nhật ký truy cập (Web log) để khám phá ra các mẫu truy cập của người dùng truy cập vào trang Web. 1.2. Khai phá sử dụng Web Khai phá sử dụng Web là việc xử lý để lấy ra các thông tin hữu ích trong các log file truy cập Web đã được ghi lại và tích luỹ về các tương tác người dùng mỗi khi máy chủ nhận được yêu cầu truy cập. - 6 - Việc phân tích các log truy cập Web của các Web site khác nhau sẽ dự đoán các tương tác của người dùng khi họ tương tác với Web cũng như tìm hiểu cấu trúc của Web. Thông thường các máy chủ Web (Web Server) ghi lại và tích lũy các dữ liệu về các tương tác của người dùng mỗi khi nó nhận được một yêu cầu truy cập. Có hai xu hướng chính trong khai phá sử dụng Web:  Theo dõi Mẫu truy cập Web (General Access Pattern Tracking): phân tích các hồ sơ Web để biết được các mẫu và các xu hướng truy cập.  Theo dõi Sử dụng cá nhân (Customizied Usage Tracking): phân tích các xu hướng cá nhân. Mục đích là để chuyên biệt hóa các Web site cho các lớp đối tượng người dùng. Các thông tin được hiển thị, độ sâu của cấu trúc site và định dạng của các tài nguyên, tất cả đều có thể chuyên biệt hóa một cách tự động cho mỗi người dùng theo thời gian dựa trên các mẫu truy cập của họ. Mục tiêu của khai phá việc sử dụng Web là thu thập, mô hình hóa và phân tích các mẫu hành vi của người dùng. Công việc này bao gồm các giai đoạn được trình bày chi tiết lần lượt theo các đầu mục: 1.1.2.1. Thu thập dữ liệu 1.1.2.2. Tiền xử lý dữ liệu 1.1.2.3. Khám phá mẫu 1.1.2.4. Phân tích mẫu - 7 - Trong khai phá sử dụng Web, người ta thường sử dụng các kỹ thuật:  Luật kết hợp: để tìm ra những trang Web thường được truy cập cùng nhau của người dùng, những lựa chọn cùng nhau của người dùng.  Kỹ thuật phân cụm: Phân cụm người dùng dựa trên các mẫu duyệt để tìm ra sự liên quan giữa những người dùng Web và các hành vi của họ. Có rất nhiều định nghĩa khác nhau về kỹ thuật phân cụm, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (dissimilar) nhau. Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. 1.3. Các kỹ thuật phân cụm Các kỹ thuật phân cụm dữ liệu được chia làm một số loại: Phương pháp dựa vào phân hoạch ( Partition Based Data Clustering Method), phương pháp phân cấp (Hierarchical Based Data Clustering Method), phương pháp dựa trên mật độ (Density Based Data Clustering Method), phương pháp dựa trên lưới (Grid Based Data Clustering Method). - 8 - Các đặc trưng Phân cụm dữ liệu là kỹ thuật tổ chức dữ liệu bằng cách nhóm các đối tượng có độ tương đồng cao để khám phá cấu trúc của dữ liệu. Mục tiêu của phương pháp phân cụm dữ liệu chỉ đơn giản là tìm kiếm cách tổ chức hợp lệ và tiện lợi của dữ liệu. Các thuật toán phân cụm hướng tới việc tìm kiếm cấu trúc trong dữ liệu. Phương pháp này còn được gọi là “học không có giám sát” (Unsupervised Learning) trong lĩnh vực nhận dạng mẫu (Pattern Recognition) nói riêng và trong trí tuệ nhân tạo (Artificial Intelligence) nói chung [6]. Một cụm sẽ bao gồm một tập các đối tượng có độ tương đồng cao. Hiện nay, có một số định nghĩa về cụm đang được phát biểu như sau [6]: 1. Một cụm là một tập các thực thể (các đối tượng) giống nhau, và các thực thể ở các cụm khác nhau thì không giống nhau. 2. Một cụm là sự kết hợp của các điểm trong không gian thỏa mãn điều kiền là khoảng cách giữa hai điểm bất kỳ trong một cụm bé hơn khoảng cách giữa một điểm bất kỳ trong cụm đó với một điểm bất kỳ không không thuộc cụm. 3. Các cụm có thể được mô tả như là các vùng chứa các đối tượng có mật độ cao trong không gian nhiều chiều, được tách với các vùng chứa các đối tượng có mật độ thấp hơn. Một tập các đối tượng bao gồm dữ liệu thô cho quá trình phân cụm và có thể được biểu diễn dưới hai dạng chuẩn [6]: Ma trận dữ liệu, và ma trận không tương đồng. - 9 - Các hàm khoảng cách Có rất nhiều hàm được dùng để biểu diễn độ tương đồng giữa các đối tượng. Ở đây, chúng tôi chỉ trình bày một số các hàm đo tương đồng phổ biến hay còn gọi là các hàm khoảng cách. Khoảng cách tương đồng giữa hai mẫu thứ i và mẫu thứ k ký hiệu là d(i,k) phải thỏa mãn các tính chất sau: 1. d(i,i)=0 với mọi i. 2. d(i,k)=d(k,i) với mọi cặp (i,k). 3. d(i,k)>=0 với mọi cặp (i,k). Một số cách xác định hàm đánh giá độ tương đồng: Giả sử rằng chúng ta có một ma trận mẫu [xij] với xij là giá trị của đặc trưng thứ j của mẫu i. tất cả các đặc trưng là liên tục và được ước lượng theo tỷ xích tỷ lệ. Hàm khoảng cách phổ biến là khoảng cách Minkowski [3] dùng để ước lượng độ bất tương đồng. Mẫu thứ i tương ứng với dòng thứ i của ma trận mẫu được ký hiệu là một vector cột xi. xi= ( x i1 ,x i2 , .. . .. ,x in) T ,i= 1,2, .. . ,n Với d là số đặc trưng, n là số lượng mẫu, T ký hiệu là vector chuyển vị. Khoảng cách Minkowski được định nghĩa như sau: d ( i,k )= (∑ j= 1 d x ij− xkj r )1/r với r>=1 Các hàm khoảng cách Minkowski thỏa mãn tính chất các tính chất sau: - 10 - 4. d(i,k)=0 nếu và chỉ nếu xi=xk 5. d(i,k) d ( i,m)+d (m,k ) với mọi (i,m,k) Bất đẳng thức tam giác Có ba khoảng cách phổ biến sử dụng khoảng cách Minkowsky được định nghĩa như sau: Khoảng cách Euclidean (r=2): d ( i,k )= (∑ j= 1 d x ij− xkj 2 )1/2= [( x i− xk ) T ( x i− xk )] 1 /2 Khoảng cách Manhattan (r=1) d ( i,k )= (∑ j= 1 d x ij− xkj) Khoảng cách Max (r ∞ ): |)| 1 max(),( kjij xxdj kid    Khoảng cách Euclidean là chuẩn được dùng phổ biến nhất trong các chuẩn theo khoảng cách Minkowski [6]. Tiếp theo, chúng tôi đi sâu trình bày một số kỹ thuật phân cụm, bao gồm: 1.3.2. Phân cụm dựa vào phân hoạch Phương pháp phân cụm phân hoạch dựa trên ý tưởng ban đầu tạo ra k phân hoạch, sau đó lặp lại nhiều lần để phân bố lại các đối tượng dữ liệu giữa các cụm nhằm cải thiện chất lượng phân cụm. - 11 - 1.3.3. Phân cụm dựa vào phân cấp Phương pháp phân cụm phân cấp dựa trên ý tưởng cây phân cấp để phân cụm dữ liệu. Có hai cách tiếp cận đó là phân cụm dưới lên (Bottom up) và phân cụm trên xuống (Top down). 1.3.4. Phân cụm dựa trên mật độ Phương pháp phân cụm dựa trên mật độ, căn cứ vào hàm mật độ của các đối tượng dữ liệu để xác định cụm cho các đối tượng. 1.3.5. Phân cụm dựa trên lưới Phương pháp phân cụm dựa trên lưới, ý tưởng của nó là đầu tiên lượng hoá không gian đối tượng vào một số hữu hạn các ô theo một cấu trúc dưới dạng lưới, sau đó thực hiện phân cụm dựa trên cấu trúc lưới đó. 1.3.6. Phân cụm dựa trên mô hình Ý tưởng chính của phương pháp phân cụm dựa trên mô hình là giả thuyết một mô hình cho mỗi cụm và tìm kiếm sự thích hợp nhất của đối tượng dữ liệu với mô hình đó, các mô hình tiếp cận theo thống kê và mạng Nơron. 1.4. Một số phương pháp, thuật toán tiêu biểu Phần này, chúng tôi trình bày một số thuật toán tiêu biểu đại diện cho các kỹ thuật phân cụm phổ biến, tương đương với các mục, bao gồm: - 12 - 1.4.1. Thuật toán K-means 1.4.2. Thuật toán phân cụm K-medoids 1.4.3. Thuật toán EM (Expectation Maximization) 1.4.4. Thuật toán BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) 1.4.5. Thuật toán CURE( Clustering Using Representatives) 1.4.6. Thuật toán CHAMELEON - 13 - Chương 2. PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP 2.1. Phân cụm người sử dụng Web Sử dụng các kỹ thuật tiền xử lý dữ liệu, phân cụm để khám phá những mô hình truy cập của người sử dụng từ khối lượng lớn dữ liệu đăng nhập Web như để tạo ra các nhóm người sử dụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa các dịch vụ Web, phát hiện các hành vi xâm nhập bất hợp lệ, dự báo những hành vi của người dùng. Việc nghiên cứu các giải pháp xử lý dữ liệu, cài đặt và ứng dụng các mô hình phân cụm và áp dụng các phương pháp phân cụm người dùng Web trong khai phá sử dụng Web là một xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao. 2.2. Phân cụm người sử người sử dụng Web dựa trên mẫu truy cập Từ bộ dữ liệu thô, để có thể trích chọn các tri thức hữu ích, dữ liệu cần qua quá trình tiền xử lý, tổ chức dữ liệu và biểu diễn phù hợp với định dạng để có thể tiến hành thực nghiệm phân cụm. Tiếp theo đó, dữ liệu phù hợp sẽ được sử dụng cho công cụ phân cụm và tiên hành thực nghiệm. Quá trình này có thể chia thành 02 bước, trong mỗi bước sẽ bao gồm các pha như sau: - 14 - Bước 1: Tiền xử lý dữ liệu, bao gồm các pha:  Pha làm sạch dữ liệu (Data Clearning)  Pha xác định người sử dụng (User Identification)  Xác định phiên của người sử dụng (Session Indentification)  Hoàn thiện đường dẫn (Path Completion)  Biểu diễn dữ liệu ( Biểu diễn các mẫu dữ liệu phù hợp với chuẩn của công cụ thực nghiệm) Bước 2: Phân cụm người sử dụng dựa trên mẫu truy cập:  Sử dụng công cụ WEKA, áp dụng một số kỹ thuật phân cụm tập dữ liệu  So sánh, đánh giá kết quả. Mẫu truy cập của người sử dụng Web được chiết xuất từ các file nhật ký trên máy chủ Web, sau đó tổ chức vào các phiên đại diện cho các giai đoạn của sự tương tác giữa người sử dụng Web và máy chủ Web. Mẫu này bao gồm các trang mà họ đã đến thăm, và thời gian họ đã dành trên mỗi trang. Mỗi người sử dụng sau đó có thể được đại diện bởi một tập hợp gồm cặp thuộc tính ( URL truy cập, Thời gian truy cập). Từ mỗi cặp thuộc tính này, chúng ta xác định một mẫu người sử dụng. Mục tiêu chính của phân cụm người sử dụng Web là để tìm ra các tri thức, mô hình hóa, qua đó khám phá các mô hình truy cập vào các trang Web khác nhau của người sử dụng trong không gian Web liên kết với một máy chủ cụ thể. - 15 - Chương 3. THỰC NGHIỆM VÀ KẾT QUẢ 3.1. Bộ dữ liệu Dữ liệu thực nghiệm được sử dụng trong luận văn này là các tệp tin nhật ký sử dụng (log file) trên máy chủ Web của hệ thống Cổng thông tin điện tử Đại học Quốc gia Hà Nội tại địa chỉ Bộ dữ liệu Weblog ngày 31/05/2012 (lựa chọn ngẫu nhiên) trên máy chủ Web, dung lượng file là: 50,207 KB, bao gồm 253.435 yêu cầu từ máy khách. 3.2. Tiền xử lý dữ liệu Trước khi tiến hành phân cụm, dữ liệu cần được tiền xử lý và đưa về định dạng mà công cụ phân cụm chấp nhận. Từ file nhật ký của IIS, chúng tôi phân tích và xác định người từng người sử dụng cùng với danh sách URL mà người đó đã truy cập. Các thông tinh này sẽ được biểu diễn thành dạng vector và đưa vào một tệp tin. Các bước tiến hành như sau:  Đọc file nhật ký, loại bỏ các thông tin dư thừa: làm sạch dữ liệu, loại bỏ các trang sai sót và không hợp lệ ;  Xác định và lập danh sách người sử dụng dựa trên các thông tin và đặc điểm sau: - Mỗi một địa chỉ IP gửi yêu cầu tới máy chủ Web đại diện cho một người sử dụng, - 16 - - Nếu từ một địa chỉ IP có nhiều yêu cầu với các mã trình duyệt Web khác nhau thì mỗi trình duyệt Web sẽ gắn với 1 người sử dụng (trường hợp qua Proxy), - Cùng 1 địa chỉ IP, nếu khoảng thời gian giữa 2 lần yêu cầu lớn hơn 30 phút thì coi như xuất hiện một người sử dụng mới. - Sử dụng nhật ký truy cập với các liên kết và cấu trúc liên kết site để xác định tiến trình duyệt Web của người dùng.  Xác định phiên của người sử dụng: Phiên giao dịch người dùng là một tập giới hạn của các click người dùng theo một hoặc nhiều máy chủ Web. Sau đây là các quy tắc được sử dụng để xác định phiên người sử dụng: - Nếu có một người dùng mới, có một phiên làm việc mới; - Trong một phiên giao dịch người sử dụng, nếu trang tiếp mong muốn là rỗng, thì có một phiên giao dịch mới; - Nếu thời gian các yêu cầu trang vượt quá một giới hạn xác định (25 đến 30 phút), thì giả sử rằng người dùng sẽ bắt đầu một phiên mới.  Hoàn thiện đường dẫn: Do sự tồn tại của bộ nhớ đệm cục bộ và máy chủ Proxy, có nhiều truy cập quan trọng không được lưu trong nhật ký truy cập. Nhiêm vụ của pha hoàn thiện đường dẫn là điền vào những trang bị thiếu.  Với mỗi người sử dụng, xác định danh sách các trang Web (URL) mà người đó truy cập. Để tránh dư thừa dữ liệu, các - 17 - URL chỉ tới các thành phần phụ trong các trang Web sẽ được loại bỏ. (các URL tới file jpg, gif, png, js, css..).;  Đưa tất cả các URL tìm thấy vào một danh sách gọi là URL- List. Mỗi phần tử trong URL-List tương ứng với một chiều của Vector đặc trưng;  Biểu diễn thông tin người sử dụng thành dạng vector với mỗi thành phần tương ứng một URL trong URL-List và được gán giá trị 1 hoặc 0 tương ứng với việc người đó đã truy cập vào URL đó hay chưa (đây là mô hình Boolean - chúng tôi đã thử nghiệm các mô hình Tần suất như TF, TF-IDF nhưng cho kết quả không tốt bằng);  Đưa dữ liệu vector của tất cả các người sử dụng cùng các thông tin cần thiết khác vào một tệp có dạng .arff. Tệp này tuân thủ theo định dạng tiêu chuẩn của công cụ phân cụm sẽ được sử dụng – công cụ WEKA. Từ tập dữ liệu thô ngày 31.5.2012 trên máy chủ Web với 253.435 yêu cầu, qua quá trình tiền xử lý, chúng tôi thu được bộ dữ liệu với số trang Web được truy cập trong ngày và số mẫu người dùng như sau: Bảng 3.2. Số lượng mẫu sau tiền xử lý STT Nội dung Số lượng 1. Số trang Web được truy cập trong ngày 2490 2. Mẫu người sử dụng được xác định 3219 - 18 - Sau khi tiền xử lý, thực hiện biểu diễn dữ liệu theo mô hình không gian vector, dữ liệu được lưu trữ theo định dạng .arff. 3.3. Thực nghiệm phân cụm 3.3.1. Công cụ thử nghiệm Công cụ chúng tôi dùng để thực nghiệm phân cụm là WEKA (Waikato Environment for Knowledge Analysis - Công cụ này cung cấp hầu hết các chức năng cơ bản phục vụ cho khai phá dữ liệu bao gồm các thuật toán về tiền xử lý dữ liệu (filter), phân cụm (cluster), phân lớp (classifier), luật kết hợp (association rule)... Để thực hiện việc tiền xử lý dữ liệu, chúng tôi đã xây dựng, căn cứ vào các giải thuật đã nêu ở chương 2, chúng tôi đã xây dựng và tổng hợp thêm các công cụ phục vụ cho việc thực nghiêm, bao gồm: Bảng 3.3. Các công cụ, phần mềm hỗ trợ thực nghiệm STT Ứng dụng Chức năng Nguồn 1. DataClearning.java Làm sạch, loại bỏ các dữ liệu hỗn độn và dư thừa Tự xây dựng 2. UserId.java Xác định người sử dụng truy cập trang Web Tự xây dựng 3. UserSessId.java Xác định phiên sử dụng của người truy cập và đường dẫn đầy đủ Tự xây dựng 4. ToVector.java Chuyển các dữ liệu logfile sau Tự xây dựng - 19 - khi đã qua các pha tiền xử lý về dạng vector phù hợp với định dạng .csv và .arff mà WEKA chấp nhận 3.3.2. Phương pháp thực nghiệm Trong phần thực nghiệm, chúng tôi lựa chọn một số thuật toán thông dụng, đại diện cho kỹ thuật phân cụm dựa vào phân hoạch và kỹ thuật phân cụm dựa vào phân cấp như đã trình bày ở Chương 1, bao gồm:  Thuật toán K-means  Thuật toán EM (Expectation Maximization) là các kỹ thuật phân cụm