Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại. Cùng với sự phát triển của công nghệ thông tin và ứng dụng của nó trong đời sống - kinh tế - xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn. Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng trở thành mục tiêu quan trọng của các doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức. Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo .
104 trang |
Chia sẻ: tuandn | Lượt xem: 2917 | Lượt tải: 7
Bạn đang xem trước 20 trang tài liệu Khóa luận Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng trong hệ thống bán sách trực tuyến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
MỤc lỤC
LỜI MỞ ĐẦU....................................................................................................1
LỜI MỞ ĐẦU
Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại. Cùng với sự phát triển của công nghệ thông tin và ứng dụng của nó trong đời sống - kinh tế - xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn. Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng trở thành mục tiêu quan trọng của các doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức. Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo….
Trong quá trình nghiên cứu, học tập tại trường, được sự chỉ bảo và hướng dẫn trực tiếp của thầy Đỗ Trung Tuấn và thầy Đào Kiến Quốc, cũng như sự giúp đỡ, động viên của các thầy, cô giáo trong trường ĐH Công Nghệ - ĐHQGHN, chúng tôi đã quyết định làm khóa luận tốt nghiệp với đề tài “Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng trong hệ thống bán sách trực tuyến”.
Khóa luận được chia thành 4 chương:
Chương 1: Tổng quan về khai phá dữ liệu.
Chương 2: Một số thuật toán KPDL.
Chương 3: Áp dụng một số kỹ thuật KPDL vào hệ thống bán sách trực tuyến.
Chương 4: Kết luận.
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Sự cần thiết của khai phá dữ liệu
Những nghiên cứu về thị trường của khai phá dữ liệu
Theo Giga Research - một tổ chức nghiên cứu nổi tiếng của Mỹ ước tính thị trường khai phá dữ liệu bao gồm phần mềm và dịch vụ (các công ty tư vấn và dịch vụ) sẽ vượt qua con số 1 tỷ đôla Mỹ (báo cáo năm 2005). Một số nghiên cứu khác thì không đồng tình, cho rằng con số đó chỉ dừng ở mức 700-800 triệu. Tuy nhiên có một điểm mà các nhà phân tích đồng tình đó là mức tăng truởng của thị trường khai phá dữ liệu ngày càng tăng và nhanh nhất trong lĩnh vực “tình báo” kinh doanh (bao gồm các báo cáo, phân tích trực tuyến …). Khai phá dữ liệu hiện chiếm hơn 15% trong lĩnh vực này.
Những nhu cầu về khai phá dữ liệu trong kinh doanh
Ngày nay nền kinh tế thị trường cạnh tranh ngày càng phát triển, đi đôi với nó là những nhu cầu tất yếu như:
Phân loại khách hàng để từ đó phân định thị trường, thị phần.
Tăng sức cạnh tranh, làm thế nào để giữ được khách hàng cũ và thu hút được thêm nhiều khách hàng mới.
Phân tích rủi ro trước khi ra các quyết định quan trọng trong chiến lược hoạt động sản xuất kinh doanh
Ra các báo cáo giàu thông tin …
Tất cả các nhu cầu xã hội trên đòi hỏi cần phải có một phương thức, công cụ nào đó hỗ trợ bên cạnh các chuyên gia kinh tế. Và khai phá dữ liệu là một chìa khoá hỗ trợ giải quyết vấn đề nêu trên.
Xét về khía cạnh kỹ thuật - công nghệ, trong vòng hơn một thập kỷ qua, sự phát triển với tốc độ cao của công nghệ phần cứng đã tạo ra các hệ thống máy tính cực mạnh với bộ xử lý tốc độ cao và dung lượng lưu trữ lớn. Bên cạnh đó là sự phát triển của công nghệ cơ sở dữ liệu, các công cụ thu thập dữ liệu tự động cùng với sự bùng nổ của Internet băng thông rộng đã giúp cho các nhà kinh doanh có thể thu được những lượng dữ liệu khổng lồ. Để có thể tìm được những dữ liệu giàu thông tin ẩn chứa sau kho dữ liệu khổng lồ trên đòi hỏi con người phải có một phương pháp tiếp cận mới để có thể hỗ trợ tự động khám phá ra các tri thức có ý nghĩa và chiến lược quan trọng. Câu trả lời cho vấn đề trên cũng chính là công cụ khai phá dữ liệu.
Khai phá dữ liệu trong một số lĩnh vực quan trọng khác
Khoa học:
Thiên văn học: Dự đoán đường đi quỹ đạo các thiên thể, hành tinh …
Chiêm tinh học: Tiên đoán, giải đáp giấc mơ …
Công nghệ sinh học: Tìm ra các giống mới, giải mã gen …
Web:
Các bộ máy tìm kiếm …
Trong thể thao:
Phát hiện sử dụng chất kích thích…
Và rất nhiều các lĩnh vực khác nữa …
Chống giả mạo …
Phát hiện nói dối …
Khái niệm về khai phá dữ liệu
Định nghĩa khai phá dữ liệu
Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong.
Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp ERP, các hệ thống quản lý khách hàng CRM, hay từ các công cụ lưu trữ thông tin trên web...
Đây là những khối dữ liệu khổng lồ nhưng những thông tin mà nó thể hiện ra thì lộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. Khai phá dữ liệu sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích.
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu, nạo vét dữ liệu.... Trên thực tế, nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL KDD là như nhau. Còn một số người chỉ coi khai phá dữ liệu là một bước trong trong quá trình khám phá tri thức trong cơ sở dữ liệu. Quá trình này gồm một số bước lặp được thể hiện trong hình sau:
Hình 1: Các bước xây dựng một hệ thống khai phá dữ liệu
Ý nghĩa cụ thể của các bước như sau:
Lựa chọn dữ liệu liên quan đến bài toán quan tâm.
Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực.
Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá.
Khai phá dữ liệu, trích xuất ra các mẫu dữ liệu.
Đánh giá mẫu.
Sử dụng tri thức khai phá được.
Trong thực tế, thuật ngữ khai phá dữ liệu thông dụng và sử rộng rãi hơn thuật ngữ khám phá tri thức trong cơ sở dữ liệu. Theo hướng ứng dụng người ta thường chia khai phá dữ liệu là một quá trình trong đó gồm nhiều bước nhỏ, mà ta sẽ trình bày chi tiết ở mục tiếp theo: Các bước xây dựng một giải pháp về khai phá dữ liệu.
Những nhóm bài toán của khai phá dữ liệu
Khai phá dữ liệu có thể được dùng để giải quyết hàng trăm bài toán với những mục đích và nhiệm vụ khác nhau. Dựa trên bản chất tự nhiên của các bài toán đó, người ta có thể nhóm các bài toán đó thành những nhóm sau:
Phân loại
Bài toán phân loại là một trong những bài toán phổ biến nhất của khai phá dữ liệu, ví dụ như: phân tích xem loại khách hàng nào có khả năng cao nhất sẽ chuyển sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty (churn analysis), quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi loại khách hàng…
Phân loại là tổ chức dữ liệu trong các lớp cho trước, còn được gọi là học có quan sát. Phân loại sử dụng các nhãn lớp cho trước để sắp xếp các đối tượng. Trong đó có một tập huấn luyện gồm các đối tượng đã được kết hợp với các nhãn đã biết. Những thuật toán học có quan sát sẽ được áp dụng cho tập các đối tượng cần phân loại để từ đó mô hình phân loại chúng.
Một số thuật toán dùng trong bài toán phân loại như: cây quyết định, mạng nơron, Naitive Bayes.
Phân cụm
Bài toán phân cụm hay còn gọi là phân đoạn. Điểm khác với bài toán phân loại là ở đây các nhãn lớp chưa biết và không có tập huấn luyện. Các đối tượng được phân loại dựa trên các thuộc tính tương đồng giữa chúng. Bài toán phân lớp hay còn gọi là học không có giám sát.
Bài toán phân tích luật kết hợp
Bài toán này đôi khi còn gọi là bài toán phân tích giỏ hàng bởi vì nó được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa chọn hàng hoá đi kèm…
Phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên kết giữa các thuộc tính dữ liệu thường xuất hiện cùng nhau trong các tập dữ liệu.
Hồi quy
Bài toán hồi quy cũng tương tự như bài toán phân loại. Điểm khác biệt là hồi quy dự đoán cho các dữ liệu liên tục.
Dự đoán
Dự đoán là một mảng quan trọng của khai phá dữ liệu. Dự đoán có hai loại chính: một loại là dự đoán về một số giá trị dữ liệu chưa biết hay có xu hướng sắp xảy ra, còn loại kia là dự đoán để phân lớp dựa trên một tập huấn luyện và giá trị thuộc tính của đối tượng.
Phân tích chuỗi
Phân tích chuỗi được sử dụng để tìm ra các mẫu trong một loạt các giá trị hay trạng thái rời rạc. Ví dụ như việc chọn mua hàng của khách hàng có thể mô hình là một chuỗi dữ liệu. Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C…là một chuỗi các trạng thái rời rạc. Trong khi đó thời gian lại là chuỗi số liên tục.
Phân tích chuỗi và phân tích luật kết hợp giống nhau ở chỗ chúng đều phân tích tập hợp các đối tượng hay trạng thái. Điểm khác nhau là mô hình chuỗi phân tích sự chuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi mỗi một mặt hàng trong giỏ hàng là như nhau và độc lập. Với mô hình chuỗi, việc chọn mặt hàng A trước mặt hàng B hay chọn mặt hàng B trước A sau là khác nhau. Còn ở mô hình kết hợp thì cả hai trường hợp là như nhau.
Phân tích chuỗi là một bài toán mới trong khai phá dữ liệu, tập trung vào hai bài toán chủ yếu: phân tích những thông tin lưu lại của web và phân tích DNA.
Phân tích độ lệch
Bài toán này còn được gọi là phát hiện điểm biên. Điểm biên là những đối tượng dữ liệu mà không tuân theo các đặctính, hành vi chung.
Bài toán phát hiện điểm biên ứng dụng rất nhiều trong các ứng dụng. Ứng dụng quan trọng nhất của bài toán phát hiện điểm biên là bài toán kiểm tra xác nhận thẻ tín dụng…
Chưa có một kỹ thuật chuẩn cho bài toán này. Nó vẫn còn đang là chủ đề mở hiện đang tiếp tục nghiên cứu.
Những lợi thế và thách thức của khai phá dữ liệu.
Lợi thế
Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều nghành học khác như: hệ cơ sở dữ liệu, thống kê xác suất, trực quan hoá… Thêm vào đó khai phá dữ liệu còn có thể áp dụng các kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… nên khai phá dữ liệu có một số lợi thế so với các phương pháp trên. Sau đây là một vài so sánh của các chuyên gia giữa khai phá dữ liệu một số phương pháp truyền thống:
Phương pháp học máy: đây là một phương pháp có nhiều đóng góp cho bài toán phân lớp, nhận dạng. Tuy nhiên, phương pháp học máy chủ yếu được áp dụng trong các cơ sở dữ liệu ít biến động, đầy đủ, tập dữ liệu không quá lớn. Trên thực tế, các cơ sở dữ liệu thường không đầy đủ, chứa nhiều nhiễu và biến đổi liên tục. Trong trường hợp này người ta sử dụng khai phá dữ liệu.
Phương pháp thống kê: mặc dù thống kê là nền tảng của lý thuyết khai phá dữ liệu nhưng có thể thấy rõ những tồn tại của phương pháp này mà khai phá dữ liệu đã giải quyết được:
Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng các tri thức sẵn có về lĩnh vực.
Kết quả phân tích của thống kê có thể sẽ có rất nhiều và khó có thể làm rõ được.
Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu.
Thách thức
Bên cạnh những lợi thế trên, khai phá vẫn còn những thách thức:
Chưa có những hệ thống giao diện lập trình ứng dụng API chuẩn nên tạo ra những khó khăn cho các kỹ sư tích hợp, phát triển ứng dụng.
Yêu cầu kỹ sư phải có nền tảng toán vững chắc trong khi đa số các kỹ sư chỉ thành thạo với các kỹ thuật cơ sở dữ liệu, ngôn ngữ lập trình...
Tiếp tục là những thách thức về nguồn nhân lực: Phân tích dữ liệu ngày càng trở nên quan trọng, tuy nhiên hầu hết những kỹ sư vẫn chưa hiểu và thành thạo các kỹ thuật phân tích dữ liệu.
Những hạn chế của các thuật toán: Hầu hết các thuật toán đều khá là tổng quát, nó sinh ra nhiều luật. Mặc dù các luật sinh ra đa số đều hữu ích nhưng ta vẫn phải đo độ đáng quan tâm của các mẫu nên vẫn cần sự can thiệp của các chuyên gia nghiệp vụ. Nhiều lĩnh vực mới, ví dụ như phân tích chuỗi DNA trong công nghệ sinh học hiện vẫn chưa tìm được thuật toán chuyên dụng hiệu quá, đang là những đề tài mở để nghiên cứu.
Các bước xây dựng một giải pháp về khai phá dữ liệu
Mô hình luồng dữ liệu
Hình 2: Mô hình luồng dữ liệu
Những hệ thống phần mềm kinh doanh lưu trữ các dữ liệu giao dịch trong các cơ sở dữ liệu xử lý giao dịch trực tuyến. Những dữ liệu này được chuyển vào kho dữ liệu. Những CSDL xử lý phân tích trực tuyến có thể được xây dựng từ những dữ liệu trong kho dữ liệu.
Những mũi tên từ khai phá dữ liệu đi ra cho biết khai phá dữ liệu có thể được áp dụng trong tất cả các bước, từ trực tiếp những ứng dụng kinh doanh đến phân tích trực tuyến.
Vòng đời của một hệ thống khai phá dữ liệu
Có rất nhiều tác giả đưa ra các bước của một hệ thống khai phá dữ liệu, mọi sự phân chia chỉ mang tính chất tương đối và tư tưởng chủ đạo của nó là như sau:
Bước 1: Xác định mục tiêu bài toán.
Bước 2: Thu thập dữ liệu.
Bước 3: Làm sạch dữ liệu và chuyển đổi dữ liệu.
Bước 4: Xây dựng mô hình.
Bước 5: Đánh giá mô hình hay đánh giá mẫu.
Bước 6: Báo cáo.
Bước 7: Dự đoán.
Bước 8: Tích hợp vào ứng dụng.
Bước 9: Quản lý mô hình.
Bước 1: Xác định mục tiêu bài toán
Cũng giống như bất kỳ một dự án thông thường nào, bước đầu tiên trong quá trình khai phá dữ liệu đó là phải xác định rõ được mục tiêu, nhiệm vụ của bài toán. Đồng thời bên cạnh đó là sự phân công trách nhiệm ở một mức độ nào đó nhằm đảm bảo dự án được triển khai một cách có hiệu quả.
Một vấn đề cũng rất quan trọng được đặt ra đó là “giải pháp khai phá dữ liệu có thực sự là cần thiết cho vấn đề đó không? ” Câu trả lời cho câu hỏi quan trọng này là phải xác định thật chính xác mục tiêu của bài toán, cần xem mục tiêu của bài toán có thuộc trong các nhóm bài toán của khai phá dữ liệu mà ta đã trình bày bên trên không? Nó đòi hỏi sự cộng tác giữa các chuyên gia kinh doanh trong lĩnh vực đó và chuyên gia công nghệ, chuyên gia phân tích dữ liệu.
Bước 2: Thu thập dữ liệu
Sau khi xác định được mục tiêu, nhiệm vụ của bài toán, ta tiến hành thu thập các dữ liệu liên quan. Dữ liệu có thể được thu thập từ nhiều nguồn: các cơ sở dữ liệu của các xử lý giao dịch trực tuyến, từ các tệp lưu trữ thông tin trên web, từ các kho dữ liệu…
Sau khi thu thập được các dữ liệu, ta có thể tiến hành chọn lọc các mẫu tiêu biểu để làm giảm độ lớn của tập luyện.
Trong nhiều trường hợp, các mẫu chứa dữ liệu của khoảng 50,000 khách hàng cũng tương đương với các mẫu chứa dữ liệu của khoảng 1 triệu khách hàng.
Bước 3: Làm sạch dữ liệu và chuyển đổi dữ liệu
Làm sạch và chuyển đổi dữ liệu là một bước rất quan trọng trong một dự án khai phá dữ liệu.
Làm sạch dữ liệu: Mục đích của làm sạch dữ liệu là loại bỏ những dữ liệu thừa, không nhất quán, có chứa nhiễu. Quá trình làm sạch dữ liệu sẽ cố gắng thêm giá trị vào những giá trị bị thiếu, làm mịn các điểm nhiễu và sửa lại các dữ liệu không nhất quán. Sau đây là một số kỹ thuật áp dụng cho quá trình làm sạch dữ liệu:
Xử lý các dữ liệu bị thiếu: Có rất nhiều nguyên nhân của việc dữ liệu thiếu. Ví dụ khách hàng đôi khi không điền đầy đủ các thông tin bắt buộc… Một số giải pháp là:
Bỏ qua mẫu dữ liệu đó nếu mẫu dữ liệu chứa nhiều thuộc tính thiếu giá trị.
Dùng một hằng số thay thế, thường là giá trị trung bình của thuộc tính để thêm vào, hoặc giá trị trung bình của các mẫu trong cùng một lớp với mẫu có giá trị thiếu.
Sử dụng các giá trị có xác suất cao nhất.
Loại bỏ các điểm biên: Các điểm biên có thể được phát hiện bằng cách sử dụng phương pháp phân cụm dữ liệu, hay hồi quy…
Dữ liệu không nhất quán: Dữ liệu có thể không nhất quán với nhau trong các bản ghi của một số giao dịch. Một số có thể được sửa lại một cách thủ công. Ví dụ những lỗi do việc nhập dữ liệu gây ra. Ngoài ra còn có những lỗi được tạo ra trong quá trình tích hợp dữ liệu, …
Chuyển đổi dữ liệu: Mục đích của quá trình chuyển đổi dữ liệu là đưa dữ liệu về dạng phù hợp với thuật toán khai phá. Sau đây là một số kỹ thuật áp dụng cho quá trình chuyển đổi dữ liệu:
Chuyển đổi kiểu dữ liệu: Đây là một kỹ thuật đơn giản nhất. Ví dụ như chuyển đổi các cột dữ liệu kiểu logic sang kiểu nguyên và ngược lại. Lý do là một số thuật toán khai phá dữ liệu thực thi tốt hơn trên dữ liệu kiểu nguyên trong khi số khác thì ngược lại.
Nhóm: Đây cũng là một kỹ thuật nhóm các giá trị trong một côt lại để giảm sự phức tạp. Ví dụ: Cột nghề nghiệp có thể có những giá trị khác nhau như: Kỹ sư phần mềm, kỹ sư truyền thông, kỹ sư cơ khí… thì chúng ta có thể nhóm chúng lại thành nhóm kỹ sư.
Tập hợp: Trong phương pháp này các thao tác tập hợp tổng hợp được áp dụng.Ví dụ: Chúng ta muốn phân loại khách hàng dựa trên những thông tin sử dụng điện thoại hàng tháng của khách hàng. Những thông tin lưu trữ trong cơ sở dữ liệu là rất chi tiết, vì thế chúng ta có thể tập hợp chúng lại thành một vài thuộc tính tổng hợp hơn như: Tổng số cuộc gọi hay thời gian trung bình của các cuộc gọi.
Tổng quát hoá: Dữ liệu ở mức thấp (dữ liệu nguyên thuỷ) có thể được thay thế bằng các khái niệm ở mức cao hơn bằng cách sử dụng cây phân cấp ngữ cảnh. Ví dụ: Những thuộc tính thành phố có thể được tổng quát hoá ở mức cao hơn như quốc gia.
Chuẩn hoá: dữ liệu của thuộc tính sẽ được đưa về 1 khoảng xác định, ví dụ như: [-1.0,1.0].
Bước 4: Xây dựng mô hình
Sau khi xác định rõ được mục tiêu, nhiệm vụ của bài toán, rồi tiến hành chuẩn bị dữ liệu bao gồm làm sạch và chuyển đổi, ta tiến hành chọn lựa và xây dựng mô hình. Ta xác định xem loại bài toán của ta thuộc loại nào: phân loại, kết hợp hay phân đoạn…
Đối với mỗi bài toán trong khai phá dữ liệu đều có nhiều mô hình để giải quyết, mỗi mô hình được xây dựng dựa trên một thuật toán hoặc kết hợp một vài thuật toán với nhau. Để lựa chọn chính xác mô hình nào tốt hơn là khó khăn vì nó phụ thuộc vào nhiều yếu tố của bài toán. Chúng ta nên thử giải quyết bài toán bằng nhiều mô hình khác nhau rồi tiến hành so sánh lựa chọn, để tìm ra mô hình tối ưu nhất, thích hợp nhất với bài toán của ta.
Ví dụ: Mối quan hệ giữa các thuộc tính mà đơn giản thì ta có thể áp dụng thuật toán cây quyết định để xây dựng mô hình, nhưng khi mối quan hệ phức tạp thì dùng thuật toán mạng nơtron lại cho hiệu quả tốt hơn.
Bước 5: Đánh giá mô hình, đánh giá mẫu
Sau khi áp dụng một số các mô hình chúng ta sẽ đánh giá lựa chọn xem mô hình nào tốt hơn.
Điểm chú ý là bên cạnh các công cụ hỗ trợ ta như Lift Chart... thì chúng ta còn phải dựa vào sự hiểu biết của người dùng đối với dữ liệu.
Các mẫu đưa ra có dễ hiểu đối với con người không?
Các mẫu đưa ra có đúng với các dữ liệu thử với một mức độ chắc chắn nào đó không?
Các mẫu đưa ra có tiềm năng sử dụng không?
Bước 6: Báo cáo
Trong kinh doanh, một trong những mục tiêu rất quan trọng đó là đưa ra các báo cáo liên quan đến thị trường, chiến lược kinh doanh. Hầu hết các công cụ khai phá dữ liệu đều hỗ trợ chức năng đưa ra các báo cáo dự đoán dưới dạng biểu đồ hay bảng số liệu.
Có hai loại báo cáo: Báo cáo dự đoán và báo cáo về tìm ra các mẫu.
Bước 7: Dự đoán
Trong hầu hết các bài toán khai phá dữ liệu, tìm ra các mẫu chỉ là một nửa của yêu cầu, nửa yêu cầu còn lại là đưa ra các dự đoán.
Để dự đoán được chúng ta cần có một tập huấn luyện và tập các thuộc tính mới đưa vào cần dự đoán.
Ví dụ: Một ngân hàng xây dựng mô hình dự đoán rủi ro trong việc cho vay tiền. Hàng ngày có rất nhiều hồ sơ xin vay tiền mới và nhiệm vụ đặt ra là dựa vào mô hình dự đoán trên để đánh giá mức độ rủi ro có thể có đối với mỗi khách hàng này.
Bước 8: Tích hợp vào ứng dụng
Tích hợp khai phá dữ liệu vào ứng dụng là bước cuối cùng trong khai phá dữ liệu, kết thúc vòng quay của quá trình khai phá dữ liệu.
Mục tiêu của bước này là đưa tri thức tìm kiếm được vào sử dụng.
Bước 9: Quản lý mô hình
Mỗi một mô hình khai phá dữ liệu đều có một vòng đời phát triển. Trong khá nhiều lĩnh vực kinh doanh, các mẫu là khá ổn định vì thế mô hình không nhất thiết phải thường xuyên huấn luyện lại. Tuy vậy trong một số trường hợp các mẫu là thay đổi thường xuyên. Ví dụ như các kho lưu trữ sách trên mạng. Với việc các sách mới được nhập mới hàng ngày, điều đó đồng nghĩa với việc các luật kết hợp mới xuất hiện hàng ngày. Chính vì thế mà thời gian sống của mô hình trong trường hợp này là giới hạn lại, mô hình mới phải được tạo ra liên tục và việc tạo ra mô hìn