Phương pháp nghiên cứu khoa học trong tin học

Đổi mới, sáng tạo là điều tất yếu trong cuộc sống, nó giúp cuộc sống của chúng ta trở nên phong phú, đa dạng hơn trong các lĩnh vực. Để có được sự đổi mới, sáng tạo đòi hỏi chúng ta phải làm việc một cách nghiên túc. Việc học hỏi cách tư duy của những người đi trước là điều cần thiết, nó giúp chúng ta giải quyết vấn đề nhanh chóng hơn. Qua quá trình tìm tòi trong sự sáng tạo GS Alshuller đã tìm ra 40 nguyên tắc sáng tạo cơ bản. Việc vận dụng các nguyên tắc này trong công việc cũng như trong nghiên cứu khoa học giúp chúng ta có một lời giải thích hợp cho bài toán đồng thời giúp chúng ta sáng tạo hơn trong suy nghĩ để tạo ra những sản phẩm có chất lượng hơn. Sau đây trình bày sơ lược về các nguyên tắc sáng tạo và việc ứng dụng các nguyên tắc sáng tạo vào việc khai thác dữ liệu.

pdf14 trang | Chia sẻ: lvbuiluyen | Lượt xem: 1760 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Phương pháp nghiên cứu khoa học trong tin học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ________________ BÀI THU HOẠCH MÔN HỌC PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC TRONG TIN HỌC Giáo viên hướng dẫn: GS.TSKH. HOÀNG KIẾM Học viên thực hiện: PHẠM HOÀI THANH Mã số học viên: CH1101133 TP. HCM, năm 2012 Lời mở đầu Đổi mới, sáng tạo là điều tất yếu trong cuộc sống, nó giúp cuộc sống của chúng ta trở nên phong phú, đa dạng hơn trong các lĩnh vực. Để có được sự đổi mới, sáng tạo đòi hỏi chúng ta phải làm việc một cách nghiên túc. Việc học hỏi cách tư duy của những người đi trước là điều cần thiết, nó giúp chúng ta giải quyết vấn đề nhanh chóng hơn. Qua quá trình tìm tòi trong sự sáng tạo GS Alshuller đã tìm ra 40 nguyên tắc sáng tạo cơ bản. Việc vận dụng các nguyên tắc này trong công việc cũng như trong nghiên cứu khoa học giúp chúng ta có một lời giải thích hợp cho bài toán đồng thời giúp chúng ta sáng tạo hơn trong suy nghĩ để tạo ra những sản phẩm có chất lượng hơn. Sau đây trình bày sơ lược về các nguyên tắc sáng tạo và việc ứng dụng các nguyên tắc sáng tạo vào việc khai thác dữ liệu. I. Các nguyên tắc sáng tạo: 1- Nguyên tắc phân nhỏ: - Chia đối tượng thành các phần độc lập. - Làm đối tượng trở nên tháo lắp được. - Tăng mức độ phân nhỏ của đối tượng. 2- Nguyên tắc tách khỏi: - Tách phần gây phiền phức hay ngược lại, tách phần duy nhất cần thiết ra khỏi đối tượng. 3- Nguyên tác phẩm chất cục bộ: - Chuyển đối tượng có cấu trúc đồng nhất thành không đồng nhất. - Các phần khác nhau của đối tượng phải có các chức năng khác nhau. - Mỗi phần của đối tượng phải ở trong những điều kiện thích hợp nhất đối với công việc. 4- Nguyên tắc phản đối xứng: - Chuyển đối tượng có hình dạng đối xứng thành không đối xứng –phản đối xứng. - Nếu đối tượng phản đối xứng, tăng mức độ phản đối xứng. 5- Nguyên tắc kết hợp: - Kết hợp các đối tượng đồng nhất hoặc các đối tượng dùng cho các hoạt động kế cận. - Kết hợp về mặt thời gian các hoạt động đồng nhất hoặc kế cận. 6- Nguyên tắc vạn năng: - Đối tượng thực hiện một số chức năng khác nhau, do đó không cần sự tham gia của đối tượng khác. 7- Nguyên tắc chứa trong: - Một đối tượng chứa trong một đối tượng khác và đối tượng khác đó lại chứa đối tượng thức ba… - Một đối tượng chuyển động xuyên suốt bên trong đối tượng khác. 8- Nguyên tắc phản trọng lượng: - Bù trọng lượng của đối tượng bằng cách gắn nó với đối tượng khác, có lực nâng. - Bù trọng lượng của đối tượng bằng tương tác với môi trường như sử dụng các lực thủy động, khí động… 9- Nguyên tắc gây ứng suất sơ bộ: - Gây ứng suất trước đối với đối tượng để chống lại ứng suất không cho phép hoặc không mong muốn khi đối tượng làm việc. - Nếu theo điều kiện bài toán cần thực hiện tác động nào đó, cần thực hiện phản tác động trước. 10- Nguyên tắc thực hiện sơ bộ - Thực hiện trước sự thay đổi, tác động cần có, hoàn toàn hoặc từng phần, đối với đối tượng . - Cần sắp xếp các đối tượng trước, sao cho chúng có thể hoạt động từ vị trí thuận lợi nhất và không mất thời gian dịch chuyển 11- Nguyên tắc dự phòng: - Bù đắp độ tin cậy không lớn của đối tượng bằng cách chuẩn bị trước các phương tiện báo động, ứng cứu, an toàn. 12- Nguyên tắc đẳng thế: - Thay đổi điều kiện làm việc để không phải nâng lên hay hạ xuống các đối tượng. 13- Nguyên tắc đảo ngược: - Thay vì hành động như yêu cầu bài toán, hành động ngược lại. - Làm phần chuyển động của đối tượng thành đứng yên và ngược lại, phần đứng yên thành chuyển động. 14- Nguyên tắc cầu hóa: - Chuyển những phần phẳng của đối tượng thành cong, mặt phẳng thành mặt cầu, kết cấu hình hộp các loại thành kết cấu hình cầu. - Sử dụng các con lăn, viên bi, vòng xoắn. - Chuyển từ chuyển động thẳng sang chuyển động quay, sử dụng lực ly tâm. 15- Nguyên tắc linh động: - Cần thay đổi các đặc trưng của đối tượng hay môi trường bên ngoài sao cho chúng tối ưu trong từng giai đoạn làm việc. - Phân chia đối tượng thành từng phần có khả năng dịch chuyển đối với nhau.. - Nếu đối tượng nhìn chung bất động, làm nó di động được. 16- Nguyên tắc giải thiếu hoặc thừa - Nếu như khó khăn nhận được 100% hiệu ứng, kết quả cần thiết, nên nhận ít hơn hoặc nhiều hơn một chút. Lúc đó bài toán trở nên đơn giản và dễ giải hơn một cách đáng kể. 17- Nguyên tắc chuyển sang chiều khác: - Những khó khăn do chuyển động (hay sắp xếp) đối tượng theo đường (một chiều) sẽ được khắc phục nếu cho đối tượng khả năng di chuyển trên mặt phẳng (hai chiều). Tương tự, những bài toán liên quan đến chuyển động (hay sắp xếp) các đối tượng trên mặt phẳng sẽ được đơn giản hoá khi chuyển sang không gian (ba chiều). - Chuyển các đối tượng có kết cấu một tầng thành nhiều tầng. - Đặt đối tượng nằm nghiêng. - Sử dụng mặt sau của diện tích cho trước. - Sử dụng các luồng ánh sáng tới diện tích bên cạnh hoặc tới mặt sau của diện tích cho trước. 18- Sử dụng các dao động cơ học: - Làm đối tượng dao động. - Nếu đã có dao động, tăng tần số dao động. - Sử dụng tầng số cộng hưởng. - Thay vì sử dụng các bộ rung cơ học, dùng các bộ rung áp điện. - Sử dụng siêu âm kết hợp với trường điện từ. 19- Nguyên tắc tác động theo chu kỳ: - Chuyển tác động liên tục thành tác động theo chu kỳ. - Nếu đã có tác động theo chu kỳ, hãy thay đổi chu kỳ. - Sử dụng khoảng thời gian giữa các xung để thực hiện tác động khác. 20- Nguyên tắc liên tục các tác động có ích: - Thực hiện công việc một cách liên tục. - Khắc phục vận hành không tải và trung gian. - Chuyển chuyển động tình tiến qua lại thành chuyển động quay. 21- Nguyên tắc vượt nhanh: - Vượt qua các giai đoạn có hại hoặc nguy hiểm với vận tốc lớn. - Vượt nhanh để có được hiệu ứng cần thiết. 22- Nguyên tắc biến hại thành lợi: - Sử dụng những tác nhân có hại để thu được hiệu ứng có lợi. - Khắc phục tác nhân có hại bằng cách kết hợp nó với tác nhân có hại khác. - Thay đổi tác nhân có hại đến mức nó không còn có hại nữa. 23- Nguyên tắc quan hệ phản đối: - Thiết lập quan hệ phản hồi. - Nếu đã có quan hệ phản hồi, hãy thay đổi nó. 24- Nguyên tắc sử dụng trung gian: - Sử dụng đối tượng trung gian, chuyển tiếp để mang, truyền tác động. - Tạm thời gắn đối tượng cho trước với đối tượng khác, dễ tách rời sau đó. 25- Nguyên tắc tự phục vụ: - Đối tượng tự phục vụ bằng cách thực hiện các thao tác phụ trợ, sửa chữa… - Sử dụng phế liệu, chất thải, năng lượng dư… 26- Nguyên tắc sao chép: - Thay vì sử dụng những cái không được phép, phức tạp, đắt tiền, không tiện lợi hoặc dễ vỡ, sử dụng bản sao. - Thay thế đối tượng hoặc hệ các đối tượng bằng bản sao quang học với các tỉ lệ phóng to, thu nhỏ cần thiết. - Nếu không thể sử dụng bản sao quang học ở vùng khả kiến, chuyển sang sử dụng bản sao hồng ngoại hoặc tử ngoại. 27- Nguyên tắc rẻ thay cho đắt: - Thay đối tượng đắt tiền thành các bộ đối tượng rẻ có phẩm chất kém hơn. 28- Thay thế sơ đồ cơ học: - Thay thế sơ đồ cơ học bằng điện, quang, nhiệt, âm hoặc mùi, vị… - Sử dụng điện trường, từ trường và điện từ trường trong tương tác với đối tượng. - Chuyển các trường đứng yên sang chuyển động, các trường cố định sang thay đổi theo thời gian, các trường đồng nhất sang có cấu trúc nhất định. - Sử dụng các trường kết hợp với các hạt sắc từ. 29- Sử dụng các kết cấu khí và lỏng: - Thay cho các phần ở thể rắn, sử dụng các chất khí và lỏng: các kết cấu nạp khí, nạp chất lỏng, đệm không khí, thủy tĩnh, thủy phản lực… 30- Sử dụng vỏ dẻo và màng mỏng: - Sử dụng các vỏ deoer và màng mỏng thay cho các kết cấu khối. - Cách ly đối tượng với môi trường với môi trường bên ngoài bằng các vỏ dẻo và màng mỏng. 31- Sử dụng các vật liệu có nhiều lỗ: - Làm đối tượng có nhiều lỗ hoặc sử dụng thêm những chi tiết nhiều lỗ. - Nếu đối tượng đã có nhiều lỗ, sơ bộ tẩm nó bằng chất nào đó. 32- Nguyên tắc thay đổi màu sắc: - Thay đổi màu sắc của đối tượng hay đối tượng bên ngoài. - Thay đổi độ trong suốt của đối tượng hay môi trường bên ngoài. - Để có thể quan sát được những đối tượng hoặc những quá trình, hãy sử dụng các chất phụ gia màu, huỳnh quang. - Nếu các chất phụ gia đó đã được sử dụng, hãy dùng các nguyên tử đánh dấu. - Sử dụng các hình vẽ, ký hiệu thích hợp. 33- Nguyên tắc đồng nhất: - Những đối tượng, tương tác với đối tượng cho trước, phải được làm từ cùng một vật liệu với vật liệu chế tạo đối tượng cho trước. 34- Nguyên tắc phân hủy hoặc tái sinh các phần: - Phần đối tượng đã hoàn thành nhiệm vụ hoặc trở nên không cần thiết phải tự phân hủy hoặc phải biến dạng. - Các phần mất mát của đối tượng phải được phục hồi trực tiếp trong quá trình làm việc. 35- Thay đổi các thông số lý hóa của đối tượng: - Thay đổi trạng thái của đối tượng. - Thay đổi nồng độ hay độ đậm đặc. - Thay đổi độ dẻo. - Thay đổi nhiệt độ, thể tích. 36- Sử dụng chuyển pha: - Sử dụng các hiện tượng, nảy sinh trong các quá trình chuyển pha như thay đổi thể tích, tỏa hay hấp thu nhiệt lượng… 37- Sử dụng sự nở nhiệt: - Sử dụng sự nở (hay co) nhiệt của các vật liệu. - Nếu đã dùng sự nở nhiêt, hãy sử dụng vài vật liệu có các hệ số nở nhiệt khác nhau. 38- Sử dụng các chất oxy hóa mạnh: - Thay không khí thường bằng không khí giàu oxy. - Thay không khí giàu oxy bằng chính oxy. - Dùng các bức xạ ion hóa tác động lên không khí hoặc oxy. - Sử dụng oxy bị ozon hóa. - Thay oxy giàu ozon bằng chính ozon. 39- Thay đổi độ trơ: - Thay môi trường thông thường bằng môi trường trung hòa. - Đưa thêm vào đối tượng các phần, các chất phụ gia… trung hòa. - Thực hiện quá trình trong chân không. 40- Sử dụng các vật liệu hợp thành: - Chuyển từ các vật liệu đồng nhất sang sử dụng những vật liệu hợp thành. Hay nói chung, sử dụng các loại vật liệu có tính hệ thống mới. II. Ứng dụng các nguyên tắc sáng tạo trong khai thác dữ liệu Do sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật … đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Việc sử dụng những dữ liệu đó hiệu quả trở nên khó khăn nếu như chúng ta sử dụng không sáng tạo. Để sử dụng cơ sở dữ liệu đó hiệu quả đòi hỏi chúng ta phải có phương pháp. Một trong những phương pháp đó là Khai thác dữ liệu (data mining). Khai thác dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong các cơ sở dữ liệu. Cụ thể hơn, đó là tiến trình trích lọc sản sinh những tri thức hoặc các mẫu tìm ẩn chưa biết nhưng hữu ích từ các cơ sở dữ liệu lớn. Khai thác dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực cho các tiến trình ra quyết định. Nguồn dữ liệu phục vụ khai phá dữ liệu có thể là các cơ sở dữ liệu lớn hay các kho dữ liệu có cấu trúc hoặc không có cấu trúc. Điều đó không có nghĩa là khai phá dữ liệu không thể thực hiện với các cơ sở dữ liệu nhỏ, khai thác dữ liệu phát huy tác dụng thật sự với cơ sở dữ liệu lớn - nơi mà khả năng diễn dịch và trực giác của con người cũng như các kỹ thuật truyền thống không thể thực hiện nổi hoặc nếu thực hiện thì hiệu quả không cao. Có thể chia khai thác dữ liệu thành hai dạng chính: khai thác dữ liệu theo hướng kiểm tra và khai thác dữ liệu theo hướng khám phá. - Khai thác dữ liệu theo hướng kiểm tra: người dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắn của giả thiết bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê… - Khai thác dữ liệu theo hướng khám phá: tìm kiếm các tri thức tìm ẩn trong cơ sở dữ liệu bằng cách tiến hành xem xét tất cả các giả thiết khả dĩ, do không gian tìm kiếm lớn, nên rất nhiều heuristic đã được đề xuất nhằm nâng cao hiệu suất của các thuật giải tìm kiếm. Ngày nay, khi công cụ thu thập dữ liệu tự động và công nghệ lưu trữ dữ liệu ngày càng hoàn thiện giúp con người tạo lập và quản lý dữ liệu khổng lồ trong các cơ sở dữ liệu, kho dữ liệu thì nhu cầu nắm bắt dữ liệu, trích rút thông tin trở thành cấp thiết và có ý nghĩa. Mặt khác, với nhu cầu ngày càng cao hơn con người không bằng lòng với những dữ liệu đơn giản thu được từ các kỹ thuật trước đây. Từ đây nhu cầu về những sự kiện rời rạc trong lĩnh vực ứng dụng, nay phát sinh nhu cầu nắm bắt tri thức về các mối quan hệ giữa chúng, xa hơn nữa là phát hiện những qui luật trong lĩnh vực đó. Khai thác dữ liệu ra đời nhằm đáp ứng các nhu cầu cấp thiết đó. Lịch sử phát triển KTDL: Có thể điểm qua lịch sử phát triển của các kỹ thuật, công nghệ lưu trữ và Khai thác dữ liệu: - Những năm 1960: xuất hiện cơ sở dữ liệu theo mô hình mạng và mô hình phân cấp. - Những năm 1970: thiết lặp nền tảng cho lý thuyết cơ sở dữ liệu quan hệ, các hệ quản trị cơ sở dữ liệu quan hệ. - Những năm 1980: hoàn thiện lý thuyết về cơ sở dữ liệu và các hệ quản trị cơ sở dữ liệu, xuất hiện các hệ quản trị cơ sở dữ liệu cao cấp (hướng đối tượng, suy diễn…) và hệ quản trị cơ sở dữ liệu hướng ứng dụng trong lĩnh vực không gian, khoa học, công nghiệp, nông nghiệp, địa lý… - Những năm 1990-2000: phát triển khai thác dữ liệu và kho dữ liệu, cơ sở dữ liệu đa phương tiện và cơ sở dữ liệu web. Khai thác dữ liệu là một công đoạn trong tiến trình lớn hơn là khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database - KDD). Khai thác dữ liệu mang tính trực giác, cho phép thu được những hiểu biết rõ ràng và sâu sắc hơn, vượt xa kho dữ liệu. Khai thác dữ liệu giúp phát hiện ra những xu thế phát triển từ những thông tin quá khứ, cũng như cho phép đề xuất các dự báo mang tính thống kê, gom cụm và phân loại dữ liệu: Các lý do sử dụng khai thác dữ liệu: - Ngày càng có nhiều dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu và hình thành một “mỏ vàng dữ liệu” chứa đầy các thông tin chiến lược mà các hệ quản trị cơ sở dữ liệu thông thường không thể phát hiện và quản trị được chúng. - Cơ sở dữ liệu phát triển rất nhanh cả về kích thước lẫn số lượng. Không xét những thông tin mang tính sự kiện được lưu trữ trong cơ sở dữ liệu, những thông tin được suy diễn từ nó cũng hết sức lý thú. Tuy nhiên, với các quan hệ có số lượng khổng lồ các bản ghi và có quá nhiều trường tin, việc duyệt hàng triệu bản ghi hay hàng trăm trường tin để tìm ra các mẫu và các qui luật là một thách thức và trở ngại thật sự đối với các nhà phân tích dữ liệu. - Không phải người dùng nào cũng là nhà thống kê hay nhà phân tích dữ liệu chuyên nghiệp. - Sử dụng cho các trường hợp tìm kiếm nhưng chưa xác lập rõ hoặc chưa mô tả các điều kiện tìm kiếm. Nếu người dùng biết họ đang tìm kiếm gì thì dùng SQL, nhưng nếu người dùng chỉ có một ý tưởng không rõ ràng hoặc một cảm nhận nào đó thì họ nên dùng khai thác dữ liệu. Khai thác dữ liệu là một công cụ hiệu quả trong các lĩnh vực: 1. Sử dụng để xây dựng các mô hình dự báo: - Khả năng dự báo tìm ẩn trong dữ liệu. - Gợi ý về các chiều và các nhóm dữ liệu có khả năng chứa các tri thức hữu ích. 2. Tạo tóm tắt và báo cáo rõ ràng: - Tự động tìm những phân đoạn trong dữ liệu. - Tìm ra những phân đoạn mà nhà phân tích chưa biết hoặc có hiểu biết chưa rõ ràng. 3. Cung cấp cớ chế hỗ trợ ra quyết định: - Dự báo. - Mô hình hóa. Các công đoạn khám phá tri thức từ cơ sở dữ liệu: 1. Chọn lọc dữ liệu: là giai đoạn chọn lọc, rút trích các dữ liệu cần thiết từ cơ sở dữ liệu tác nghiệp vào cơ sở dữ liệu riêng. Chúng ta chỉ chọn ra những dữ liệu cần thiết cho các giai đoạn sau. Tuy nhiên, công việc thu gom dữ liệu vào một cơ sở dữ liệu thường rất khó khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan tổ chức cùng một loại thông tin nhưng được tạo theo các dạng thức khác nhau VD: nơi này dùng kiểu chuỗi, nơi kia lại dùng kiểu số một thuộc tính nào đó của khách hàng. Đồng thời chất lượng dữ liệu cũng không giống nhau: một vài phòng ban trong cơ quan sẽ duy trì dữ liệu ở mức chất lượng cao để lưu các thông tin sống còn đối với hoạt động của họ, trong khi các phòng ban khác lại xem dữ liệu đó không quan trọng. Các nguyên tắc sáng tạo được áp dụng trong giai đoạn này là: + Nguyên tắc tách khỏi: tách khỏi những thứ không còn thiết trong một tập các dữ liệu để lấy những dữ liệu cần thiết cho nhu cầu và mục đích của chương trình. + Nguyên tắc kết hợp: kết hợp dữ liệu từ nhiều nguồn khác nhau để tìm ra dữ liệu cần thiết, hữu ích. + Nguyên tắc thực hiện sơ bộ: tổng hợp lại các dữ liệu cần thiết cho quá trình khai phá. + Nguyên tắc linh động: biết kết hợp các dữ liệu cần thiết và loại bỏ những dữ liệu không cần thiết ra khỏi tập dữ liệu. 2. Làm sạch dữ liệu: Phần lớn các cơ sở dữ liệu đều ít nhiều mang tính không đồng nhất. Do vậy, khi khai thác dữ liệu trên các cơ sở dữ liệu thường không đảm bảo tính đúng đắn. Nguyên tắc được áp dụng ở đây là nguyên tắc loại bỏ: những dữ liệu dư thừa, không chính xác để có dữ liệu trong sạch. a) Chống trùng lập: Dạng lỗi thứ nhất khá quan trọng trong thao tác xóa dữ liệu đó là xóa bỏ thông tin trùng của các bản ghi. Thao tác này diễn ra khi các phần thông tin bị trùng do có phần sai sót trong phần nhập liệu hoặc thông tin không được cập nhật kịp thời hoặc thông tin được cung cấp bị sai. Nguyên tắc được áp dụng: + Nguyên tắc loại bỏ: loại bỏ những dữ liệu bị sai để được dữ liệu “sạch” nhất. b) Giới hạn vùng giá trị: Dạng lỗi thứ hai thường xảy ra đó là giá trị nằm ngoài miền giá trị cho phép, nghĩa là các thông tin chứa các giá trị không hợp lệ theo một qui tắc nào đó. Dạng lỗi này gây tác dụng khá lớn vì rất khó phát hiện ra nó nhưng lại có ảnh hưởng lớn đến dạng thức của các mẫu cần tìm khi thực hiện khai thác dữ liệu, trên các bảng dữ liệu này. Từ đó sẽ xuất hiện các mâu thuẫn trong các vùng dữ liệu. Nguyên tắc được áp dụng ở đây là: + Nguyên tắc tách khỏi: tách những dữ liệu không cần thiết ra khỏi dữ liệu ban đầu. c) Giai đoạn làm giàu dữ liệu: Giai đoạn này bổ sung thêm nhiều loại thông tin có liên quan vào cơ sở dữ liệu gốc. Để làm được điều này, chúng ta phải có các cơ sở dữ liệu khác ở bên ngoài có liên quan đến cơ sở dữ liệu gốc ban đầu. Ta tiến hành bổ sung những thông tin cần thiết làm tăng khả năng khám phá tri thức từ cơ sở dữ liệu. Với vấn đề đặt ra là làm thế nào để kết hợp thông tin giữa dữ liệu gốc và dữ liệu được bổ sung. Bên cạnh đó, chúng ta cần lưu ý đến vấn đề khôi phục các quan hệ trong cơ sở dữ liệu sau khi đã được làm giàu thông tin. Nguyên tắc được áp dụng ở đây là: + Nguyên tắc kết hợp: kết hợp các dữ liệu từ nhiều nguồn khác nhau để tạo nên nguồn dữ liệu gốc cần thiết cho quá trình khai thác dữ liệu. 3. Giai đoạn mã hóa dữ liệu: Mục đích của giai đoạn này là chuyển đổi những kiểu dữ liệu về những dạng thuận lợi để tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hóa dữ liệu khác nhau theo từng loại dữ liệu. + Phân vùng: với dữ liệu là giá trị chuỗi, nằm trong tập các chuỗi cố định. + Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với số năm hiện hành. + Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn. + Chuyển đổi yes-no thành 0-1. Tiến hành gom nhóm các phần thông tin mang giá trị gần nhau hay tiến hành phân nhóm các thông tin. Nguyên tắc được áp dụng ở đây là: + Nguyên tắc phẩm chất cục bộ: biến những kiểu dữ liệu không phù hợp hay không thống nhất về một kiểu dữ liệu. + Nguyên tắc thực hiện sơ bộ: chuyển những dữ liệu có kiểu không đồng nhất về cùng một kiểu thống nhất và nó cũng đã ứng dụng nguyên tắc linh động. 4. Khai thác dữ liệu: là tiến trình “điều chỉnh đúng” các mô hình dữ liệu. Chức năng biến đổi dữ liệu được đưa vào bước này với mục đích để trình diễn dữ liệu. 5. Trình diễn dữ liệu: là quá trình giải thích và hiển thị trực quan các kết quả khai thác dữ liệu để hổ trợ việc định giá chất lượng dữ liệu, đánh giá mô hình dữ liệu được lựa có phù hợp hay không, và thể hiện mô hình. Mỗi bước (t