Luận văn Tập thô và ứng dụng trong khai khoáng văn bản
Sự phát triển nhanh chóng của Internet đã tạo ra một khối lượng cực lớn các lượng thông tin đa phần là dưới các dạng tài liệu Text trực tuyến, vì thế cũng gia tăng các nhu cầu lọc, phân loại và tìm kiếm các mối tương quan của lượng thông tin rộng lớn này phục vụ cho con người. Tuy nhiên phức tạp chính của khai khoáng dữ liệu trên Text đó là số lượng các thuộc tính là rất lớn. Ta xem mỗi tài liệu như là 1 đối tượng trong bảng quyết định, tương ứng với nó là 1 véc tơ các giá trị của từ khóa trong tài liệu. Mỗi một giá trị của từ khóa này lại được tính toán bằng công thức tính trọng số ví dụ như TF-IDF hoặc công thức Boolean. Mỗi một bảng quyết định như thế có số chiều rất cao có thể là hàng chục, hàng trăm hoặc hàng ngàn từ khóa, đây là trở ngại lớn để áp dụng các thuật toán nói chung và tập thô nói riêng.
Các file đính kèm theo tài liệu này:
- 5.pdf
- 0.pdf
- 1.pdf
- 2.pdf
- 3.pdf
- 4.pdf
- 6.pdf
- 7.pdf
- 8.pdf