Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Trong những năm gần đây, khai thác dữ liệu đã trở thành một trong những hướng nghiên cứu lớn nhất của lĩnh vực khoa học máy tính và công nghệtri thức. Khai thác dữliệu đã và đang ứng dụng thành công vào nhiều lĩnh vực thương mại, tài chính, thịtrường chứng khoáng, y học, thiên văn, môi trường, giáo dục, viễn thông và sinh học.v.v. Khối lượng thông tin đã được xửlý và đã được sản sinh trong tất cảcác lĩnh vực hoạt động của loài người đã và đang tăng lên đáng kể, chúng được lưu trữtrong các cơsởdữliệu tập trung hay phân tán. Trong những kho dữ liệu này ẩn chứa một kho tàng tri thức quý báu, muốn lấy được kho báu này chúng ta phải có một công cụ đó là các phương pháp khai thác dữliệu. Khai thác dữliệu gồm nhiều hướng tiếp cận. Các kỹthuật chính được áp dụng trong lĩnh vựnày phần lớn được kếthừa từcác lĩnh vực cơsởdữliệu, máy học (machine learning), trí tuệnhân tạo (artificial intelligence), lý thuyết thông tin (information theory), xác suất thống kê (probability & statistics), tính toán hiệu năng cao (high performancecomputing), và phương pháp tính toán mềm (soft computing methodologies). Các bài toán chủyếu trong khai thác dữliệu là khai thác chuỗi (text mining), khai thác web (web mining), khai thác chuỗi (sequence mining), khai thác luật kết hợp (association rules mining), lý thuyết tập thô (rough set theory), gomcụm(clustering), phân lớp (classification) Trong đó phân lớp là một trong các nội dung quan trọng của khai thác dữliệu và đây là một lĩnh vực nghiên cứu có nhiều triển vọng với nhiều khảnăng ứng dụng thực tế. Luận văn này được xây dựng dựa trên ý tưởng cho một thuật toán giảm thiểu sựphân lớp quá khớp (overfitting) và sự phân lớp quá khái quát (overgeneralization) của thầy Phạm Nguyễn Anh Huy (2005). Sau đó, áp dụng thuật toán này cho bài toán protein folding, đây là một bài toán khám phá cấu trúc 3D của protein. Cấu trúc 3D của protein được hình thành từcấu tạo các chuỗi amino axit, nó cung cấp những manh mối quan trọng vềcác chức năng của từng protein. Vì vậy, bài toán protein folding là một bài toán lớn và quan trọng trong ngành sinh học. Phần này sẽ được trình bày kỹhơn trong nội dung luận văn. Luận văn sẽbao gồm các phần chính nhưsau: Chương 1:Giới thiệu tổng quan vềbài toán phân lớp (classification) và protein folding. Chương này sẽgiới thiệu các khái niệm vềphân lớp, các bước đểgiải quyết một bài toán phân lớp và trình bày vấn đềquá khớp(overfitting) và quá khái quát (overgeneralization) trong bài toánphân lớp. Đồng thời giới thiệu bài toán protein folding. Chương 2 :Trình bày một sốthuật toánphân lớp phổbiến hiện nay nhưcây quyết định (decision trees), mạng Bayesian, mạng neural và thuật toán Support Vector Machine (SVM). Chương 3 : Trình bày chi tiết thuật toán phân lớp kết hợp giữa phân lớp quá khớp với phân lớp quá khái quát của thầy PhạmNguyễn Anh Huy. Chương 4 : Áp dụng bài toán phân lớp cho Protein folding và đánh giá kết quả được, so sánh kết quả đạt được so với các thuật toán phân lớp khác.