Hiện nay, kỹ thuật phân loại dữ liệu được sử dụng rông
rãi trong hầu hết các lĩnh vực khác nhau của trí tuệ nhân tạo
như phân loại văn bản, phân loại chữ viết tay, phân loại
hình ảnh, phân loại chức năng của gene,
Trong thực tế có rất nhiều phương pháp phân loại dữ
liệu, mỗi phương pháp lại có những đặc điểm riêng phù hợp
với từng đối tượng dữ liệu cần phân loại. Luận văn này sẽ
trình bày về phương pháp phân loại phân cấp đa nhãn
(hierarchical multi-label classification - HMC) để giải quyết
bài toán dự đoán chức năng của gene. Việc xác định chức
năng của một gene mới có ý nghĩa rất quan trọng trong các
nghiên cứu sinh học và y học.
Bài toán dự đoán chức năng của gene thực chất là bài
toán phân loại. Chức năng của gene được thể hiện dưới dạng
cây phân cấp. Mỗi gene đảm nhận một chức năng nào đó và
có mối liên hệ với các gene khác. Xác định được chức năng
của gene chính là xác định vị trí tương đối của chúng với
các gene khác. Do đó, việc giải quyết vấn đề xác định chức
chức năng của gene cũng chính là phân loại gene dựa vào
chức năng của chúng. Bài toán xác định chức năng của gene
lúc này quy về bài toán phân loại gene dưới dạng cây phân
cấp.
25 trang |
Chia sẻ: tuandn | Lượt xem: 1892 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận văn Tóm tắt Dự đoán chức năng Gene sử dụng kỹ thuật phân loại phân cấp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Trần Xuân Thanh
DỰ ĐOÁN CHỨC NĂNG GENE SỬ DỤNG KỸ
THUẬT PHÂN LOẠI PHÂN CẤP
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Người hướng dẫn khoa học: PGS.TS Từ Minh Phương
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
2
MỞ ĐẦU
Hiện nay, kỹ thuật phân loại dữ liệu được sử dụng rông
rãi trong hầu hết các lĩnh vực khác nhau của trí tuệ nhân tạo
như phân loại văn bản, phân loại chữ viết tay, phân loại
hình ảnh, phân loại chức năng của gene,…
Trong thực tế có rất nhiều phương pháp phân loại dữ
liệu, mỗi phương pháp lại có những đặc điểm riêng phù hợp
với từng đối tượng dữ liệu cần phân loại. Luận văn này sẽ
trình bày về phương pháp phân loại phân cấp đa nhãn
(hierarchical multi-label classification - HMC) để giải quyết
bài toán dự đoán chức năng của gene. Việc xác định chức
năng của một gene mới có ý nghĩa rất quan trọng trong các
nghiên cứu sinh học và y học.
Bài toán dự đoán chức năng của gene thực chất là bài
toán phân loại. Chức năng của gene được thể hiện dưới dạng
cây phân cấp. Mỗi gene đảm nhận một chức năng nào đó và
có mối liên hệ với các gene khác. Xác định được chức năng
của gene chính là xác định vị trí tương đối của chúng với
các gene khác. Do đó, việc giải quyết vấn đề xác định chức
chức năng của gene cũng chính là phân loại gene dựa vào
chức năng của chúng. Bài toán xác định chức năng của gene
lúc này quy về bài toán phân loại gene dưới dạng cây phân
cấp.
3
Do tổ chức phân cấp của các GO term, khi xác định
chức năng của gene thuật toán phân loại cần tính tới phân
cấp này. Đã có một số nghiên cứu tập trung vào việc phát
triển kỹ thuật phân loại có tính tới đặc thù phân cấp của
Gene Ontology (GO). Mục tiêu và nội dung luận văn sẽ tập
trung vào việc nghiên cứu áp dụng phân loại phân cấp cho
bài toán xác định chức năng gene và đánh giá kết quả bằng
thực nghiệm.
Đối tương nghiên cứu của đề tài là bộ dữ liệu mô tả
chức năng của gene người đã có sẵn để xây dựng tập huấn
luyện. Phạm vi nghiên cứu của luận văn tập trung vào dự
đoán, xác định chức năng của một gene mới sử dụng
phương pháp phân loại phân cấp dựa trên bộ dữ liệu đã cho.
Bố cục của luận văn gồm:
Chương 1: Trình bày về các khái niệm cơ bản về gene,
chức năng của gene. Tiếp đến là khái niệm về gene ontology
(GO).
Chương 2: Trình bày phần chính của luận văn. Trước
tiên là giới thiệu sơ bộ và phân loại các phương pháp phân
loại dữ liệu sử dụng trong bài toán dự đoán chức năng của
gene. Tiếp theo trình bày về khái niệm cây quyết định và các
phương pháp phân loại dựa vào cây quyết định. Quan trọng
4
nhất trong phần này, đi sâu trình bày phương pháp phân cấp
phân loại dữ liệu.
Chương 3: Mô tả quá trình kiểm thử và chạy hệ thống
CLUS. Đầu tiên giới thiệu sơ bộ về hệ thống CLUS, sau đó
tìm hiều về các định dạng dữ liệu đầu vào và đầu ra của hệ
thống CLUS. Cuối cùng là đánh giá kết quả khi tiến hành
chạy hệ thống với bộ dữ liệu gene nấm men.
5
Chương 1: TỔNG QUAN VỀ GENE VÀ DỰ ĐOÁN
CHỨC NĂNG GENE
1.1.1. Chức năng của gene và phân loại chức năng gene
1.1.2. Một số khái niệm cơ bản về gene
Nhiễm sắc thể chứa DNA (deoxyribonucleic acid) mang
gene. Gen được truyền từ bố mẹ sang con cái và được xem là
đơn vị cơ bản của sự di truyền, ảnh hưởng lên mọi cấu trúc và
chức năng của cơ thể. Ở người có khoảng từ 30.000-40.000
gene cấu trúc (gene mã hóa cho RNA hoặc các protein).
1.1.3. Chức năng của gene
Thông thường, mỗi gene mã hóa một protein tương ứng.
Các protein này đảm nhiệm những vai trò hay chức năng khác
nhau trong cơ thể các sinh vật. Các chức năng của
gene/protein rất đa dạng, từ đóng vai trò trong các phản ứng
sinh hóa của tế bào, tới tương tác và điều hòa sự hoạt động
của các gen khác. Việc xác định chức năng của gene cũng như
sản phẩm của gene là nhiệm vụ quan trọng của sinh học phân
tử và tin sinh học.
1.1.4. Gene ontology (GO)
Các nghiên cứu về gene cho thấy cấu trúc gene rất phức
tạp đặc biệt là gene người. Để sử dụng dữ liệu về chức năng
6
của gene cho hệ thống phân loại phân cấp thì dữ liệu về gene
phải được trừu tượng hóa, định dạng lại theo chuẩn đầu vào
của hệ thống phân loại.
Phương pháp phân loại được sử dụng trong đề tài này là
phân loại phân cấp đa nhãn dựa trên cây quyết định được cài
đặt cho hệ thống CLUS sử dụng bộ dữ liệu theo chuẩn chung.
Bộ dữ liệu về gene của các sinh vật đã được hoàn thiện dần
qua các nghiên cứu gần đây, tạo nên một chuẩn biểu diễn. Các
phương pháp học máy để dự đoán chức năng của gene nói
chung đều dựa trên cơ sở của bộ dữ liệu chức năng gene co
sẵn, chẳng hạn các chức năng trong gene ontology (GO) hay
trong FunCat.
Mỗi gene được thể hiện như là một Gene ontology
(GO), các gene có các chức năng gần nhau được gom thành
các nhóm (GO term). Các GO term được tổ chức dưới dạng
cây phân cấp.
Chức năng của gene được thể hiện dưới dạng cây phân
cấp, mỗi gene đơn lẻ có thể có nhiều chức năng, và các chức
năng được tổ chức trong hệ thống cấp bậc một: một gen có
liên quan đến chức năng một số chức năng của “gene tổ tiên”
của mình (gọi là hạn chế phân cấp).
7
Khi ta xác định chức năng của một gene mới (X) tức là ta
đi ta đi xác định xem X có những GO term nào bằng cách đưa
nó vào bộ phân loại với tập huấn luyện đã xác định ta sẽ được
GO term của gene đó. Do tổ chức phân cấp của các GO term,
khi xác định chức năng của gen thuật toán phân loại cần tính
tới phân cấp này.
1.2. Bài toán xác định chức năng gene
Từ góc độ khoa học máy tính, bài toán xác định chức
năng gene có thể phát biểu như bài toán phân loại trong học
máy. Theo đó, mỗi gene là một đối tượng, có thể nhận một
hoặc một số nhãn phân loại. Mỗi nhãn phân loại ở đây tương
ứng với một GO term. Mỗi gene được biểu diễn bởi một số
đặc trưng nhất định, được trích rút từ những dữ liệu sinh học
và di truyền khác nhau. Tập dữ liệu huấn luyện cho thuật toán
phân loại được tạo thành từ những gene đã biết nhãn phân
loại, tức là đã được xác định chức năng từ trước bằng các
phương pháp sinh học.
Để phân loại các GO term theo phân cấp ta đi xây dựng
các tập huấn luyện từ tập các gene (Xi | i = 1,2,3, …n) đã biết
chức năng, mỗi Gene đó được biểu diễn như một vector.
Khi ta xác định chức năng của một gene mới (X) tức là ta
đi ta đi xác định xem X có những GO term nào bằng cách đưa
8
nó vào bộ phân loại với tập huấn luyện đã xác định ta sẽ được
GO term của gene đó.
Do tổ chức phân cấp của các GO term, khi xác định chức
năng của gen thuật toán phân loại cần tính tới phân cấp này.
Đã có một số nghiên cứu tập trung vào việc phát triển kỹ thuật
phân loại có tính tới đặc thù phân cấp của GO.
1.3. Kết luận chương
Bộ dữ liệu gene đặc biệt là chức năng của gene rất
phương tạp, chức năng của gene có ý nghĩa quan trong trong
các nghiên cứu sinh học cũng như y học. Các nghiên cứu và
thực nghiện đã chứng minh phương pháp phân loại phân cấp
đã nhãn phù hợp với bài toán phân loại và dự đoán chức năng
của gene.
Chương 2: PHÂN LOẠI PHÂN CẤP SỬ DỤNG CÂY
QUYẾT ĐỊNH
2.1. Giới thiệu chương
Chương 2 tập trung trình bày về phân loại dữ liệu sử
dụng cây quyết định. Phương pháp sử dụng cây quyết định để
phân loại dữ liệu tỏ ra hiệu quả và sử dụng rông rãi trong thực
tế. Dựa trên nền tảng cây quyết định kết hợp với đặc tính phân
9
cấp chức năng của gene để hình thành lên cây phân loại phân
cấp.
2.2. Một số phương pháp phân loại dữ liệu
a. Phân loại dữ liệu (classification)
Phân loại dữ liệu là một bài toán hết sức cơ bản và quan
trọng trong lĩnh vực công nghệ thông tin nói chung và trí tuệ
nhân tạo nói riêng. Phân loại dữ liệu (classification), là việc
phân tích dữ liệu nhằm trích rút các mô hình mô tả các lớp dữ
liệu hoặc dự đoán xu hướng dữ liệu.
b. Phân loại các phương pháp phân loại dữ liệu
Có rất nhiều phương pháp phân loại dữ liệu khác nhau.
Sự khác nhau của các phương pháp phân loại xuất phát từ cơ
sở lý toán học khác nhau cũng như đặc điểm riêng của từng bộ
dữ liệu. Chẳng hạn, dựa vào lý thuyết thống kê có phương
pháp phân loại Bayes; với các dữ liệu dạng số và cơ sở toán
học về khoảng các Eclide có phương pháp phân loại K-mean;
với cấu trúc cây có phương pháp phân loại dựa vào cây quyết
định… Dựa vào tính đơn nhãn hay đa nhãn của dữ liệu có các
phương pháp phân loại đơn nhãn và đa nhãn; dựa vào sự phân
cấp dữ diệu có phương phấp phân cấp phân loại. Từ các
10
phương pháp phân loại trên một loát các thuật toán ra đời như
C4.5, J48, CART, R8, CLUS…
2.3. Cây quyết định
2.3.1. Khái niệm cây quyết định
Cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện
tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện
tượng. Mỗi một nút trong (internal node) tương ứng với một
biến; đường nối giữa nó với nút con của nó thể hiện một giá
trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán
của biến mục tiêu, cho trước các giá trị của các biến được biểu
diễn bởi đường đi từ nút gốc tới nút lá đó.
2.3.2. Một số thuật toán học cây quyết định tiêu biểu
Có rất nhiều thuật toán phân lớp như ID3, J48, C4.5,
CART (Classification and Regression Tree),… Việc chọn
thuật toán nào để có hiệu quả phân lớp cao tuy thuộc vào rất
nhiều yếu tố, trong đó cấu trúc dữ liệu ảnh hưởng rất lớn đến
kết quả của các thuật toán. Chẳn hạn như thuật toán ID3 và
CART cho hiệu quả phân lớp rất cao đối với các trường dữ
liệu số (quantitative value) trong khi đó các thuật toán như
11
J48, C4.5 có hiệu quả hơn đối với các dữ liệu Qualititive
value (ordinal, Binary, nominal).
2.4. Sự khác nhau giữa phân loại thông thường và phân
loại phân cấp
Các phương phân loại thông thường thường dựa trên một
số thuộc tính tương đồng để phân loại, sự phân loại theo
phương pháp này không tính đến tính phân cấp của chức năng
gene. Phương pháp phân loại phân cấp dựa trên đặc tính phân
cấp chức năng của gene.
Phương pháp phân loại phân cấp là một trường hợp của
phương pháp phân loại gom cụm. Phương pháp gom cụm là
gom các đối tượng dữ liệu với các đối tượng khác trong cụm
và không tương tự với các đối tượng trong các cụm khác. Có
thể chia các thuật toán gom cụm thành các thuật toán cơ bản
sau: phương pháp phân cấp, phương pháp dựa trên mật độ,
phương pháp dựa trên lưới và các phương pháp dựa trên mô
hình.
Phân loại phân cấp là tạo phân cấp cụm, chứ không phải
là phân hoạch đơn thuần các đối tượng, không quan tâm đến
số cụm khi gom cụm. Việc phân cấp cụm thường tạo ra cây
các cụm, các lá của cây biểu diễn các đối tượng riêng lẻ, các
nút trong cây biểu diễn các cụm.
12
Trong thực tế người ta chia làm hai phương pháp phân
cụm, phân cụm từ dưới lên và phân cụm từ trên xuống.
- Phương pháp phân cụm từ trên xuống: Bắt đầu bằng
một cụm lớn chứa tất cả đối tượng. Phân chia cụm phân biệt
nhất thành các cụm nhỏ hơn và xử lý cho đến khi co n cụm
hay thỏa điều kiện kết thúc
- Phương pháp phân cụm từ dưới lên: Đưa từng đối tượng
vào cụm (cluster) riêng của nó. Trộn ở mỗi bước hai cụm
tương tự nhất cho đến khi chỉ còn một cụm hay thỏa điều kiện
kết thúc.
2.5. Kỹ thuật sử dụng cây quyết định cho bài toán phân
loại phân cấp
2.5.1. Khảo sát một số phương pháp phân loại phân cấp
a. Giới thiệu chung
Phân loại phân cấp là gì ?
Xác định một lớp phân loại như một cấu trúc cây. Cấu
trúc cây được hiểu như là một hệ thống phân cấp xác định trên
một tập có thứ tự (C, ≺). Trong đó C là tập hữu hạn liệt kê tất
cả các thuộc tính trong lĩnh vực ứng dụng, ≺ đại diện cho
mối quan hệ “is – a”.
13
- Chỉ có một phần tử lớn nhất "R" là gốc của cây.
- ci, cj C, if ci ≺ cj then ci cj.
- ci C, ci ci.
- ci, cj , ck C, ci ≺ cj và cj ≺ ck suy ra ci ≺ ck.
Bất cứ phân loại có cấu trúc nào đáp ứng được 4 tính chất
trên đều được coi là phân loại phân cấp. Tuy nhiên trong trên
thực tế lớp phân cấp trong việc phân loại có sự thể hiện khác
nhau miễn là 4 tính chất trên được thỏa mãn.
Phân loại phân cấp có tiếp cận cả các cấu trúc cây cơ bản
cũng như cấu trúc đồ thị có hướng không chu trình (DAG). Sự
khác biệt giữa cấu trúc cây cơ bản và DAG thể hiện ở mối
quan hệ dữ liệu.
b. Biểu diễn bài toán
Bài toán xác định chức năng của gene thực chất là bài
toán phân loại. Chức năng của gene được thể hiện dưới dạng
cây phân cấp. Mỗi Gene đảm nhận một chức năng nào đó và
có mối liên hệ với các gene khác. Xác định được chức năng
của gene chính là xác định vị trí tương đối của chúng với các
gene khác. Do đó, việc giải quyết vấn đề xác định chức chức
năng của gene cũng chính là phân loại gene dựa vào chức
14
năng của chúng. Bài toán xác định chức năng của gene lúc
này quy về bài toán phân loại gene dưới dạng cây phân cấp.
Kết quả của quá trình dự đoán có độ tin cạy cao sẽ được kiểm
tra lại trong phòng thí nghiệm.
2.5.2. Thuật toán phân loại phân cấp đã nhãn (HMC)
a. Giới thiệu cây quyết định phân loại phân cấp đa nhãn
Phương pháp phân loại phân cấp đa nhãn (HMC) được
xây dựng dựa trên cấu trúc cây quyết định và được thiết
lập trong phạm vi cụm cây dự đoán (PCT). Chúng ta có thể
coi hệ thống cây quyết định HCM như một hệ thống cụm
phân cấp: nút trên cùng tương ứng với một phân cụm có chứa
tất cả các mẫu huấn luyện, sử dụng phương pháp đệ quy để
chia thành các phân cụm nhỏ hơn từ trên xuống dưới của
cây. Các PCT có thể được sử dụng cho cả việc phân cụm và
dự đoán các chức năng của gene. Hệ thống PCT được thực
hiện trong chương trình CLUS.
b. Sử dụng tập hợp cây dự đoán cho HMC
Trước khi giải thích những phương pháp cụ thể, chúng ta
đi xét ví dụ một phân cụm cây dự đoán để dự đoán các chức
năng gene của chủng S.cerevisiae dựa trên các dữ liệu tương
đồng nhau. Các chức năng tương đồng được xác định tương tự
15
như quá trình tìm kiếm gene mấm men đối với tất cả các gene
trong SwissProte. Các chức năng lấy từ chương trình FunCat.
Mỗi nút của cây có chứa một mẫu thử nghiệm trong dữ liệu
nguồn. Ở đây các thuộc tính được nhị phân hóa, sử dụng sau
khi đã tiền xử lý các quan hệ dữ liệu tương đồng.
Tập hợp các PCT
Phương pháp tập hợp (ensemble) là phương pháp học
bằng cách xây dựng một tập phân loại cho 1 nhiệm vụ dự
đoán đã đưa ra và phân loại mẫu mới bằng cách kết hợp
những dự đoán của mỗi phân loại. Kỹ thuật học được sử dụng
dựa trên cây quyết định. Các thuật toán đóng gói các PCT có
đầu vào là tham số k, là số cây trong tập hợp. Để dự đoán, với
mức trung bình của tất cả các lớp vector đã dự đoán bằng k
cây trong tập hợp được tính toán, và sau đó áp dụng ngưỡng
như trước. Điều này đảm bảo rằng các giới hạn phân cấp.
c. Thuật toán Clus-HMC
Thủ tục CLUS_HMC(T) trả về một cây
1: (t*, h* , P* ) = (none,
2: Duyệt với từng mẫu t có thể
3: P= Phân vùng tạo ra bởi t trên T
16
4: h= Var(Tk)
5: I f (h < h* ) Có thể chấp nhận (t,P)
6: (t*, h* , P* ) = (t, h, P)
7: if t* none
8: for each Tk P*
9: treek = CLUS_HMC(Tk)
10: return node(t* , k {treek})
11: else
12: return leaf( )
2.6. Kết luận chương
Phương pháp phân loại phân cấp đa nhãn (HMC) thức
chất là phân loại dữ liệu dựa vào cây quyết định với cấu trúc
cây dạng phân cấp DAG. Phương pháp phân loại này chỉ tạo
ra một cây duy nhất cho việc dự đoán chức năng của gene.
17
Chương 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1. Giới thiệu chương
Chương 3 tác giả tiến hành cài đặt và chạy thử nghiệm với
hệ thông CLUS với bộ dữ liệu đầu vào là bộ gene đã biết chức
năng. Kết quả sau khi thực hiện hệ thống là đưa ra dự đoán
gấn đúng về chức năng của gen mới. Thông qua quá trình cài
đặt thử nghiệm này tác giả tiến hành đánh giả hiểu quả của
việc dự đoán cũng như độ phức tạp của giải thuật đã đề ra.
3.2. Dữ liệu thử nghiệm
3.2.1 Định dạng dữ liệu cho hệ thống CLUS
- Định dạng dữ liệu
Giống như các hệ thống học máy khác, CLUS học từ dữ
liệu dạng bảng. Dữ liệu này được mặc định chứa trong các
tệp tin định dạng ARFF, định dạng này cũng được sử dụng
trong các công cụ khai phá dữ liệu Weka.
Trong bảng dữ liệu dạng ARFF, mỗi hàng đại diện cho
thực thể, và mỗi cột tượng trưng cho một thuộc tính hay một
trường. Mỗi thuộc tính có tên và miền giá trị (miền giá trị là
tập hợp các giá trị mà thuộc tính đó có thể lấy). Trong các
định dạng ARFF, tên, miền giá trị của các thuộc tính được
khai báo trước khi các dữ liệu được đưa vào.
18
- Tệp tin thiết lập (Setting file)
Mỗi thuật toán trong hệ thống CLUS có một thông số
nhằm xác định một cách rõ các hoạt động của chúng. Hầu hết
các thông số được thiết lập mặc định; giá trị của các thông số
là không bắt buộc. Các thông số được thiết lập trong tệp tin
kiểu “.s” (Ví dụ: FunCat.s).
Tệp tin thiết lập được cấu trúc trong thành các mục. Từng
thông số là các mục riêng biệt. Các đầu mục đặt trong dấu
ngoặc vuông không bắt buộc, chúng dùng để giải thích khối
thông số liên quan.
Để sử dụng thuật toán phân loại phân cấp đa nhãn, trong
tên tin thiết lập cần bổ sung thêm các thông số phân cấp
(hierarchical).
- Tên tin chứa kết quả (filename.out)
Dựa vào các thông số được thiết lập, hệ thống CLUS chạy
để cho ra kết quả. Kết quả của quá trình chạy hệ thống CLUS
được chứa trong một tên tin có phần mở rộng là out (Ví dụ:
filename.out).
Tổng thể tệp tin chứa kết quả khi thực hiện phân loại phân
cấp với hệ thống CLUS gồm 4 phần:
19
- Phần thứ nhất chứa các thông số đã được thiết
lập, chứa các thông tin các thiết lập ban đầu của hệ thống.
Dữ liệu của phần này được copy từ tệp tin thiết lập ban đầu.
3.2.2 Phân tích dữ liệu gene
Bộ dữ liệu thử nghiệm phương pháp phân loại phân
cấp được sử dụng trong đề tài là bộ dữ liệu gene nâm men
(D0_yeast_GO). Với bộ dữ liệu gene nấm men không làm mất
tính tổng quát thể hiện đầy đủ các đặc trưng cơ bản của
phương pháp phân loại phân cấp. Dữ liệu gene nấm mem có
kích thước hợp lý cho việc thử nghiệm. Bộ dữ liệu này cũng
đã được sử dụng phổ biến để mô tả rất nhiều phương pháp
phân loại dữ liệu nói chung cũng như các phương pháp dữ
đoán chức năng của gene nói riêng. Bộ dữ liệu D0_yeast_GO
gồm:
1- Tệp tin thiết lập (D0_yeast_GO.s) (Hình 4.10)
Chứa các thông số thiết lập ban đầu cho hệ thống. Nội
dung chi tiết được trình bày trong phần Phụ lục.
2- Các tệp tin dạng ARFF
+ Tệp tin D0_yeast_GO.test.arff.zip
+ Tệp tin D0_yeast_GO.train.arff.zip
20
+ Tệp tin D0_yeast_GO.valid.arff.zip
3- Tệp tin kết quả (: D0_yeast_GO.out) (Hình 4.11)
Dữ liệu trong các tệp tin đầu ra được trích mẫu trình bày
trong phần phụ lục.
3.3. Cài đặt ứng dụng
3.3.1. Giới thiệu hệ thống CLUS
CLUS là một cây quyết định và nguyên tắc hệ thống học,
tại đó các công việc thực hiện trong khuôn khổ các cụm dữ
đoán (predictive clustering). Trong khi hầu hết các cây quyết
định quy về sự phân loại hoặc cây truy hồi. CLUS tổng quát
tiếp cận các cây huấn luyện, có thể hiểu chúng như các cụm
phân cấp. Chúng ta có thể gọi các cụm phân cấp là các cụm
cây dư đoán các cụm cây hoặc là PCTs. Phân loại và cây truy
hồi là trường hợp đặc biệt của PCT.
Qua thực nghiệm, hệ thống CLUS cho thấy rất nhiều ưu
điểm vượt trội. CLUS thành công với các phương pháp phân
loại khác nhau như: Phân loại đa nhãn, phân loại phân cấp,
phân loại với chuỗi thời gian, …
Các tệp tin đầu vào cũng như đầu ra của hệ thống
CLUS có thể đọc được bởi hệ thống WAKE.
21
3.3.2. Cài đặt hệ thống
Hệ thống CLUS chạy trên môi trường thực thi Java
(JRE). Chúng ta có thể thay đổi mã nguồn của hệ thống bằng
bộ công cụ phát triển Java (JDK).
Hệ thống CLUS được tham khảo tại trang web:
3.4. Chạy thử và đánh giá
3.4.1. Chạy hệ thống CLUS với bộ dữ liệu D0_yeast_GO
Chạy hệ thống CLUS với mâu trường windows7 được
tiến hành như sau:
- Chạy trình giả hệ điều hành MS-DOS
- Chuyển thư mục hiện hành về thư mục c