Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học
Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006.
Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ
liệu rất lớn về trình tự gene, protein,. của thực vật, động vật, Và với các thành tựu
vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong
cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj, Vì các cơ sở dữ liệu này quá
lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên
khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu
chuyên biệt, trong đó có phương pháp microsatellite. Do vậy, mục tiêu của chúng tôi
là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được
lấy ở cơ sở dữ liệu sinh học NCBI.
Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau:
Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ
sở dữ liệu GenBank NCBI.
Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu
trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo
cơ sở dữ liệu chứa những trình tự này. Sau đó chuyển các dữ liệu này vào cơ sở
dữ liệu chính.
83 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2004 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu ssrs (simple sequence repeats) từ ests (expressed sequence tags) của cây dứa (ananas comosus), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
TRẦN NGUYỄN MINH ĐĂNG
XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE
SEQUENCE REPEATS) TỪ ESTs (EXPRESSED
SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)
Thành phố Hồ Chí Minh
Tháng 09/2006
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE
SEQUENCE REPEATS) TỪ ESTs (EXPRESSED
SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)
Luận văn kỹ sƣ
Chuyên ngành: Công Nghệ Sinh Học
Giáo viên hƣớng dẫn: Sinh viên thực hiện:
TS. TRẦN THỊ DUNG TRẦN NGUYỄN MINH ĐĂNG
Cử Nhân LƢU PHÚC LỢI Khóa: 2002-2006
Thành phố Hồ Chí Minh
Tháng 09/2006
MINISTRY OF EDUCATION AND TRAINING
NONG LAM UNIVERSITY, HCMC
DEPARTMENT OF BIOTECHNOLOGY
***000***
BUILDING SSRs (SIMPLE SEQUENCE REPEATS)
DATABASE FROM ESTs (EXPRESSED SEQUENCE
TAGS) OF PINEAPPLE (Ananas comosus)
Graduation thesis
Major: Biotechnology
Professor Student
PhD. Tran Thi Dung TRAN NGUYEN MINH DANG
BSc. LƢU PHÚC LỢI Term: 2002 - 2006
Ho Chi Minh City
09/2006
iv
LỜI CẢM ƠN
XIN CHÂN THÀNH CẢM ƠN
Ban Giám Hiệu trƣờng Đại học Nông Lâm Tp. Hồ Chí Minh đã tạo mọi
điều kiện cho tôi trong suốt thời gian học tập.
Các thầy cô trong bộ môn Công Nghệ Sinh Học cùng các thầy cô đã trực
tiếp giảng dạy trong suốt bốn năm qua.
Xin bày tỏ lòng biết ơn sâu sắc đến:
TS. Trần Thị Dung
Cử Nhân Lƣu Phúc Lợi
Đã tận tụy hƣớng dẫn, truyền đạt kiến thức giúp cho tôi hoàn thành khóa
luận này.
Cùng toàn thể lớp Công Nghệ Sinh Học 28 thân thiện đã hỗ trợ, giúp đỡ và
động viên tôi trong suốt thời gian làm đề tài.
Thành kính ghi ơn ba mẹ cùng những ngƣời thân trong gia đình luôn tạo
điều kiện và động viên con trong suốt quá trình học tập tại trƣờng.
Tháng 08 năm 2006
Trần Nguyễn Minh Đăng
v
TÓM TẮT KHOÁ LUẬN
TRẦN NGUYỄN MINH ĐĂNG, đại học Nông Lâm TP. Hồ Chí Minh, tháng
08/2006. “XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE
REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA
(Ananas comosus)”
Hội đồng hướng dẫn:
TS. Trần Thị Dung
Cử Nhân. Lưu Phúc Lợi
Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học
Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006.
Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ
liệu rất lớn về trình tự gene, protein,... của thực vật, động vật,… Và với các thành tựu
vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong
cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj,…Vì các cơ sở dữ liệu này quá
lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên
khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu
chuyên biệt, trong đó có phương pháp microsatellite. Do vậy, mục tiêu của chúng tôi
là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được
lấy ở cơ sở dữ liệu sinh học NCBI.
Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau:
Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ
sở dữ liệu GenBank NCBI.
Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu
trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo
cơ sở dữ liệu chứa những trình tự này. Sau đó chuyển các dữ liệu này vào cơ sở
dữ liệu chính.
Kết hợp các phần mềm quản lý cơ sở dữ liệu và phần mềm tạo web, thiết
kế trang web chia sẻ thông tin với người dùng.
vi
MỤC LỤC
Nội dung Trang
LỜI CẢM ƠN ...............................................................................................................iv
TÓM TẮT KHOÁ LUẬN ............................................................................................. v
DANH SÁCH CÁC HÌNH ............................................................................................ x
DANH SÁCH CÁC BẢNG ..........................................................................................xi
DANH SÁCH CÁC TỪ VIẾT TẮT .......................................................................... xii
Phần 1. Mở đầu .............................................................................................................. 1
1.1. Đặt vấn đề ................................................................................................................ 1
1.1.1. Sơ lược về sinh – tin học ........................................................................................... 1
1.1.2. Sơ lược về cây dứa ..................................................................................................... 2
1.1.3. Sơ lược về phương pháp Microsatellite ................................................................... 2
1.2. Mục tiêu của khóa luận ......................................................................................... 3
Phần 2. Tổng quan tài liệu ............................................................................................ 4
2.1. Giới thiệu về cây dứa ............................................................................................. 4
2.1.1. Vị trí phân loại ............................................................................................................ 4
2.1.2. Nguồn gốc và phân bố ............................................................................................... 4
2.1.3. Đặc điểm hình thái ..................................................................................................... 5
2.1.3.1. Rễ ................................................................................................................. 5
2.1.3.2. Thân ............................................................................................................. 5
2.1.3.3. Lá ................................................................................................................. 5
2.1.3.4. Hoa ............................................................................................................... 5
2.1.3.5. Quả ............................................................................................................... 6
2.3.1.6. Hạt ................................................................................................................ 6
2.1.4. Đặc điểm trồng trọt .................................................................................................... 6
2.1.4.1. Yếu tố khí hậu .............................................................................................. 6
2.1.4.2. Yếu tố đất đai ............................................................................................... 6
2.1.4.3. Yếu tố sinh vật ............................................................................................. 7
2.1.5. Giá trị kinh tế và sử dụng .......................................................................................... 7
2.1.6. Các giống trồng .......................................................................................................... 8
2.1.6.1. Nhóm Cayenne ............................................................................................. 8
2.1.6.2. Nhóm Queen ................................................................................................ 9
2.1.6.3. Nhóm Spanish .............................................................................................. 9
vii
2.1.6.4. Nhóm Abacaxi ........................................................................................... 10
2.1.6.5. Các giống trồng trong nước ....................................................................... 11
2.1.7. Tình hình phát triển của cây dứa trong và ngoài nước ........................................ 11
2.2. Các Marker phân tử ............................................................................................ 12
2.2.1. Isozymes .................................................................................................................... 12
2.2.2. ALP ............................................................................................................................ 12
2.2.3. AFLP .......................................................................................................................... 12
2.2.4. RAPD ......................................................................................................................... 13
2.2.5. SSCP .......................................................................................................................... 14
2.2.6. SNP ............................................................................................................................ 14
2.2.7. SSR ............................................................................................................................. 15
2.2.8. Kỹ thuật STS và SCARP .................................................................................. 15
2.2.9. RFLP .......................................................................................................................... 15
2.3. Chi tiết về microsatellite ..................................................................................... 16
2.3.1. Định nghĩa ................................................................................................................. 16
2.3.2. Các phương pháp phát hiện microsatellite ............................................................ 16
2.3.2.1. Phương pháp lai ......................................................................................... 17
2.3.2.2. Phương pháp PCR ...................................................................................... 17
2.3.3. Vai trò của microsatellite ........................................................................................ 18
2.3.4. Ứng dụng ................................................................................................................... 19
2.4. EST ........................................................................................................................ 19
2.4.1. Sơ lược về EST ......................................................................................................... 19
2.4.2. Nguồn gốc của EST ................................................................................................. 20
2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu ......................................................... 20
2.5.1. Nguyên nhân ra đời của mô hình quan hệ ............................................................. 20
2.5.2. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệ .......................................................... 21
2.5.2.1. Định nghĩa cơ sở dữ liệu ............................................................................ 21
2.5.2.2. Hệ quản trị cơ sở dữ liệu ............................................................................ 21
2.5.3. Các mô hình dữ liệu ................................................................................................. 23
2.5.3.1. Định nghĩa .................................................................................................. 23
2.5.3.2. So sánh các mô hình dữ liệu ...................................................................... 23
2.5.4. Người dùng ............................................................................................................... 24
2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ .................................................... 25
2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý ................................................ 25
viii
2.5.5.2. Vấn đề 2: Dư thừa dữ liệu .......................................................................... 25
2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của người sử dụng .................................... 25
2.6. Internet và Web ................................................................................................... 26
2.6.1. Sơ lược về Internet ................................................................................................... 26
2.6.1.1. Tóm lược lịch sử phát triển ........................................................................ 26
2.6.1.2. Tổng quát về Internet ................................................................................. 26
2.6.2. Các dịch vụ được cung cấp trên Internet ............................................................... 28
2.6.2.1. Phân loại khối thông tin ............................................................................. 28
2.6.2.2. Các dịch vụ cơ bản ..................................................................................... 28
2.6.3. Tích hợp cơ sở dự liệu với web .............................................................................. 28
2.7. Ngôn ngữ lập trình Perl và Javascript .............................................................. 28
2.7.1. Ngôn ngữ Perl ........................................................................................................... 28
2.7.1.1. Tóm tắt lịch sử phát triển ........................................................................... 28
2.7.1.2. Ứng dụng.................................................................................................... 29
2.7.1.3. Một số module của Perl thường được sử dụng .......................................... 29
2.7.2. Ngôn ngữ Javascript................................................................................................. 30
2.7.2.1. Định nghĩa Javascript ................................................................................. 31
2.7.2.2. Javascript có thể làm gì? ............................................................................ 31
2.7.2.3. Ưu và nhược điểm của Javascript .............................................................. 31
2.8. Cơ sở dữ liệu sinh học ......................................................................................... 32
2.8.1. NCBI .......................................................................................................................... 32
2.8.1.1. Vài nét về NCBI ......................................................................................... 32
2.8.1.2. Một số cơ sở dữ liệu trong NCBI ............................................................... 33
2.8.1.3. Một số công cụ trong NCBI ....................................................................... 33
Phần 3. Phƣơng pháp và chƣơng trình sử dụng ....................................................... 35
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng .................................. 35
3.1.1. Hệ điều hành ............................................................................................................. 35
3.1.2. Các chương trình phân tích trình tự ....................................................................... 35
3.1.2.1. Chương trình so sánh trình tự ClustalW .................................................... 35
3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST ....................... 36
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL ............................................................. 36
3.1.2.4. Apache web Server .................................................................................... 37
3.2. Thu nhận trình tự SSRs ...................................................................................... 38
3.2.1. Thu thập và chọn lọc dữ liệu ................................................................................... 40
ix
3.2.2. Thu nhận trình tự SSR ............................................................................................. 41
3.3. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. .. 44
3.3.1. Xây dựng cơ sở dữ liệu ............................................................................................ 44
3.3.1.1. Tạo bảng chứa dữ liệu ................................................................................ 44
3.3.1.2. Xây dựng mối quan hệ ............................................................................... 46
3.3.1.3. Nhập dữ liệu vào bảng ............................................................................... 47
3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu ...................... 47
3.5. Tích hợp các công cụ sinh học vào trang web ................................................... 48
Phần 4. Kết quả và thảo luận ..................................................................................... 49
4.1. Kết quả thu nhận trình tự microsatellite .......................................................... 49
4.1.1. Kết quả thu nhận trình tự của Ananas comosus.................................................... 49
4.1.2. Kết quả thu nhận trình tự SSRs .............................................................................. 50
4.2. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu ... 51
4.2.1. Cơ sở dữ liệu trình tự Ananas comosus ................................................................. 51
4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite ......................................... 52
4.2.3. Mô hình quan hệ ....................................................................................................... 57
4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus ......... 59
4.3.1. Trang chủ (HOME PAGE) ..................................................................................... 60
4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE) .................................. 60
4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE) ......................... 60
4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE) .............................................................. 61
4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE) .............................................................. 62
4.3.6. Trang công cụ ........................................................................................................... 64
4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR .................................................. 64
Phần 5. Kết luận và đề nghị ........................................................................................ 65
5.1. Kết luận ................................................................................................................ 65
5.2. Đề nghị .................................................................................................................. 65
Phần 6. Tài liệu tham khảo ......................................................................................... 66
x
DANH SÁCH CÁC HÌNH
Hình Trang
Hình 1. 1. Định nghĩa bioinformatics được mở rộng ...................................................... 2
Hình 1. 2. Tìm hiểu nguồn gốc dựa vào Microsatellite ................................................... 3
Hình 2. 1. Các giống dứa Natal Queen - Red Spanish – Cayenne ................................ 11
Hình 2. 2. Sơ đồ một hệ quản trị cơ sở dữ liệu .............................................................. 22
Hình 2. 3. So sánh cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ ............................... 25
Hình 2. 4. Tương tác giữa Perl script-DBI-DBD-và RBDMS ...................................... 30
Hình 2. 5. Tương quan giữa NCBI, NLM (National Library of Medicine và NIH) ..... 32
Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder ......... 38
Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder ................................. 39
Hình 3. 3. S