Luận văn Xây dựng cơ sở dữ liệu ssrs (simple sequence repeats) từ ests (expressed sequence tags) của cây dứa (ananas comosus)

Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006. Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ liệu rất lớn về trình tự gene, protein,. của thực vật, động vật, Và với các thành tựu vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj, Vì các cơ sở dữ liệu này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt, trong đó có phương pháp microsatellite. Do vậy, mục tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được lấy ở cơ sở dữ liệu sinh học NCBI. Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau:  Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ sở dữ liệu GenBank NCBI.  Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.  Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo cơ sở dữ liệu chứa những trình tự này. Sau đó chuyển các dữ liệu này vào cơ sở dữ liệu chính.

pdf83 trang | Chia sẻ: lvbuiluyen | Lượt xem: 1903 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu ssrs (simple sequence repeats) từ ests (expressed sequence tags) của cây dứa (ananas comosus), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ***000*** TRẦN NGUYỄN MINH ĐĂNG XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus) Thành phố Hồ Chí Minh Tháng 09/2006 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ***000*** XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus) Luận văn kỹ sƣ Chuyên ngành: Công Nghệ Sinh Học Giáo viên hƣớng dẫn: Sinh viên thực hiện: TS. TRẦN THỊ DUNG TRẦN NGUYỄN MINH ĐĂNG Cử Nhân LƢU PHÚC LỢI Khóa: 2002-2006 Thành phố Hồ Chí Minh Tháng 09/2006 MINISTRY OF EDUCATION AND TRAINING NONG LAM UNIVERSITY, HCMC DEPARTMENT OF BIOTECHNOLOGY ***000*** BUILDING SSRs (SIMPLE SEQUENCE REPEATS) DATABASE FROM ESTs (EXPRESSED SEQUENCE TAGS) OF PINEAPPLE (Ananas comosus) Graduation thesis Major: Biotechnology Professor Student PhD. Tran Thi Dung TRAN NGUYEN MINH DANG BSc. LƢU PHÚC LỢI Term: 2002 - 2006 Ho Chi Minh City 09/2006 iv LỜI CẢM ƠN XIN CHÂN THÀNH CẢM ƠN Ban Giám Hiệu trƣờng Đại học Nông Lâm Tp. Hồ Chí Minh đã tạo mọi điều kiện cho tôi trong suốt thời gian học tập. Các thầy cô trong bộ môn Công Nghệ Sinh Học cùng các thầy cô đã trực tiếp giảng dạy trong suốt bốn năm qua. Xin bày tỏ lòng biết ơn sâu sắc đến:  TS. Trần Thị Dung  Cử Nhân Lƣu Phúc Lợi Đã tận tụy hƣớng dẫn, truyền đạt kiến thức giúp cho tôi hoàn thành khóa luận này. Cùng toàn thể lớp Công Nghệ Sinh Học 28 thân thiện đã hỗ trợ, giúp đỡ và động viên tôi trong suốt thời gian làm đề tài. Thành kính ghi ơn ba mẹ cùng những ngƣời thân trong gia đình luôn tạo điều kiện và động viên con trong suốt quá trình học tập tại trƣờng. Tháng 08 năm 2006 Trần Nguyễn Minh Đăng v TÓM TẮT KHOÁ LUẬN TRẦN NGUYỄN MINH ĐĂNG, đại học Nông Lâm TP. Hồ Chí Minh, tháng 08/2006. “XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)” Hội đồng hướng dẫn:  TS. Trần Thị Dung  Cử Nhân. Lưu Phúc Lợi Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006. Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ liệu rất lớn về trình tự gene, protein,... của thực vật, động vật,… Và với các thành tựu vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj,…Vì các cơ sở dữ liệu này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt, trong đó có phương pháp microsatellite. Do vậy, mục tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được lấy ở cơ sở dữ liệu sinh học NCBI. Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau:  Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ sở dữ liệu GenBank NCBI.  Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.  Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo cơ sở dữ liệu chứa những trình tự này. Sau đó chuyển các dữ liệu này vào cơ sở dữ liệu chính.  Kết hợp các phần mềm quản lý cơ sở dữ liệu và phần mềm tạo web, thiết kế trang web chia sẻ thông tin với người dùng. vi MỤC LỤC Nội dung Trang LỜI CẢM ƠN ...............................................................................................................iv TÓM TẮT KHOÁ LUẬN ............................................................................................. v DANH SÁCH CÁC HÌNH ............................................................................................ x DANH SÁCH CÁC BẢNG ..........................................................................................xi DANH SÁCH CÁC TỪ VIẾT TẮT .......................................................................... xii Phần 1. Mở đầu .............................................................................................................. 1 1.1. Đặt vấn đề ................................................................................................................ 1 1.1.1. Sơ lược về sinh – tin học ........................................................................................... 1 1.1.2. Sơ lược về cây dứa ..................................................................................................... 2 1.1.3. Sơ lược về phương pháp Microsatellite ................................................................... 2 1.2. Mục tiêu của khóa luận ......................................................................................... 3 Phần 2. Tổng quan tài liệu ............................................................................................ 4 2.1. Giới thiệu về cây dứa ............................................................................................. 4 2.1.1. Vị trí phân loại ............................................................................................................ 4 2.1.2. Nguồn gốc và phân bố ............................................................................................... 4 2.1.3. Đặc điểm hình thái ..................................................................................................... 5 2.1.3.1. Rễ ................................................................................................................. 5 2.1.3.2. Thân ............................................................................................................. 5 2.1.3.3. Lá ................................................................................................................. 5 2.1.3.4. Hoa ............................................................................................................... 5 2.1.3.5. Quả ............................................................................................................... 6 2.3.1.6. Hạt ................................................................................................................ 6 2.1.4. Đặc điểm trồng trọt .................................................................................................... 6 2.1.4.1. Yếu tố khí hậu .............................................................................................. 6 2.1.4.2. Yếu tố đất đai ............................................................................................... 6 2.1.4.3. Yếu tố sinh vật ............................................................................................. 7 2.1.5. Giá trị kinh tế và sử dụng .......................................................................................... 7 2.1.6. Các giống trồng .......................................................................................................... 8 2.1.6.1. Nhóm Cayenne ............................................................................................. 8 2.1.6.2. Nhóm Queen ................................................................................................ 9 2.1.6.3. Nhóm Spanish .............................................................................................. 9 vii 2.1.6.4. Nhóm Abacaxi ........................................................................................... 10 2.1.6.5. Các giống trồng trong nước ....................................................................... 11 2.1.7. Tình hình phát triển của cây dứa trong và ngoài nước ........................................ 11 2.2. Các Marker phân tử ............................................................................................ 12 2.2.1. Isozymes .................................................................................................................... 12 2.2.2. ALP ............................................................................................................................ 12 2.2.3. AFLP .......................................................................................................................... 12 2.2.4. RAPD ......................................................................................................................... 13 2.2.5. SSCP .......................................................................................................................... 14 2.2.6. SNP ............................................................................................................................ 14 2.2.7. SSR ............................................................................................................................. 15 2.2.8. Kỹ thuật STS và SCARP .................................................................................. 15 2.2.9. RFLP .......................................................................................................................... 15 2.3. Chi tiết về microsatellite ..................................................................................... 16 2.3.1. Định nghĩa ................................................................................................................. 16 2.3.2. Các phương pháp phát hiện microsatellite ............................................................ 16 2.3.2.1. Phương pháp lai ......................................................................................... 17 2.3.2.2. Phương pháp PCR ...................................................................................... 17 2.3.3. Vai trò của microsatellite ........................................................................................ 18 2.3.4. Ứng dụng ................................................................................................................... 19 2.4. EST ........................................................................................................................ 19 2.4.1. Sơ lược về EST ......................................................................................................... 19 2.4.2. Nguồn gốc của EST ................................................................................................. 20 2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu ......................................................... 20 2.5.1. Nguyên nhân ra đời của mô hình quan hệ ............................................................. 20 2.5.2. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệ .......................................................... 21 2.5.2.1. Định nghĩa cơ sở dữ liệu ............................................................................ 21 2.5.2.2. Hệ quản trị cơ sở dữ liệu ............................................................................ 21 2.5.3. Các mô hình dữ liệu ................................................................................................. 23 2.5.3.1. Định nghĩa .................................................................................................. 23 2.5.3.2. So sánh các mô hình dữ liệu ...................................................................... 23 2.5.4. Người dùng ............................................................................................................... 24 2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ .................................................... 25 2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý ................................................ 25 viii 2.5.5.2. Vấn đề 2: Dư thừa dữ liệu .......................................................................... 25 2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của người sử dụng .................................... 25 2.6. Internet và Web ................................................................................................... 26 2.6.1. Sơ lược về Internet ................................................................................................... 26 2.6.1.1. Tóm lược lịch sử phát triển ........................................................................ 26 2.6.1.2. Tổng quát về Internet ................................................................................. 26 2.6.2. Các dịch vụ được cung cấp trên Internet ............................................................... 28 2.6.2.1. Phân loại khối thông tin ............................................................................. 28 2.6.2.2. Các dịch vụ cơ bản ..................................................................................... 28 2.6.3. Tích hợp cơ sở dự liệu với web .............................................................................. 28 2.7. Ngôn ngữ lập trình Perl và Javascript .............................................................. 28 2.7.1. Ngôn ngữ Perl ........................................................................................................... 28 2.7.1.1. Tóm tắt lịch sử phát triển ........................................................................... 28 2.7.1.2. Ứng dụng.................................................................................................... 29 2.7.1.3. Một số module của Perl thường được sử dụng .......................................... 29 2.7.2. Ngôn ngữ Javascript................................................................................................. 30 2.7.2.1. Định nghĩa Javascript ................................................................................. 31 2.7.2.2. Javascript có thể làm gì? ............................................................................ 31 2.7.2.3. Ưu và nhược điểm của Javascript .............................................................. 31 2.8. Cơ sở dữ liệu sinh học ......................................................................................... 32 2.8.1. NCBI .......................................................................................................................... 32 2.8.1.1. Vài nét về NCBI ......................................................................................... 32 2.8.1.2. Một số cơ sở dữ liệu trong NCBI ............................................................... 33 2.8.1.3. Một số công cụ trong NCBI ....................................................................... 33 Phần 3. Phƣơng pháp và chƣơng trình sử dụng ....................................................... 35 3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng .................................. 35 3.1.1. Hệ điều hành ............................................................................................................. 35 3.1.2. Các chương trình phân tích trình tự ....................................................................... 35 3.1.2.1. Chương trình so sánh trình tự ClustalW .................................................... 35 3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST ....................... 36 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL ............................................................. 36 3.1.2.4. Apache web Server .................................................................................... 37 3.2. Thu nhận trình tự SSRs ...................................................................................... 38 3.2.1. Thu thập và chọn lọc dữ liệu ................................................................................... 40 ix 3.2.2. Thu nhận trình tự SSR ............................................................................................. 41 3.3. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. .. 44 3.3.1. Xây dựng cơ sở dữ liệu ............................................................................................ 44 3.3.1.1. Tạo bảng chứa dữ liệu ................................................................................ 44 3.3.1.2. Xây dựng mối quan hệ ............................................................................... 46 3.3.1.3. Nhập dữ liệu vào bảng ............................................................................... 47 3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu ...................... 47 3.5. Tích hợp các công cụ sinh học vào trang web ................................................... 48 Phần 4. Kết quả và thảo luận ..................................................................................... 49 4.1. Kết quả thu nhận trình tự microsatellite .......................................................... 49 4.1.1. Kết quả thu nhận trình tự của Ananas comosus.................................................... 49 4.1.2. Kết quả thu nhận trình tự SSRs .............................................................................. 50 4.2. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu ... 51 4.2.1. Cơ sở dữ liệu trình tự Ananas comosus ................................................................. 51 4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite ......................................... 52 4.2.3. Mô hình quan hệ ....................................................................................................... 57 4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus ......... 59 4.3.1. Trang chủ (HOME PAGE) ..................................................................................... 60 4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE) .................................. 60 4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE) ......................... 60 4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE) .............................................................. 61 4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE) .............................................................. 62 4.3.6. Trang công cụ ........................................................................................................... 64 4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR .................................................. 64 Phần 5. Kết luận và đề nghị ........................................................................................ 65 5.1. Kết luận ................................................................................................................ 65 5.2. Đề nghị .................................................................................................................. 65 Phần 6. Tài liệu tham khảo ......................................................................................... 66 x DANH SÁCH CÁC HÌNH Hình Trang Hình 1. 1. Định nghĩa bioinformatics được mở rộng ...................................................... 2 Hình 1. 2. Tìm hiểu nguồn gốc dựa vào Microsatellite ................................................... 3 Hình 2. 1. Các giống dứa Natal Queen - Red Spanish – Cayenne ................................ 11 Hình 2. 2. Sơ đồ một hệ quản trị cơ sở dữ liệu .............................................................. 22 Hình 2. 3. So sánh cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ ............................... 25 Hình 2. 4. Tương tác giữa Perl script-DBI-DBD-và RBDMS ...................................... 30 Hình 2. 5. Tương quan giữa NCBI, NLM (National Library of Medicine và NIH) ..... 32 Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder ......... 38 Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder ................................. 39 Hình 3. 3. S