Luận văn Xây dựng cơ sở dữ liệu bài báo điện tửliên quan tới gốm sứ Việt Nam phục vụ đào tạo tại học viện báo chí và tuyên truyền

Học viện báo chí và tuyên truyền trước thách thức vềcông tác dạy và học, có nhu cầu cấp thiết sửdụng những công cụhiện đại của Công nghệthông tin. Một mặt công tác quản lý đào tạo, quản lý học viên, quản lý nghiên cứu khoa học.cần sửdụng năng lực của công nghệthông tin. Mặt khác việc chuẩn bịtưliệu cho các chuyên nghành đào tạo đã được học viện chú trọng nhằm trang bịhọc liệu cho công tác dạy và học. Một trong những khoa học liệu đã được xây dựng trong nhiều năm qua là khoa học liệu vềvăn hóa làng nghề, liên quan đến các đồgốm sứcổtruyền việt nam. Đểkhoa học liệu được tổchức và khai thác một cách khoa học, phù hợp với công nghê đa phương tiện ngày càng thông dụng, luận văn trong đềtài là: Xây dựng cơsởdữliệu bài báo điện tửliên quan tới Gốm sứphục phụ đào tạo tại Học viện Báo chí và Tuyên truyền. Xây dựng CSDL các bài báo liên quan tới gốm sứlà một bài toán cơbản, là một bước quan trọng trong quá trình khai phá dữliệu. CSDL xây dựng được phục vụ, hỗtrợcho việc truy vấn thông tin, quá trình tìm kiếm thông tin tại Học viện. Mong muốn của Học viên là có được một CSDL các bài báo gốm sứ, một lượng thông tin lớn, có khảnăng truy xuất dữliệu nhanh, đáp ứng nhu cầu vềthông tin trong Học viện.

pdf53 trang | Chia sẻ: lvbuiluyen | Lượt xem: 2171 | Lượt tải: 4download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu bài báo điện tửliên quan tới gốm sứ Việt Nam phục vụ đào tạo tại học viện báo chí và tuyên truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ    PHẠM VĂN BẰNG XÂY DỰNG CƠ SỞ DỮ LIỆU BÀI BÁO ĐIỆN TỬ LIÊN QUAN TỚI GỐM SỨ VIỆT NAM PHỤC VỤ ĐÀO TẠO TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN LUẬN VĂN THẠC SĨ HÀ NỘI – 2011 - 1 - LỜI CAM ĐOAN Tôi xin cam đoan luận văn: “XÂY DỰNG CƠ SỞ DỮ LIỆU BÀI BÁO ĐIỆN TỬ LIÊN QUAN TỚI GỐM SỨ PHỤC VỤ ĐÀO TẠO TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN” là kết quả nghiên cứu của riêng tôi, không sao chép của riêng ai. Các số liệu và bảng biểu là hoàn toàn chính xác và nội dung luận văn có tham khảo và sử dụng các tài liệu, thông tin đuợc đăng tải trên các tác phẩm, tạp chí và các trang web theo danh mục tài liệu của luận văn. Hà nội, ngày 2 tháng 5 năm 2011 Tác giả luận văn Phạm Văn Bằng - 2 - LỜI CẢM ƠN Đầu tiên, tôi xin chân thành cảm ơn PGS. TS. Đỗ Trung Tuấn, Bộ môn Toán- Tin, khoa Toán-Tin, Trường Đại học Tổng hợp, Đại học Quốc Gia Hà Nội, người đã trực tiếp giảng dạy, định hướng đề tài, tận tình chỉ bảo, giúp đỡ tôi trong suốt quá trình thực hiện luận văn cao học này. Tiếp theo, tôi xin chân thành cảm các thầy giáo, cô giáo trường Đại học Công Nghệ, Đại học Quốc gia Hà nội đã giảng dạy và truyền đạt những kiến thức bổ ích, những kinh nghiệm quý báu trong suốt quá trình học Cao học. Cuối cùng tôi xin cảm ơn Bố mẹ và gia đình, cảm ơn những người thân và bạn bè đồng nghiệp đă luôn ở bên động viên, giúp đỡ, chia sẻ với tôi trong suốt quá trình học tập và thực hiện luận cao học. - 3 - MỤC LỤC LỜI CAM ĐOAN............................................................................................ 1 LỜI CẢM ƠN.................................................................................................. 2 MỤC LỤC....................................................................................................... 3 BẢNG DANH MỤC CÁC KÍ HIỆU VIẾT TẮT ........................................... 5 DANH MỤC HÌNH ẢNH............................................................................... 6 DANH MỤC BẢNG BIỂU............................................................................. 7 MỞ ĐẦU......................................................................................................... 8 Chương 1: VAI TRÒ CỦA CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN TRONG CÔNG TÁC DẠY VÀ HỌC.................................................................................... 10 1.1. Các dữ liệu đa phương tiện ............................................................................ 10 1.1.1. Dữ liệu văn bản........................................................................................ 10 1.1.2. Dữ liệu âm thanh...................................................................................... 12 1.1.3. Dữ liệu hình ảnh ...................................................................................... 13 1.1.3. Dữ liệu hình động .................................................................................... 14 1.2. Vai trò của dữ liêu đa phương tiện trong quá trình nhận thức của con người15 1.2.1. Phương pháp học tập cổ điển................................................................... 15 1.2.2. Học tập tương tác, tích cực. ..................................................................... 16 1.2.3. Vai trò của dữ liệu đa phương tiện trong công tác học tích cực.............. 17 1.3. Kho học liệu tại Học viện Báo chí và Tuyên truyền...................................... 18 1.3.1. Kho dữ liệu bài giảng............................................................................... 18 1.3.2. Năng lực truy cập thông tin trên Intrernet của Học viện ......................... 19 1.3.3. Nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của Học viện..................................................................................................................... 20 1.3.4. Nhu cầu về cơ sở dữ liệu thông tin đa phương tiện................................. 20 1.4. Kết luận .......................................................................................................... 20 - 4 - Chương 2: KHAI PHÁ DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU LIÊN QUAN TỚI GỐM SỨ CỔ TRUYỀN ................................................................................... 21 2.1. Kiến trúc cơ sở dữ liệu văn bản ..................................................................... 21 2.1.1. Kiến trúc chung........................................................................................ 21 2.1.2. Các chức năng trong cơ sở dữ liệu văn bản............................................. 22 2.2. Kiến trúc cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền Việt Nam.. 23 2.2.1. Nội dung liên quan tới gốm sứ cổ truyền ................................................ 23 2.2.2. Các chức năng cần thiết đối với cơ sở dữ liệu văn bản gốm sứ .............. 27 2.3. Khai phá dữ liệu văn bản ............................................................................... 28 2.4. Kết luận .......................................................................................................... 35 Chương 3: KHAI THÁC CƠ SỞ DỮ LIỆU VỀ GỐM SỨ CỔ TRUYỀN TRONG CÔNG TÁC GIẢNG DẠY TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN .................................................................................................................. 36 3.1. Hạ tầng công nghệ thông tin tại Học viện...................................................... 36 3.2. Một số môn học liên quan tới Gốm sứ cổ truyền........................................... 36 3.3. Thiết kế chi tiết của cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền.. 37 3.3.1. Công cụ Olap trong SQL Server 2005..................................................... 37 3.3.2. Thiết kế chi tiết cơ sở dữ liệu .................................................................. 42 3.4. Một số trang màn hình cài đặt........................................................................ 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 51 Các kết quả đạt được ............................................................................................. 51 Phương hướng nghiên cứu tiếp theo ..................................................................... 51 Tiếp tục thiết kế, cài đặt hoàn chỉnh CSDL .......................................................... 51 TÀI LIỆU THAM KHẢO............................................................................. 52 Tiếng việt .............................................................................................................. 52 Internet .................................................................................................................. 52 - 5 - BẢNG DANH MỤC CÁC KÍ HIỆU VIẾT TẮT Tên viết tắt Tiếng Việt CSDL Cơ sở dữ liệu CNTT Công nghệ thông tin OLAP Xử lý phân tích trực tuyến ASCII Chuẩn mã trao đổi thông tin Hoa Kỳ DBMS Hệ quản trị cơ sở dữ liệu ANSI/SPARC Kiến trúc ANSI/SPARC - 6 - DANH MỤC HÌNH ẢNH Hình 1.1 Giao diện phần mềm FontCreator v6.2 ..................................................... 11 Hình 1.2 Giao diện phần mềm Fontographer 4.1 ..................................................... 11 Hình 1.3 Giao diện phần mềm CoolEdit 2.0 ............................................................ 12 Hình 1.5 Giao diện phần mềm tạo hình động Blender ............................................. 14 Hình 2.1 Kiến trúc ANSI/SPARC............................................................................ 22 Hình 2.2 Chân đèn gốm tráng men lam, loại men nổi tiếng của Bát Tràng............. 25 Hình 2.3 Hai bình Âm dương gốm Chu đậu ............................................................ 26 Hinh 2.4 Bình hoa gốm Phù Lãng hiện đại .............................................................. 27 Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản............................... 28 Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp...................................................... 33 Hình 2.7 Mô tả quá trình trích rút quan hệ nghữ nghĩa............................................ 33 Hình 3.1 Tạo mô hình liên kết thực thể .................................................................... 44 Hình 3.3 Thêm thông tin bài báo.............................................................................. 44 Hình 3.4 Thêm nội dung thông tin Tác giả .............................................................. 45 Hình 3.5 Thêm nội dung thông tin chuyên mục....................................................... 45 Hình 3.6 Tạo tìm kiếm thông tin .............................................................................. 46 Hình 3.7 Giao diện chương trình Demo ................................................................... 46 Hình 3.8 Giao diện tìm kiếm thông tin..................................................................... 47 Hình 3.9 Giao diện thêm thông tin về tác giả........................................................... 47 Hình 3.10 Giao diện thêm thông tin về chủ đề......................................................... 48 Hình 3.11 Giao diện thêm thông tin về bài báo........................................................ 48 Hình 3.12 Hiển thị các báo cáo theo chuyên mục 1 ................................................. 49 Hình 3.13 Hiển thị các báo cáo theo chuyên mục 2 ................................................. 49 Hình 3.14 Hiển thị các báo cáo theo chuyên mục 3 ................................................. 50 - 7 - DANH MỤC BẢNG BIỂU Bảng 2.1 Thủ tục sinh mẫu mới của phương pháp Snowball................................... 32 Bảng 2.2 Một số ví dụ về mẫu quan hệ .................................................................... 32 Bảng 2.3 Một số mẫu tổng quát................................................................................ 33 Bảng 3.1 Thông tin về bài báo.................................................................................. 43 Bảng 3.2 Thông tin về tác giả bài báo ...................................................................... 43 Bảng 3.3 Thông tin về chuyên mục bài báo ............................................................. 43 - 8 - MỞ ĐẦU Học viện báo chí và tuyên truyền trước thách thức về công tác dạy và học, có nhu cầu cấp thiết sử dụng những công cụ hiện đại của Công nghệ thông tin. Một mặt công tác quản lý đào tạo, quản lý học viên, quản lý nghiên cứu khoa học...cần sử dụng năng lực của công nghệ thông tin. Mặt khác việc chuẩn bị tư liệu cho các chuyên nghành đào tạo đã được học viện chú trọng nhằm trang bị học liệu cho công tác dạy và học. Một trong những khoa học liệu đã được xây dựng trong nhiều năm qua là khoa học liệu về văn hóa làng nghề, liên quan đến các đồ gốm sứ cổ truyền việt nam. Để khoa học liệu được tổ chức và khai thác một cách khoa học, phù hợp với công nghê đa phương tiện ngày càng thông dụng, luận văn trong đề tài là: Xây dựng cơ sở dữ liệu bài báo điện tử liên quan tới Gốm sứ phục phụ đào tạo tại Học viện Báo chí và Tuyên truyền. Xây dựng CSDL các bài báo liên quan tới gốm sứ là một bài toán cơ bản, là một bước quan trọng trong quá trình khai phá dữ liệu. CSDL xây dựng được phục vụ, hỗ trợ cho việc truy vấn thông tin, quá trình tìm kiếm thông tin tại Học viện. Mong muốn của Học viên là có được một CSDL các bài báo gốm sứ, một lượng thông tin lớn, có khả năng truy xuất dữ liệu nhanh, đáp ứng nhu cầu về thông tin trong Học viện. Luận văn được chia thành các chương. Trừ chương mở đầu luận văn được cấu trúc. Chương 1: Vai trò của cơ sở dữ liệu đa phương tiện trong công tác dạy và học. Chương 2: Khá phá dữ liệu trong cơ sở dữ liệu liên quan tới gốm sứ cổ truyền. Chương 3: Khai thác cơ sở dữ liệu về gốm sứ cổ truyền trong công tác giảng dạy tại Học viện Báo chí và Tuyên truyền. Trong chương 1, luận văn trình bày tổng quan về các dữ liệu đa phương tiện, các phương pháp học tập truyền thống, phương pháp dạy học tích cực, kho dữ liệu - 9 - bài giảng, nguồn thông tin về Gốm sứ tại Học viện, từ đó ta thấy được nhu cầu cần thiết của dữ liệu đa phương tiện trong công tác dạy học và đào tạo tại Học viện. Trong chương 2, luận văn trình bày khái quát về quá trình khai phá dữ liệu, những vấn đề liện quan tới gốm sứ cổ truyền Việt nam, kiến trúc về cơ sở dữ liệu nói chung và kiến trúc cơ sở dữ liệu văn bản nói riêng. Đó là cơ sở ban đầu cho quá trình khai phá dữ liệu các bài báo liên quan tới gốm sứ cổ truyền Việt nam. Trong chương 3, trọng tâm của chương này là tiến hành xây dựng cơ sở dữ liệu các bài báo liên quan tới gốm sứ phục vụ cho Học viện Báo chí và Tuyên truyền dựa trên ứng dụng trong phần mềm quản trị cơ sở dữ liệu SQL Server 2005. Cuối luận văn là các nhận xét đánh giá về những nhiệm vụ công việc trong quá trình làm luận văn tốt nghiệp, đồng thời chia ra phương hướng cho quá trình tiếp theo. - 10 - Chương 1: VAI TRÒ CỦA CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN TRONG CÔNG TÁC DẠY VÀ HỌC 1.1. Các dữ liệu đa phương tiện 1.1.1. Dữ liệu văn bản Dữ liệu văn bản là tập các ký tự được thao tác từ các phần mềm (Soạn thảo, xử lý văn bản, bộ chữ, bộ gõ) thuộc tính của ký tự: chữ đậm, chữ nghiêng, gạch chân, kiểu chữ…; Ký tự cho một đoạn thụt ra, thụt vào, đầu lề, dòng. Dữ liệu văn bản là một loại dữ liệu rời rạc, dạng thông tin cơ bản nhất trong biểu diễn thông tin. Các loại dữ liệu văn bản điển hình như: • Dữ liệu văn bản có cấu trúc như: Tác giả, Tiêu đề, chương, bảng…; • Dữ liệu văn bản phi cấu trúc như: kiểu chữ, cỡ chữ, font chữ; văn bản đánh dấu: Tách biệt nội dung và cấu trúc Các vấn đề đối với văn bản là thu nhân văn bản từ bàn phím, thu nhận tự động bằng nhận dạng hình ảnh, xử lý tạo văn bản, chỉnh và biên tập, nguyên tắc, lưu trữ: tách biệt nội dung và cấu trúc, mã hóa và nén, nén không mất thông tin; hiển thị, hiển thị và cảm nhận; các vấn đề phổ biến đó là sự không tương thích giữa các văn bản. Có thể kể đến những vấn đề liên quan tới văn bản như sau: • Mã hóa văn bản: Mã ASCII có mã tiêu chuẩn 7 bít, có mã mở rộng 8 bít. • Các thao tác trên văn bản: thao tác trên ký tự, thể hiện thông qua ký tự. • Các thao tác trên xâu: Thao tác trên chuỗi ký tự. • Soạn thảo văn bản và biên tập văn bản: các thao tác thay đổi khuôn dạng và cấu trúc của văn bản. • Định dạng văn bản: thực hiện các thao tác đặt các thuộc tính về bố trí văn bản. • So sánh mẫu và tìm kiếm mẫu cho trước: tìm kiếm bằng cách so sánh với mẫu hoặc các tiêu chí tìm kiếm. • Sắp xếp văn bản. • Phân văn bản theo các tiêu chí xác định - 11 - • Một số phần mềm chỉnh sửa Font chữ: fontcreator, fontographer, metafont… Fontcreator là một phần mềm chỉnh sửa Font chữ phổ biến, có giao diện trực quan, cho phép người sử dụng làm việc hiệu quả nhờ có công cụ vẽ để tạo và chỉnh sửa Font. Hình 1.1 Giao diện phần mềm FontCreator v6.2 Fontographer là phương tiện đơn giản nhất để tạo nên những phông chữ riêng, độc đáo phục vụ cho việc in ấn, các phương tiện truyền thông hay các ứng dụng trên Internet. Ta dễ dàng sử dụng khi gặp phải những phông chữ có các kí hiệu số, kí tự nước ngoài, ngoài ra với phần mềm này ta có thể tự tạo lập những kiểu chữ hoàn chỉnh từ những bước đơn giản đầu tiên. Hình 1.2 Giao diện phần mềm Fontographer 4.1 - 12 - 1.1.2. Dữ liệu âm thanh Dữ liệu âm thanh: là một tập hợp các định dạng âm thanh, một định dạng âm thanh là một định dạng Tệp để lưu trữ dữ liệu âm thanh trên một máy tính hệ thống, là một thành phần điển hình của dữ liệu đa phương tiện. Âm thanh gồm có: • Âm thanh có thoại: Như bản nhạc mà tổng phổ phần chính và phần hòa âm, ca từ (văn bản) gồm làn điệu và tiết tấu. • Âm thanh không có thoại: Gồm có tiếng động, tiếng tự nhiên… Dữ liệu âm thanh được số hóa trên đĩa, đoạn nhạc âm thanh thường được xử lý trong hậu trường (phòng thu âm), xử lý bằng phần mềm hay thiết bị xử lý âm thanh • Phần mềm CoolEdit: Cho phép lọc nhiễu lọc ồn; Hình 1.3 Giao diện phần mềm CoolEdit 2.0 • Thiết bị Equaliser: Equaliser là một thiết bị được thiết kế nhằm làm thay đổi tính chất âm thanh khi âm thanh đi qua nó. Nó còn được hiểu là bộ cân bằng âm thanh. Equaliser sử dụng nhiều bộ lọc điện tử mà mỗi cái làm việc theo nguyên lý tăng giảm tín hiệu của từng dải tần. Có nhiều loại Equaliser khác nhau và mỗi loại lại có những nút điều khiển khác nhau làm chúng ta khó phân biệt. Cho phép lấy tần số, thêm tiếng Bass, trầm tăng chất lượng âm thanh, âm nổi. Tín hiệu âm thanh: là tín hiệu liên tục, trong thực tế âm thanh có dạng sóng hình sin. Số hóa âm thanh ta phải chia thời gian của âm thanh thành các khoảng nhỏ, tại mỗi khoảng đó, biên độ âm thanh sẽ được mã hóa thành một con số nhị phân tương ứng. Có rất nhiều các phần mềm sở hữu các định dạng như: - 13 - • Mp3-mpeg layer 3: Là một phần mềm định dạng tập tin âm thanh dạng MP3, đây là một định dạng âm thanh với nhiều loại khác nhau của các chương trình và các thiết bị âm thanh cầm tay; • Windowns media audio: Là một phầm mềm loại định dạng phổ biến được Microsoft sản xuất, đây là công nghệ nén nhạc độc quyền của công nghệ Windows Media. • Audio real: Là phần mềm được thiết kế âm thanh cho các tuyến âm thanh trên Internet. 1.1.3. Dữ liệu hình ảnh Dữ liệu hình ảnh: bao gồm tập hợp các tệp định dạng hình ảnh. Hình ảnh được số hóa hay chụp (bằng máy quét hay máy kỹ thuật số) thể hiện cố định một nội dung. Tín hiệu ảnh là tín hiệu hai chiều liên tục trên miền không gian, để xử lý hình ảnh ta phải tiến hành số hóa, tín hiệu liên tục được chuyển thành tín hiệu rời rạc, chất lượng hình ảnh thể hiện trên màn hình phụ thuộc vào khả năng biểu diễn mầu, bộ nhớ RAM dành cho màn hình, khoảng cách giữa các điểm ảnh, tốc độ quét trong quá trình tạo lưu ảnh. Điểm ảnh: Ảnh là một tập hợp các phần tử và mỗi phần tử đó gọi là phần tử ảnh, phần tử ảnh đó gọi là điểm ảnh, mỗi điểm ảnh gồm một cặp tọa độ x, y và mầu. Hình 1.4 Biểu diễn ảnh với độ phân giải khác nhau Nhận dạng ảnh: là quá trình phân loại các đối tượng ảnh theo một mô hình nào đó và gán chúng vào một lớp dựa theo những quy luật và các mẫu chuẩn. Ta có ba cách tiếp cận nhận dạng như sau: • Nhận dạng dựa trên phân hoạch không gian • Nhận dạng dựa trên cấu trúc • Nhận dạng dựa vào kỹ thuật mạng Noron - 14 - Nén ảnh (mã hóa ảnh): là quá trình làm giảm lượng thông tin dư thừa trong ảnh gốc, ảnh thu được sau khi nén nhỏ hơn nhiều so với ảnh gốc. Có nhiều phương pháp nén ảnh khác nhau, mỗi phương pháp cho ảnh thu được sau khi nén là khác nhau. Nếu phân loại theo phương pháp nén dựa trên nguyên lý nén ta chia thành hai phương pháp nén chính sau: • Nén chính xác hay nén không mất mát thông tin: bao gồm các phương pháp nén mà sau khi giải nén ta thu được chính xác dữ liệu ảnh gốc. • Nén có mất mát thông tin: Các phương pháp nén này sau khi giải nén ta không thu được dữ liệu như bản gốc. 1.1.3. Dữ liệu hình động Dữ liệu hình động: là một tập hợp các tệp hình động, hình động có thể do phần mềm động tạo ra. Hình động: là tập hợp các hình tĩnh tạo ra, có liên quan tới nội dung của nó trong một khoảng thời gian, khi xem nhanh các khung hình tĩnh thì ta thấy sự chuyển động. Tập các khung hình tĩnh gắn vào một sự kiện thì ta thấy sự chuyển động và tạo thành một cảnh, nhiều cảnh được gọi là một đoạn, một đoạn gọi là một Video Clip. Hình động thường được sử dụng trong quảng cáo, thương mại, giáo dục… Video: là sự tập hợp của các hình ảnh khác nhau, nhưng cảnh và trình tự sắp xếp theo một cơ cấu hợp lý. Người ta có thể tạo ra video bằng phần mềm tạo hình động từ các hình tĩnh, có thể thu được nhờ máy video. Hình 1.5 Giao diện phần mềm tạo hình động Blender - 15 - 1.2. Vai trò của dữ liêu đa phương tiện trong quá trình nhân thức của con người Con người có nhiều hình thức để thể hiện nhu cầu
Luận văn liên quan