Học viện báo chí và tuyên truyền trước thách thức vềcông tác dạy và học, có
nhu cầu cấp thiết sửdụng những công cụhiện đại của Công nghệthông tin. Một
mặt công tác quản lý đào tạo, quản lý học viên, quản lý nghiên cứu khoa học.cần
sửdụng năng lực của công nghệthông tin. Mặt khác việc chuẩn bịtưliệu cho các
chuyên nghành đào tạo đã được học viện chú trọng nhằm trang bịhọc liệu cho công
tác dạy và học.
Một trong những khoa học liệu đã được xây dựng trong nhiều năm qua là khoa
học liệu vềvăn hóa làng nghề, liên quan đến các đồgốm sứcổtruyền việt nam.
Đểkhoa học liệu được tổchức và khai thác một cách khoa học, phù hợp với
công nghê đa phương tiện ngày càng thông dụng, luận văn trong đềtài là: Xây dựng
cơsởdữliệu bài báo điện tửliên quan tới Gốm sứphục phụ đào tạo tại Học viện
Báo chí và Tuyên truyền.
Xây dựng CSDL các bài báo liên quan tới gốm sứlà một bài toán cơbản, là
một bước quan trọng trong quá trình khai phá dữliệu. CSDL xây dựng được phục
vụ, hỗtrợcho việc truy vấn thông tin, quá trình tìm kiếm thông tin tại Học viện.
Mong muốn của Học viên là có được một CSDL các bài báo gốm sứ, một lượng
thông tin lớn, có khảnăng truy xuất dữliệu nhanh, đáp ứng nhu cầu vềthông tin
trong Học viện.
53 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2334 | Lượt tải: 6
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu bài báo điện tửliên quan tới gốm sứ Việt Nam phục vụ đào tạo tại học viện báo chí và tuyên truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM VĂN BẰNG
XÂY DỰNG CƠ SỞ DỮ LIỆU BÀI BÁO ĐIỆN TỬ LIÊN
QUAN TỚI GỐM SỨ VIỆT NAM PHỤC VỤ ĐÀO TẠO
TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN
LUẬN VĂN THẠC SĨ
HÀ NỘI – 2011
- 1 -
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn: “XÂY DỰNG CƠ SỞ DỮ LIỆU BÀI BÁO ĐIỆN TỬ
LIÊN QUAN TỚI GỐM SỨ PHỤC VỤ ĐÀO TẠO TẠI HỌC VIỆN BÁO CHÍ VÀ
TUYÊN TRUYỀN” là kết quả nghiên cứu của riêng tôi, không sao chép của riêng
ai. Các số liệu và bảng biểu là hoàn toàn chính xác và nội dung luận văn có tham
khảo và sử dụng các tài liệu, thông tin đuợc đăng tải trên các tác phẩm, tạp chí và
các trang web theo danh mục tài liệu của luận văn.
Hà nội, ngày 2 tháng 5 năm 2011
Tác giả luận văn
Phạm Văn Bằng
- 2 -
LỜI CẢM ƠN
Đầu tiên, tôi xin chân thành cảm ơn PGS. TS. Đỗ Trung Tuấn, Bộ môn Toán-
Tin, khoa Toán-Tin, Trường Đại học Tổng hợp, Đại học Quốc Gia Hà Nội, người
đã trực tiếp giảng dạy, định hướng đề tài, tận tình chỉ bảo, giúp đỡ tôi trong suốt quá
trình thực hiện luận văn cao học này.
Tiếp theo, tôi xin chân thành cảm các thầy giáo, cô giáo trường Đại học Công
Nghệ, Đại học Quốc gia Hà nội đã giảng dạy và truyền đạt những kiến thức bổ ích,
những kinh nghiệm quý báu trong suốt quá trình học Cao học.
Cuối cùng tôi xin cảm ơn Bố mẹ và gia đình, cảm ơn những người thân và bạn
bè đồng nghiệp đă luôn ở bên động viên, giúp đỡ, chia sẻ với tôi trong suốt quá
trình học tập và thực hiện luận cao học.
- 3 -
MỤC LỤC
LỜI CAM ĐOAN............................................................................................ 1
LỜI CẢM ƠN.................................................................................................. 2
MỤC LỤC....................................................................................................... 3
BẢNG DANH MỤC CÁC KÍ HIỆU VIẾT TẮT ........................................... 5
DANH MỤC HÌNH ẢNH............................................................................... 6
DANH MỤC BẢNG BIỂU............................................................................. 7
MỞ ĐẦU......................................................................................................... 8
Chương 1: VAI TRÒ CỦA CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN TRONG
CÔNG TÁC DẠY VÀ HỌC.................................................................................... 10
1.1. Các dữ liệu đa phương tiện ............................................................................ 10
1.1.1. Dữ liệu văn bản........................................................................................ 10
1.1.2. Dữ liệu âm thanh...................................................................................... 12
1.1.3. Dữ liệu hình ảnh ...................................................................................... 13
1.1.3. Dữ liệu hình động .................................................................................... 14
1.2. Vai trò của dữ liêu đa phương tiện trong quá trình nhận thức của con người15
1.2.1. Phương pháp học tập cổ điển................................................................... 15
1.2.2. Học tập tương tác, tích cực. ..................................................................... 16
1.2.3. Vai trò của dữ liệu đa phương tiện trong công tác học tích cực.............. 17
1.3. Kho học liệu tại Học viện Báo chí và Tuyên truyền...................................... 18
1.3.1. Kho dữ liệu bài giảng............................................................................... 18
1.3.2. Năng lực truy cập thông tin trên Intrernet của Học viện ......................... 19
1.3.3. Nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của Học
viện..................................................................................................................... 20
1.3.4. Nhu cầu về cơ sở dữ liệu thông tin đa phương tiện................................. 20
1.4. Kết luận .......................................................................................................... 20
- 4 -
Chương 2: KHAI PHÁ DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU LIÊN QUAN
TỚI GỐM SỨ CỔ TRUYỀN ................................................................................... 21
2.1. Kiến trúc cơ sở dữ liệu văn bản ..................................................................... 21
2.1.1. Kiến trúc chung........................................................................................ 21
2.1.2. Các chức năng trong cơ sở dữ liệu văn bản............................................. 22
2.2. Kiến trúc cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền Việt Nam.. 23
2.2.1. Nội dung liên quan tới gốm sứ cổ truyền ................................................ 23
2.2.2. Các chức năng cần thiết đối với cơ sở dữ liệu văn bản gốm sứ .............. 27
2.3. Khai phá dữ liệu văn bản ............................................................................... 28
2.4. Kết luận .......................................................................................................... 35
Chương 3: KHAI THÁC CƠ SỞ DỮ LIỆU VỀ GỐM SỨ CỔ TRUYỀN
TRONG CÔNG TÁC GIẢNG DẠY TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN
TRUYỀN .................................................................................................................. 36
3.1. Hạ tầng công nghệ thông tin tại Học viện...................................................... 36
3.2. Một số môn học liên quan tới Gốm sứ cổ truyền........................................... 36
3.3. Thiết kế chi tiết của cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền.. 37
3.3.1. Công cụ Olap trong SQL Server 2005..................................................... 37
3.3.2. Thiết kế chi tiết cơ sở dữ liệu .................................................................. 42
3.4. Một số trang màn hình cài đặt........................................................................ 44
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 51
Các kết quả đạt được ............................................................................................. 51
Phương hướng nghiên cứu tiếp theo ..................................................................... 51
Tiếp tục thiết kế, cài đặt hoàn chỉnh CSDL .......................................................... 51
TÀI LIỆU THAM KHẢO............................................................................. 52
Tiếng việt .............................................................................................................. 52
Internet .................................................................................................................. 52
- 5 -
BẢNG DANH MỤC CÁC KÍ HIỆU VIẾT TẮT
Tên viết tắt Tiếng Việt
CSDL Cơ sở dữ liệu
CNTT Công nghệ thông tin
OLAP Xử lý phân tích trực tuyến
ASCII Chuẩn mã trao đổi thông tin Hoa Kỳ
DBMS Hệ quản trị cơ sở dữ liệu
ANSI/SPARC Kiến trúc ANSI/SPARC
- 6 -
DANH MỤC HÌNH ẢNH
Hình 1.1 Giao diện phần mềm FontCreator v6.2 ..................................................... 11
Hình 1.2 Giao diện phần mềm Fontographer 4.1 ..................................................... 11
Hình 1.3 Giao diện phần mềm CoolEdit 2.0 ............................................................ 12
Hình 1.5 Giao diện phần mềm tạo hình động Blender ............................................. 14
Hình 2.1 Kiến trúc ANSI/SPARC............................................................................ 22
Hình 2.2 Chân đèn gốm tráng men lam, loại men nổi tiếng của Bát Tràng............. 25
Hình 2.3 Hai bình Âm dương gốm Chu đậu ............................................................ 26
Hinh 2.4 Bình hoa gốm Phù Lãng hiện đại .............................................................. 27
Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản............................... 28
Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp...................................................... 33
Hình 2.7 Mô tả quá trình trích rút quan hệ nghữ nghĩa............................................ 33
Hình 3.1 Tạo mô hình liên kết thực thể .................................................................... 44
Hình 3.3 Thêm thông tin bài báo.............................................................................. 44
Hình 3.4 Thêm nội dung thông tin Tác giả .............................................................. 45
Hình 3.5 Thêm nội dung thông tin chuyên mục....................................................... 45
Hình 3.6 Tạo tìm kiếm thông tin .............................................................................. 46
Hình 3.7 Giao diện chương trình Demo ................................................................... 46
Hình 3.8 Giao diện tìm kiếm thông tin..................................................................... 47
Hình 3.9 Giao diện thêm thông tin về tác giả........................................................... 47
Hình 3.10 Giao diện thêm thông tin về chủ đề......................................................... 48
Hình 3.11 Giao diện thêm thông tin về bài báo........................................................ 48
Hình 3.12 Hiển thị các báo cáo theo chuyên mục 1 ................................................. 49
Hình 3.13 Hiển thị các báo cáo theo chuyên mục 2 ................................................. 49
Hình 3.14 Hiển thị các báo cáo theo chuyên mục 3 ................................................. 50
- 7 -
DANH MỤC BẢNG BIỂU
Bảng 2.1 Thủ tục sinh mẫu mới của phương pháp Snowball................................... 32
Bảng 2.2 Một số ví dụ về mẫu quan hệ .................................................................... 32
Bảng 2.3 Một số mẫu tổng quát................................................................................ 33
Bảng 3.1 Thông tin về bài báo.................................................................................. 43
Bảng 3.2 Thông tin về tác giả bài báo ...................................................................... 43
Bảng 3.3 Thông tin về chuyên mục bài báo ............................................................. 43
- 8 -
MỞ ĐẦU
Học viện báo chí và tuyên truyền trước thách thức về công tác dạy và học, có
nhu cầu cấp thiết sử dụng những công cụ hiện đại của Công nghệ thông tin. Một
mặt công tác quản lý đào tạo, quản lý học viên, quản lý nghiên cứu khoa học...cần
sử dụng năng lực của công nghệ thông tin. Mặt khác việc chuẩn bị tư liệu cho các
chuyên nghành đào tạo đã được học viện chú trọng nhằm trang bị học liệu cho công
tác dạy và học.
Một trong những khoa học liệu đã được xây dựng trong nhiều năm qua là khoa
học liệu về văn hóa làng nghề, liên quan đến các đồ gốm sứ cổ truyền việt nam.
Để khoa học liệu được tổ chức và khai thác một cách khoa học, phù hợp với
công nghê đa phương tiện ngày càng thông dụng, luận văn trong đề tài là: Xây dựng
cơ sở dữ liệu bài báo điện tử liên quan tới Gốm sứ phục phụ đào tạo tại Học viện
Báo chí và Tuyên truyền.
Xây dựng CSDL các bài báo liên quan tới gốm sứ là một bài toán cơ bản, là
một bước quan trọng trong quá trình khai phá dữ liệu. CSDL xây dựng được phục
vụ, hỗ trợ cho việc truy vấn thông tin, quá trình tìm kiếm thông tin tại Học viện.
Mong muốn của Học viên là có được một CSDL các bài báo gốm sứ, một lượng
thông tin lớn, có khả năng truy xuất dữ liệu nhanh, đáp ứng nhu cầu về thông tin
trong Học viện.
Luận văn được chia thành các chương. Trừ chương mở đầu luận văn được cấu
trúc.
Chương 1: Vai trò của cơ sở dữ liệu đa phương tiện trong công tác dạy và
học.
Chương 2: Khá phá dữ liệu trong cơ sở dữ liệu liên quan tới gốm sứ cổ
truyền.
Chương 3: Khai thác cơ sở dữ liệu về gốm sứ cổ truyền trong công tác
giảng dạy tại Học viện Báo chí và Tuyên truyền.
Trong chương 1, luận văn trình bày tổng quan về các dữ liệu đa phương tiện,
các phương pháp học tập truyền thống, phương pháp dạy học tích cực, kho dữ liệu
- 9 -
bài giảng, nguồn thông tin về Gốm sứ tại Học viện, từ đó ta thấy được nhu cầu cần
thiết của dữ liệu đa phương tiện trong công tác dạy học và đào tạo tại Học viện.
Trong chương 2, luận văn trình bày khái quát về quá trình khai phá dữ liệu,
những vấn đề liện quan tới gốm sứ cổ truyền Việt nam, kiến trúc về cơ sở dữ liệu
nói chung và kiến trúc cơ sở dữ liệu văn bản nói riêng. Đó là cơ sở ban đầu cho quá
trình khai phá dữ liệu các bài báo liên quan tới gốm sứ cổ truyền Việt nam.
Trong chương 3, trọng tâm của chương này là tiến hành xây dựng cơ sở dữ
liệu các bài báo liên quan tới gốm sứ phục vụ cho Học viện Báo chí và Tuyên
truyền dựa trên ứng dụng trong phần mềm quản trị cơ sở dữ liệu SQL Server 2005.
Cuối luận văn là các nhận xét đánh giá về những nhiệm vụ công việc trong
quá trình làm luận văn tốt nghiệp, đồng thời chia ra phương hướng cho quá trình
tiếp theo.
- 10 -
Chương 1: VAI TRÒ CỦA CƠ SỞ DỮ LIỆU ĐA
PHƯƠNG TIỆN TRONG CÔNG TÁC DẠY VÀ HỌC
1.1. Các dữ liệu đa phương tiện
1.1.1. Dữ liệu văn bản
Dữ liệu văn bản là tập các ký tự được thao tác từ các phần mềm (Soạn thảo,
xử lý văn bản, bộ chữ, bộ gõ) thuộc tính của ký tự: chữ đậm, chữ nghiêng, gạch
chân, kiểu chữ…; Ký tự cho một đoạn thụt ra, thụt vào, đầu lề, dòng. Dữ liệu văn
bản là một loại dữ liệu rời rạc, dạng thông tin cơ bản nhất trong biểu diễn thông tin.
Các loại dữ liệu văn bản điển hình như:
• Dữ liệu văn bản có cấu trúc như: Tác giả, Tiêu đề, chương, bảng…;
• Dữ liệu văn bản phi cấu trúc như: kiểu chữ, cỡ chữ, font chữ; văn bản đánh
dấu: Tách biệt nội dung và cấu trúc
Các vấn đề đối với văn bản là thu nhân văn bản từ bàn phím, thu nhận tự động
bằng nhận dạng hình ảnh, xử lý tạo văn bản, chỉnh và biên tập, nguyên tắc, lưu trữ:
tách biệt nội dung và cấu trúc, mã hóa và nén, nén không mất thông tin; hiển thị,
hiển thị và cảm nhận; các vấn đề phổ biến đó là sự không tương thích giữa các văn
bản.
Có thể kể đến những vấn đề liên quan tới văn bản như sau:
• Mã hóa văn bản: Mã ASCII có mã tiêu chuẩn 7 bít, có mã mở rộng 8 bít.
• Các thao tác trên văn bản: thao tác trên ký tự, thể hiện thông qua ký tự.
• Các thao tác trên xâu: Thao tác trên chuỗi ký tự.
• Soạn thảo văn bản và biên tập văn bản: các thao tác thay đổi khuôn dạng và
cấu trúc của văn bản.
• Định dạng văn bản: thực hiện các thao tác đặt các thuộc tính về bố trí văn
bản.
• So sánh mẫu và tìm kiếm mẫu cho trước: tìm kiếm bằng cách so sánh với
mẫu hoặc các tiêu chí tìm kiếm.
• Sắp xếp văn bản.
• Phân văn bản theo các tiêu chí xác định
- 11 -
• Một số phần mềm chỉnh sửa Font chữ: fontcreator, fontographer, metafont…
Fontcreator là một phần mềm chỉnh sửa Font chữ phổ biến, có giao diện trực
quan, cho phép người sử dụng làm việc hiệu quả nhờ có công cụ vẽ để tạo và chỉnh
sửa Font.
Hình 1.1 Giao diện phần mềm FontCreator v6.2
Fontographer là phương tiện đơn giản nhất để tạo nên những phông chữ riêng,
độc đáo phục vụ cho việc in ấn, các phương tiện truyền thông hay các ứng dụng trên
Internet. Ta dễ dàng sử dụng khi gặp phải những phông chữ có các kí hiệu số, kí tự
nước ngoài, ngoài ra với phần mềm này ta có thể tự tạo lập những kiểu chữ hoàn
chỉnh từ những bước đơn giản đầu tiên.
Hình 1.2 Giao diện phần mềm Fontographer 4.1
- 12 -
1.1.2. Dữ liệu âm thanh
Dữ liệu âm thanh: là một tập hợp các định dạng âm thanh, một định dạng âm
thanh là một định dạng Tệp để lưu trữ dữ liệu âm thanh trên một máy tính hệ thống,
là một thành phần điển hình của dữ liệu đa phương tiện. Âm thanh gồm có:
• Âm thanh có thoại: Như bản nhạc mà tổng phổ phần chính và phần hòa âm,
ca từ (văn bản) gồm làn điệu và tiết tấu.
• Âm thanh không có thoại: Gồm có tiếng động, tiếng tự nhiên…
Dữ liệu âm thanh được số hóa trên đĩa, đoạn nhạc âm thanh thường được xử lý
trong hậu trường (phòng thu âm), xử lý bằng phần mềm hay thiết bị xử lý âm thanh
• Phần mềm CoolEdit: Cho phép lọc nhiễu lọc ồn;
Hình 1.3 Giao diện phần mềm CoolEdit 2.0
• Thiết bị Equaliser: Equaliser là một thiết bị được thiết kế nhằm làm thay đổi
tính chất âm thanh khi âm thanh đi qua nó. Nó còn được hiểu là bộ cân bằng
âm thanh. Equaliser sử dụng nhiều bộ lọc điện tử mà mỗi cái làm việc theo
nguyên lý tăng giảm tín hiệu của từng dải tần. Có nhiều loại Equaliser khác
nhau và mỗi loại lại có những nút điều khiển khác nhau làm chúng ta khó
phân biệt. Cho phép lấy tần số, thêm tiếng Bass, trầm tăng chất lượng âm
thanh, âm nổi.
Tín hiệu âm thanh: là tín hiệu liên tục, trong thực tế âm thanh có dạng sóng
hình sin. Số hóa âm thanh ta phải chia thời gian của âm thanh thành các khoảng
nhỏ, tại mỗi khoảng đó, biên độ âm thanh sẽ được mã hóa thành một con số nhị
phân tương ứng. Có rất nhiều các phần mềm sở hữu các định dạng như:
- 13 -
• Mp3-mpeg layer 3: Là một phần mềm định dạng tập tin âm thanh dạng
MP3, đây là một định dạng âm thanh với nhiều loại khác nhau của các
chương trình và các thiết bị âm thanh cầm tay;
• Windowns media audio: Là một phầm mềm loại định dạng phổ biến được
Microsoft sản xuất, đây là công nghệ nén nhạc độc quyền của công nghệ
Windows Media.
• Audio real: Là phần mềm được thiết kế âm thanh cho các tuyến âm thanh
trên Internet.
1.1.3. Dữ liệu hình ảnh
Dữ liệu hình ảnh: bao gồm tập hợp các tệp định dạng hình ảnh. Hình ảnh được
số hóa hay chụp (bằng máy quét hay máy kỹ thuật số) thể hiện cố định một nội
dung.
Tín hiệu ảnh là tín hiệu hai chiều liên tục trên miền không gian, để xử lý hình
ảnh ta phải tiến hành số hóa, tín hiệu liên tục được chuyển thành tín hiệu rời rạc,
chất lượng hình ảnh thể hiện trên màn hình phụ thuộc vào khả năng biểu diễn mầu,
bộ nhớ RAM dành cho màn hình, khoảng cách giữa các điểm ảnh, tốc độ quét trong
quá trình tạo lưu ảnh.
Điểm ảnh: Ảnh là một tập hợp các phần tử và mỗi phần tử đó gọi là phần tử
ảnh, phần tử ảnh đó gọi là điểm ảnh, mỗi điểm ảnh gồm một cặp tọa độ x, y và mầu.
Hình 1.4 Biểu diễn ảnh với độ phân giải khác nhau
Nhận dạng ảnh: là quá trình phân loại các đối tượng ảnh theo một mô hình nào
đó và gán chúng vào một lớp dựa theo những quy luật và các mẫu chuẩn. Ta có ba
cách tiếp cận nhận dạng như sau:
• Nhận dạng dựa trên phân hoạch không gian
• Nhận dạng dựa trên cấu trúc
• Nhận dạng dựa vào kỹ thuật mạng Noron
- 14 -
Nén ảnh (mã hóa ảnh): là quá trình làm giảm lượng thông tin dư thừa trong
ảnh gốc, ảnh thu được sau khi nén nhỏ hơn nhiều so với ảnh gốc. Có nhiều phương
pháp nén ảnh khác nhau, mỗi phương pháp cho ảnh thu được sau khi nén là khác
nhau. Nếu phân loại theo phương pháp nén dựa trên nguyên lý nén ta chia thành hai
phương pháp nén chính sau:
• Nén chính xác hay nén không mất mát thông tin: bao gồm các phương pháp
nén mà sau khi giải nén ta thu được chính xác dữ liệu ảnh gốc.
• Nén có mất mát thông tin: Các phương pháp nén này sau khi giải nén ta
không thu được dữ liệu như bản gốc.
1.1.3. Dữ liệu hình động
Dữ liệu hình động: là một tập hợp các tệp hình động, hình động có thể do phần
mềm động tạo ra.
Hình động: là tập hợp các hình tĩnh tạo ra, có liên quan tới nội dung của nó
trong một khoảng thời gian, khi xem nhanh các khung hình tĩnh thì ta thấy sự
chuyển động. Tập các khung hình tĩnh gắn vào một sự kiện thì ta thấy sự chuyển
động và tạo thành một cảnh, nhiều cảnh được gọi là một đoạn, một đoạn gọi là một
Video Clip. Hình động thường được sử dụng trong quảng cáo, thương mại, giáo
dục…
Video: là sự tập hợp của các hình ảnh khác nhau, nhưng cảnh và trình tự sắp
xếp theo một cơ cấu hợp lý. Người ta có thể tạo ra video bằng phần mềm tạo hình
động từ các hình tĩnh, có thể thu được nhờ máy video.
Hình 1.5 Giao diện phần mềm tạo hình động Blender
- 15 -
1.2. Vai trò của dữ liêu đa phương tiện trong quá trình nhân
thức của con người
Con người có nhiều hình thức để thể hiện nhu cầu