Luận văn được trình bày làm 3 chươngchính với các nội dung như sau:
ChươngI: Khảo cứu các phương pháp dự báo số liệu
Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu
một số phương pháp dự báo định lượng chính như: Hồi quytuyến tính, Hồi quy
phi tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu
Chương II: Dự báo định lượng bằng phương pháp mạng nơronnhân tạo
Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương
pháp mạng nơronnhân tạo, thuật toán lan truyền ngược sai số và phương pháp
thiết kế mạng nơronnhân tạo.
Chương III: Dự báo kết quả hoạt động SXKD c ủa VNPT bằng phương
pháp mạng nơronnhân tạo
Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của
VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng
dụng phương pháp mạng nơronnhân tạo để dự báo kết quả. Cuối cùng là kết quả
thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất,
khuyến nghị.
103 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2773 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Tuấn Ninh
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT
LUẬN VĂN THẠC SĨ
HÀ NỘI – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Tuấn Ninh
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS.Đỗ Văn Thành
HÀ NỘI - 2009
- i -
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay
xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một
công trình nghiên cứu nào.
Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng.
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.
Hà Nội, ngày tháng năm 2009
Người thực hiện đề tài
Hoàng Tuấn Ninh
- ii -
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn Thành,Trung tâm Thông
tin và Dự báo Kinh tế - Xã hội, Bộ Kế hoạch và Đầu tư đã tận tình hướng dẫn
và có nhiều chỉ dẫn quí báu cho tôi hoàn thành khoá luận này.
Tôi xin chân thành cảm ơn các thầy, cô trong Đại học Công nghệ cũng
như các thầy cô giảng dạy ở Đại học Quốc Gia Hà Nội đã truyền đạt cho tôi
những kiến thức bổ ích trong thời gian học tập tại trường.
Tôi cũng xin gửi lời cảm ơn tới các chuyên viên của Tập đoàn Bưu chính
Viễn thông Việt Nam đã cung cấp số liệu cho tôi để thực hiện luận văn này.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình và bạn bè, những
người đã giúp đỡ, động viên tôi rất nhiều trong suốt quá trình học tập và làm
luận văn.
Do thời gian và kiến thức có hạn, khoá luận không tránh khỏi những thiếu
sót nhất định. Tôi rất mong nhận được sự góp ý của thầy cô giáo và các bạn.
Tôi xin chân thành cảm ơn !
- iii -
TÓM TẮT NỘI DUNG LUẬN VĂN
Luận văn được trình bày làm 3 chương chính với các nội dung như sau:
Chương I: Khảo cứu các phương pháp dự báo số liệu
Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu
một số phương pháp dự báo định lượng chính như: Hồi quy tuyến tính, Hồi quy
phi tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu…
Chương II: Dự báo định lượng bằng phương pháp mạng nơron nhân tạo
Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương
pháp mạng nơron nhân tạo, thuật toán lan truyền ngược sai số và phương pháp
thiết kế mạng nơron nhân tạo.
Chương III: Dự báo kết quả hoạt động SXKD của VNPT bằng phương
pháp mạng nơron nhân tạo
Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của
VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng
dụng phương pháp mạng nơron nhân tạo để dự báo kết quả. Cuối cùng là kết quả
thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất,
khuyến nghị.
- iv -
MỤC LỤC
MỤC LỤC .................................................................................................................iv
DANH SÁCH HÌNH VẼ...........................................................................................vi
DANH SÁCH BẢNG BIỂU.....................................................................................vii
BẢNG THUẬT NGỮ..............................................................................................viii
MỞ ĐẦU ...................................................................................................................ix
CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG
SẢN XUẤT KINH DOANH DOANH NGHIỆP ....................................................11
1. Tổng quan các phương pháp dự báo ..................................................................11
1.3. Dự báo định lượng bằng các phương pháp hồi quy.............................................16
1.3.1.Hồi quy tuyến tính và hồi quy bội...............................................................16
1.1.2. Hồi quy phi tuyến tính ...............................................................................17
1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian .......................................18
1.4.1. Khái niệm chuỗi thời gian .........................................................................18
1.4.2. Phân tích, dự báo chuỗi thời gian .............................................................19
1.4. Dự báo bằng phương pháp phân lớp dữ liệu .......................................................21
1.4.1. Phương pháp phân lớp dữ liệu..................................................................21
1.4.2. Độ chính xác phân lớp ..............................................................................21
CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON
NHÂN TẠO..............................................................................................................24
2.1. Mạng nơron nhân tạo .......................................................................................24
1). Khái quát về mạng nơron .....................................................................................24
2.2 . Mô hình của mạng nơron nhân tạo ................................................................25
2.4. Thuật toán lan truyền ngược sai số .....................................................................30
2.5. Thiết kế mạng nơron ...........................................................................................32
1) Bước 1: Lựa chọn biến ..............................................................................33
2). Bước 2: Thu thập dữ liệu ...............................................................................34
3). Bước 3: Tiền xử lý dữ liệu .............................................................................34
4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá ...........................37
5). Bước 5: Xác định mô hình mạng nơron .........................................................38
6). Bước 6: Xác định hàm đánh giá sai số...........................................................43
7). Bước 7: Huấn luyện mạng nơron...................................................................43
8). Bước 8: Thực thi............................................................................................48
CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG
PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ...................................................50
- v -
3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT
..................................................................................................................................50
3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả SXKD ....50
3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT ...........................50
3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo..........................52
3.3. Giải pháp dự báo định lượng kết quả SXKD của VNPT ................................58
3.3.1. Mô hình tổng thể hệ thống thông tin phục vụ dự báo định lượng...............58
3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu ......................................61
3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT ...............62
3.3.4. Phần mềm công cụ hỗ trợ dự báo..............................................................63
3.4. Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPT ..........................72
3.4.1. Xác định các biến dự báo ..........................................................................72
3.4.2. Thu thập dữ liệu........................................................................................72
3.4.3. Tiền xử lý dữ liệu ......................................................................................72
3.4.4. Trích chọn dữ liệu – Xây dựng tập huấn luyện ..........................................74
3.4.5. Xác định mô hình mạng nơron ..................................................................76
3.4.6. Xác định hàm đánh giá sai số ...................................................................79
3.4.7. Huấn luyện mạng nơ ron...........................................................................79
3.4.8. Dự báo số liệu...........................................................................................81
3.5. Kết quả thử nghiệm ..........................................................................................82
a. Thử nghiệm với số liệu điện thoại cố định .................................................83
b. Thử nghiệm với dữ liệu mạng Internet .......................................................86
c. Thử nghiệm với dữ liệu mạng di động .......................................................87
3.6. Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT .....................................88
3.6.1. Sơ đồ phân rã chức năng ..........................................................................88
3.6.2. Biểu đồ ngữ cảnh ......................................................................................88
3.6.3. Sơ đồ phân rã chức năng ..........................................................................89
3.6.4. Sơ đồ quan hệ ...........................................................................................90
3.6.5. Thiết kế dữ liệu logic.................................................................................91
3.6.6. Thiết kế chức năng xem số liệu..................................................................95
3.6.7. Thiết kế chức năng xây dựng mô hình .......................................................96
3.6.8. Thiết kế chức năng dự báo số liệu .............................................................96
3.6.9. Thiết kế chức năng Cập nhật tập huấn luyện.............................................97
KẾT LUẬN ..............................................................................................................98
TÀI LIỆU THAM KHẢO .....................................................................................100
- vi -
DANH SÁCH HÌNH VẼ
Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp................. 16
Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout .. 22
Hình 3. Mô hình phi tuyến của một nơron ..................................................... 26
Hình 4. Kết quả biến đổi afine của ngưỡng .................................................... 27
Hình 5. Hai mô hình phi tuyến của nơron ...................................................... 28
Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng .............. 36
Hình 7. Phương pháp kiểm tra cửa sổ trượt.................................................... 38
Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500 ....... 42
Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron ............. 45
Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron ................... 47
Hình 11. Mô hình Hệ thống dự báo số liệu ................................................... 58
Hình 12. Mô hình Trích chọn dữ liệu............................................................ 59
Hình 13. Mô hình Làm sạch, chuẩn hóa dữ liệu............................................ 60
Hình 14. Xây dựng mô hình dữ liệu.............................................................. 60
Hình 15. Mô hình Dự báo giá trị mới............................................................ 61
Hình 16. Màn hình chương trình YALE ....................................................... 64
Hình 17. Mô hình xử lý một cây toán tử của Yale ........................................ 69
Hình 18. Màn hình chương trình WEKA...................................................... 70
Hình 19. Cấu trúc kho dữ liệu SXKD của VNPT.......................................... 73
Hình 20. Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu .................................... 89
Hình 21. Sơ đồ quan hệ dữ liệu của Hệ thống Dự báo số liệu ....................... 90
Hình 22. Biểu đồ luồng dữ liệu cho chức năng xem số liệu .......................... 95
Hình 23. Biểu đồ luồng dữ liệu cho chức năng xây dựng mô hình................ 96
Hình 24. Biểu đồ luồng dữ liệu cho chức năng dự báo số liệu ...................... 96
Hình 25. Biểu đồ luồng dữ liệu cho chức năng Cập nhật tập huấn luyện ...... 97
- vii -
DANH SÁCH BẢNG BIỂU
Bảng 1. So sánh YALE và WEKA................................................................. 71
Bảng 2. Kết quả dự báo chỉ tiêu m420 tháng 8 từ số liệu tháng 7 ................... 83
Bảng 3. Kết quả dự báo chỉ tiêu m420 tháng 10 từ số liệu tháng 7 ................. 83
Bảng 4. Kết quả dự báo chỉ tiêu m420 tháng 9 từ số liệu tháng 7 ................... 83
Bảng 5. Kết quả dự báo chỉ tiêu m410 tháng 8 từ số liệu tháng 7 ................... 83
Bảng 6. Kết quả dự báo chỉ tiêu m410 tháng 9 từ tháng 7 ............................. 84
Bảng 7. Kết quả dự báo chỉ tiêu m410 tháng 10 từ tháng 7 ........................... 84
Bảng 8. Kết quả dự báo chỉ tiêu m425 tháng 8 từ tháng 7 ............................. 84
Bảng 9. Kết quả dự báo chỉ tiêu m425 tháng 9 từ tháng 7 ............................. 84
Bảng 10. Kết quả dự báo chỉ tiêu m425 tháng 10 từ tháng 7 ........................ 85
Bảng 11. Kết quả dự báo chỉ tiêu m425 tháng 11 từ tháng 7 ........................ 85
Bảng 12. Kết quả dự báo chỉ tiêu m425 tháng 12 từ tháng 7 ........................ 85
Bảng 13. Độ chính xác trung bình theo chu kỳ.............................................. 86
Bảng 14. Độ chính xác trung bình theo chỉ tiêu............................................. 86
- viii -
BẢNG THUẬT NGỮ
Từ viết tắt Tiếng Anh Tiếng Việt
ARIMA AutoRegressive Integrated Moving Average
Tích hợp trung bình trượt tự hồi
qui
CSDL Cơ sở dữ liệu
DM Data mart Kho dữ liệu chủ đề
DW Data warehouse Kho dữ liệu
KDD Knowlegde Discovery in Databases Khám phá tri thức trong CSDL
KPDL Khai phá dữ liệu
MLP Multilayer Perceptron Mạng nơron đa lớp
SARIMA Seasonal AutoRegressive Integrated Moving Average
Tích hợp trung bình trượt tự hồi
qui theo mùa vụ
VNPT Vietnam Posts and Telecomunications Coporation
Tập đoàn Bưu chính Viễn
thông Việt Nam
- ix -
MỞ ĐẦU
Trong nền kinh tế tri thức, ưu thế cạnh tranh luôn thuộc về những doanh
nghiệp nắm bắt đầy đủ, kịp thời và khai thác có hiệu quả thông tin. Các doanh
nghiệp thành công trên thế giới đều đã và đang không ngừng đầu tư cho công cụ
quản lý tri thức của mình ở nhiều cấp độ khác nhau, ở mức thấp là các công cụ
báo cáo, phân tích tình hình tài chính… dựa vào thông tin từ phần mềm kế toán
và ở mức độ cao là ứng dụng công nghệ Khai phá dữ liệu nhằm khai thác các
kho dữ liệu giúp nhà quản lý phân tích về giá thành, thị trường và khách hàng,…
Công nghệ Khai phá dữ liệu có thể được triển khai nhanh chóng dựa trên nền
tảng phần cứng và phần mềm sẵn có đáp ứng yêu cầu khai thác thông tin của
doanh nghiệp, nâng cao hiệu quả sử dụng thông tin từ nguồn tài nguyên sẵn có
và mang lại lợi ích to lớn cho doanh nghiệp.
Tại Việt Nam, hiện tại đã có nhiều tổ chức, doanh nghiệp trong nước nhận
thức được tầm quan trọng và lợi ích của công nghệ Khai phá dữ liệu. Một số tổ
chức, doanh nghiệp đã xây dựng các kho dữ liệu lưu trữ toàn bộ thông tin của tổ
chức, doanh nghiệp như: Kho dữ liệu của Kho bạc nhà nước, Kho dữ liệu Ngân
sách nhà nước của Bộ Tài chính, Kho dữ liệu của Ngân hàng Nhà nước… Tuy
nhiên, việc khai thác dữ liệu từ kho tài nguyên đồ sộ này vẫn chưa đạt hiệu quả
mong muốn do chưa phát triển được công cụ phù hợp, chưa trích chọn và phân
tích được những dữ liệu xác đáng. Để đạt được những thông tin mong muốn từ
những nguồn dữ liệu lớn đòi hỏi phải có những đổi mới về mặt kỹ thuật.
Là một trong những doanh nghiệp đi đầu trong việc đẩy mạnh khai thác
và sử dụng thông tin hỗ trợ hoạt động quản lý điều hành và sản xuất kinh doanh,
Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) đã có một số phần mềm ứng
dụng hỗ trợ quản lý điều hành sản xuất kinh doanh như: Hệ thống Báo cáo
nhanh, Hệ thống báo cáo tài chính, Hệ thống quản lý tài sản, Hệ thống quản lý
dự án Internet trường học… Sự ra đời của “Hệ thống phần mềm báo cáo số liệu
và thông tin phục vụ quản lý, điều hành sản xuất kinh doanh tại Cơ quan Tập
đoàn” (Hệ thống VRS) đã giúp đáp ứng được nhu cầu báo cáo thông tin một
cách thống nhất, hệ thống, chính xác và cập nhật, thay thế hiệu quả cho phương
thức báo cáo, tổng hợp số liệu bằng giấy tờ. Đồng thời Hệ thống VRS được đưa
vào sử dụng đã cung cấp một khối lượng thông tin lớn khó có thể xử lý bằng
những phương pháp thủ công hiện có, từ đó đặt ra nhu cầu về một hệ thống phần
mềm có thể hỗ trợ xử lý hiệu quả những thông tin này.
- x -
Đề tài “Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu
SXKD cho VNPT” được phát triển nhằm mục đích hỗ trợ phân tích, tổng hợp và
xử lý kho dữ liệu, thông tin một cách tự động, chính xác và có thể được tích hợp
với các ứng dụng hỗ trợ quản lý sản xuất kinh doanh đang hoạt động khác. Kết
quả nghiên cứu của đề tài sẽ hỗ trợ tích cực cho công tác xử lý số liệu và dự báo
tình hình SXKD của Tập đoàn, đồng thời góp phần đẩy mạnh công tác ứng dụng
công nghệ thông tin vào các hoạt động quản lý điều hành sản xuất kinh doanh tại
Cơ quan Tập đoàn.
Hà Nội 10-2009
Người thực hiện đề tài
- 11 -
CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ
HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP
1. Tổng quan các phương pháp dự báo
Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công
nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ
thống thông tin tăng lên một cách nhanh chóng. Bên cạnh đó việc tin học hoá
một cách mạnh mẽ các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực
hoạt động khác đã tạo ra một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu CSDL
đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí..., trong đó có
nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn
tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động
chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ
thuật Khai phá dữ liệu đã ra đời và trở thành một lĩnh vực thời sự của nền CNTT
thế giới hiện nay.
1.1. Tổng quan về dự báo
* Dự báo là gì?
Dự báo là một nhận định về tương lai. Những nhận định này có thể có nền
tảng vững chắc hoặc có thể thiếu những nền tảng cơ sở thuyết phục; chúng có
thể chính xác hoặc không chính xác trong từng trường hợp cá biệt hoặc tính
trung bình; chúng có thể chi tiết hoặc không chi tiết; chúng có thể dựa trên mô
hình hoặc mang tính thông tin. Các dự báo được đưa ra bằng những phương
pháp với hệ hàng trăm phương trình ước lượng kinh tế lượng được kiểm định
chặt chẽ cho tới những phương pháp gần như không có một cơ sở nào để quan
sát được. Do vậy, dự báo là một chủ đề rất rộng. Trong lịch sử, hầu hết các
phương pháp mà con người nghĩ ra về hoạt động “tiên đoán” tương lai có thể
mang lại điều gì đều đã được thử nghiệm.
* Có thể dự báo những gì?
Bởi vì dự báo chỉ đơn giản là một nhận định về tương lai nên chúng ta có thể
dự báo bất kỳ điều gì, có thể là dự báo lạm phát chỉ số giá tiêu dùng của tháng
tới, dự báo thời tiết ngày mai, mực nước biển tính trung bình dâng cao thêm bao
nhiêu sau 20 năm nữa hoặc dân số của trái đất vào ngày hôm đó hay như giá trị
của chỉ số VN index tại thời điểm đầu năm 2010. Chúng ta không khẳng định
rằng các kết quả dự báo nhất thiết là hữu ích.
* Mức độ tin cậy của chúng ta đối với các dự báo là như thế nào?
- 12 -
Mức độ tin cậy của dự báo phụ thuộc vào cơ sở xây dựng dự báo này tốt đến
mức độ nào? Những dự báo đơn thuần sẽ không mang lại độ tin cậy cao, những
dự báo dựa trên các cách tiếp c