Xây dựng hệ thống hỗ trợ lựa chọn địa điểm đặt máy ATM tại thành phố Hải phòng bằng kỹ thuật phân cụm không gian

Thông tin địa lý bao gồm dữ liệu về bề mặt Trái đất và các diễn giải dữ liệu để con ngƣời dễ hiểu. Thông tin địa lý gồm hai loại dữ liệu: không gian (spatial data) và phi không gian (non-spatial data). Hệ thống thông tin Địa lý (Geograpgic Information System) đã bắt đầu đƣợc sử dụng rộng rãi ở các nƣớc phát triển từ nhiều thập niên qua, đây là một dạng ứng dụng công nghệ tin học (Information Technology) nhằm mô tả thế giới thực (Real world) mà loài ngƣời đang sống-tìm hiểu-khai thác. Với những tính năng ƣu việt, kỹ thuật GIS ngày nay đang đƣợc ứng dụng trong nhiều lãnh vực nghiên cứu và quản lý, đặc biệt trong quản lý và quy hoạch sử dụng-khai thác các nguồn tài nguyên một cách bền vững và hợp lý. Sự phát triển không ngừng của công nghệ thông tin đã đƣa tin học thâm nhập sâu vào nhiều lĩnh vực khoa học và đời sống, mở ra một giai đoạn mới trong quá trình phát triển khoa học. Hệ thống thông tin địa lý là một trong những ứng dụng rất có giá trị của công nghệ tin học trong ngành địa lý, điều tra cơ bản, quy hoạch đô thị và cảnh báo môi trƣờng. Khai phá dữ liệu không gian hay còn gọi là khai phá tri thức từ dữ liệu không gian là một lĩnh vực đƣợc áp dụng rộng rãi. Từ dữ liệu đầu vào bao gồm một khối lƣợng dữ liệu không gian khổng lồ đƣợc thu thập từ nhiều ứng dụng khác nhau, chẳng hạn từ thiết bị viễn thám đến hệ thống thông tin địa lý, từ bản đồ số, từ các hệ thống quản lý và đánh giá môi trƣờng, Việc phân tích và khai thác lƣợng thông tin khổng lồ này ngày càng thách thức và khó khăn, đòi hỏi phải có các nghiên cứu sâu hơn để tìm ra các kỹ thuật khai phá dữ liệu hiệu quả hơn

pdf93 trang | Chia sẻ: thientruc20 | Lượt xem: 394 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Xây dựng hệ thống hỗ trợ lựa chọn địa điểm đặt máy ATM tại thành phố Hải phòng bằng kỹ thuật phân cụm không gian, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG --------------------------------------------- ISO 9001:2008 TRẦN THỊ HẰNG NGA LUẬN VĂN THẠC SĨ NGÀNH HỆ THỐNG THÔNG TIN HẢI PHÒNG, 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG TRẦN THỊ HẰNG NGA XÂY DỰNG HỆ THỐNG HỖ TRỢ LỰA CHỌN ĐỊA ĐIỂM ĐẶT MÁY ATM TẠI THÀNH PHỐ HẢI PHÒNG BẰNG KỸ THUẬT PHÂN CỤM KHÔNG GIAN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60 48 01 04 NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. ĐẶNG VĂN ĐỨC MỤC LỤC MỤC LỤC ............................................................................................................... 1 MỘT SỐ THUẬT NGỮ VIẾT TẮT ...................................................................... 3 DANH MỤC HÌNH VẼ, BẢNG DỮ LIỆU ........................................................... 4 LỜI CÁM ƠN ......................................................................................................... 6 LỜI CAM ĐOAN ................................................................................................... 7 MỞ ĐẦU ................................................................................................................. 8 CHƢƠNG 1:TỔNG QUAN VỀ HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS) VÀ PHÂN CỤM DỮ LIỆU ........................................................................................... 11 1.1. Một số vấn đề cơ bản của Hệ thông tin địa lý (GIS) ........................ 11 1.1.1. Một số định nghĩa hệ thống thông tin địa lý ............................................. 11 1.1.2. Các thành phần cơ bản của hệ thống thông tin địa lý ............................... 13 1.1.3. Biểu diễn dữ liệu địa lý ............................................................................. 15 1.1.4. Mô hình biểu diễn dữ liệu không gian ...................................................... 19 1.1.5. Tìm kiếm và các kỹ thuật phân tích dữ liệu không gian trong GIS .......... 24 1.1.5.1. Tìm kiếm theo vùng ............................................................................. 24 1.1.5.2. Tìm kiếm lân ....................................................................................... 25 1.1.5.3. Phân tích đƣờng đi và dẫn đƣờng ....................................................... 25 1.1.5.4. Tìm kiếm hiện tƣợng và bài toán chồng phủ ....................................... 25 1.1.5.5. Nắn chỉnh dữ liệu không gian .............................................................. 28 1.1.6. Ứng dụng của hệ thông tin địa lý ............................................................. 29 1.1.6.1. Các lĩnh vực liên quan với hệ thống thông tin địa lý ........................... 29 1.1.6.2. Những bài toán của GIS ....................................................................... 30 1.2. Khái quát về khai phá dữ liệu và phân cụm dữ liệu ................................. 31 1.2.1. Khái quát về khai phá dữ liệu ................................................................... 31 1.2.1.1. Tiến trình khai phá dữ liệu ................................................................... 32 1.2.1.2. Các mô hình khai phá dữ liệu .............................................................. 33 1.2.1.3. Các hƣớng tiếp cận và kỹ thuật sử dụng trong khai phá dữ liệu ......... 34 1.2.1.4. Các dạng dữ liệu có thể khai phá ......................................................... 35 1.2.1.5. Các ứng dụng của khai phá dữ liệu ...................................................... 36 1.2.2. Phân cụm dữ liệu ....................................................................................... 37 1.2.2.1. Phân cụm phân hoạch .......................................................................... 37 1.2.2.2. Phân cụm phân cấp .............................................................................. 38 1.2.2.3 Phân cụm dựa trên mật độ .................................................................... 39 1.2.2.4 Phân cụm dựa trên lƣới ........................................................................ 40 1.3 Tổng kết chƣơng ............................................................................................. 41 CHƢƠNG 2: MỘT SỐ THUẬT TOÁN LIÊN QUAN ........................................ 43 2.1 Thuật toán phân cụm dữ liệu không gian ................................................... 43 2.1.1 Thuật toán K-means ................................................................................... 43 2.1.2. Thuật toán toán phân cụm dựa trên mật độ ............................................... 45 2.2 Thuật toán xếp chồng bản đồ ....................................................................... 54 2.2.1. Khái quát về xếp chồng bản đồ ............................................................... 54 2.2.2. Các phƣơng pháp trong xếp chồng bản đồ .............................................. 56 2.2.2.1. Phƣơng pháp Raster Overlay ............................................................... 56 2.2.2.2. Phƣơng pháp Vector Overlay .............................................................. 57 2.2.3. Một số phép toán cơ bản trong Overlay .................................................. 58 2.2.3.1. Phép hợp (Union) ................................................................................. 58 2.2.3.2. Phép giao (Intersect) ............................................................................ 59 2.2.3.3. Phép đồng nhất (Indentity) .................................................................. 59 2.2.4. Một số thuật toán cơ bản xếp chồng bản đồ ............................................. 60 2.2.4.1. Thuật toán giao hai đoạn thẳng (Bentley – Ottmann) ......................... 60 2.2.4.1.1. Ý tƣởng của thuật toán ................................................................. 60 2.2.4.1.2. Cấu trúc dữ liệu ............................................................................ 61 2.2.4.1.3. Chi tiết thuật toán BO ................................................................... 62 2.2.4.1.4. Phân tích thuật toán ...................................................................... 63 2.2.4.1.5. Kết luận thuật toán ........................................................................ 64 2.2.4.2. Thuật toán giao của hai đa giác ........................................................... 64 2.2.4.2.1. Chi tiết thuật toán ......................................................................... 64 2.2.4.2.2. Phân tích và cài đặt thuật toán ...................................................... 67 2.2.4.2.3. Kết luận thuật toán ........................................................................ 69 2.3. Tổng kết chƣơng ........................................................................................... 70 CHƢƠNG 3. XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM............................... 71 3.1. Giới thiệu về bài toán xác định vị trí đặt máy ATM tại thành phố Hải Phòng .................................................................................... 71 3.2. Nguồn dữ liệu đầu vào và phạm vi bài toán .............................................. 73 3.3. Phƣơng pháp kỹ thuật giải quyết bài toán ................................................ 74 3.4. Công nghệ sử dụng ....................................................................................... 75 3.5. Phân tích thiết kế hệ thống .......................................................................... 75 3.6. Đánh giá kết quả thu đƣợc .......................................................................... 82 KẾT LUẬN .......................................................................................................... 86 TÀI LIỆU THAM KHẢO .................................................................................. 88 MỘT SỐ THUẬT NGỮ VIẾT TẮT CSDL Cơ sở dữ liệu GIS Hệ thông tin địa lý KDD Khám phá tri thức từ cơ sở dữ liệu KPDL Khai phá dữ liệu OLAP Xử lý phân tích dữ liệu trực tuyến DANH MỤC HÌNH VẼ Hình 1.1: Thành tố của GIS ................................................................................. 13 Hình 1.2: Các thành phần thiết bị cơ bản của GIS ................................................ 13 Hình 1.3: Mối quan hệ giữa các thành phần của GIS ........................................... 15 Hình 1.4: Ví dụ biểu diễn vị trí nƣớc bị ô nhiễm .................................................. 17 Hình 1.5: Ví dụ biểu diễn đƣờng .......................................................................... 17 Hình 1.6: Ví dụ biểu diễn khu vực hành chính ..................................................... 18 Hình 1.7: Biểu diễn vector của đối tƣợng địa lý ................................................... 22 Hình 1.8: Biểu diễn thế giới bằng mô hình raster ................................................. 23 Hình 1.9: Chồng phủ đa giác................................................................................. 27 Hình 1.10: Tiến trình xếp chồng đa giác ............................................................... 28 Hình 1.11: Tiến trình khám phá tri thức từ cơ sở dữ liệu ..................................... 32 Hình 1.12: Kiến trúc điển hình của một hệ khai phá dữ liệu ................................ 33 Hình 1.13: Phân cụm phân cấp ............................................................................. 39 Hình 1.14: Phân cụm dựa theo lƣới vùng ............................................................. 40 Hình 2.1: Minh họa thuật toán k-means ................................................................ 44 Hình 2.2: Kề mật độ trực tiếp ................................................................................ 46 Hình 2.3: Kề mật độ .............................................................................................. 46 Hình 2.4: Kết nối theo mật độ ............................................................................... 46 Hình 2.5: Đồ thị đã sắp xếp 4-dist đối với CSDL mẫu 3 ..................................... 51 Hình 2.6: Đồ thị k-dist và một phƣơng pháp ƣớc lƣợng tham số Eps .................. 52 Hình 2.7: Đồ thị K-dist của lớp bản đồ “Hệ thống siêu thị” ................................. 52 Hình 2.8: Đồ thị K-dist của lớp bản đồ “Ngân hàng” ........................................... 53 Hình 2.9: Các cụm phát hiện đƣợc bởi CLARANS và DBSCAN ........................ 53 Hình 2.10: Các cụm đƣợc phát hiện bởi DBSCAN, K-Means, CLARANS ....... 54 Hình 2.11 Nguyên lý khi xếp chồng các bản đồ .................................................. 55 Hình 2.12: Việc xếp chồng các bản đồ theo phƣơng pháp cộng.......................... 55 Hình 2.13: Một thí dụ trong việc xếp chồng các bản đồ ....................................... 56 Hình 2.14 Xếp chồng 2 lớp bản đồ ...................................................................... 56 Hình 2.15 Minh họa Raster Overlay .................................................................... 57 Hình 2.16. Xếp chồng điểm và đa giác ................................................................ 58 Hình 2.17. Xếp chồng đoạn và đa giác ................................................................ 58 Hình 2.18. Xếp chồng đa giác và đa giác ............................................................. 58 Hình 2.19. Phép hợp trong Overlay ..................................................................... 59 Hình 2.20. Phép giao trong Overlay .................................................................... 59 Hình 2.21. Phép đồng nhất trong Overlay .......................................................... 59 Hình 2.22. Minh hoạ thuật toán quét dòng .......................................................... 60 Hình 2.23. Cấu trúc cây nhị phân ......................................................................... 62 Hình 3.1: Giao diện chƣơng trình ......................................................................... 79 Hình 3.2: Phân cụm lớp dữ liệu "Cơ quan" trong nội thành Hải Phòng ............... 79 Hình 3.3: Phân cụm lớp dữ liệu "Khách sạn" ....................................................... 80 Hình 3.4: Phân cụm lớp dữ liệu "Nhà hàng" ......................................................... 80 Hình 3.5: Phân cụm lớp dữ liệu "Trƣờng học" ..................................................... 81 Hình 3.6: Hình ảnh chồng phủ 4 lớp dữ liệu đã phân cụm là khu vực tiềm năng đặt thêm máy ATM ..................................................................................................... 81 Hình 3.7: Kết quả phân cụm K-means đối với dữ liệu tự tạo ............................... 82 Hình 3.8: Khả năng phát hiện nhiễu và cụm có hình dạng bất kỳ của K-means và DBSCAN ............................................................................................................... 83 Hình 3.9: Đồ thị so thời gian thực hiện phân cụm của các thuật toán K-measn, DBSCAN với cùng một tập dữ liệu đầu vào ......................................................... 84 Hình 3.10: Đồ thị thời gian thực hiện phân cụm của các thuật toán K-measn, DBSCAN trên các tập dữ liệu khác nhau.............................................................. 85 DANH MỤC BẢNG Bảng 3.1: So sánh tổng quan các thuật toán K-means, DBSCAN và DBRS ....... 82 Bảng 3.2: Kết quả so sánh thời gian thực hiện phân cụm của các thuật toán K- means, DBSCAN với cùng một tập dữ liệu đầu vào ............................................ 83 Bảng 3.3: Kết quả so sánh thời gian thực hiện phân cụm của các thuật toán K- means, DBSCAN trên các tập dữ liệu khác nhau ................................................. 84 LỜI CẢM ƠN Lời đầu tiên, em xin đƣợc gửi lời cảm ơn chân thành và sâu sắc tới PGS.TS Đặng Văn Đức, ngƣời thầy đã cho em những định hƣớng và ý kiến quý báu trong suốt quá trình hoàn thành luận văn. Em xin chân thành cảm ơn các thầy, cô trong trƣờng Đại học Dân lập Hải Phòng và Viện Công nghệ Thông tin - Viện Hàn lâm Khoa học Việt Nam đã giảng dạy, truyền đạt cho em những kiến thức quý báu trong thời gian qua. Tôi xin đƣợc gửi lời cảm ơn sâu sắc tới gia đình, bạn bè và đồng nghiệp những ngƣời luôn kịp thời động viên, khích lệ giúp đỡ tôi vƣợt qua những khó khăn để tôi có thể hoàn thành nhiệm vụ của mình. Do còn hạn chế về nhiều mặt nên luận văn không thể tránh khỏi những hạn chế, thiếu sót. Rất mong nhận đƣợc sự chỉ dẫn, góp ý của Thầy, cô và các bạn./. Xin trân trọng cảm ơn! Hải Phòng, tháng 11 năm 2016 Học viên Phú Thị Quyên LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung bản luận văn “Xây dựng hệ thống tìm kiếm âm thanh theo nội dung dựa trên các đặc trưng miền tần số” là do tôi tự sƣu tầm, tra cứu và tìm hiểu theo tài liệu tham khảo và làm theo hƣớng dẫn của ngƣời hƣớng dẫn khoa học. Nội dung bản luận văn chƣa từng đƣợc công bố hay xuất bản dƣới bất kỳ hình thức nào và cũng không đƣợc sao chép từ bất kỳ một công trình nghiên cứu nào. Các nguồn lấy từ tài liệu tham khảo đều đƣợc chú thích rõ ràng, đúng quy định. Xin trân trọng cảm ơn! Hải Phòng, tháng 11 năm 2016 Học viên Phú Thị Quyên MỞ ĐẦU Thông tin địa lý bao gồm dữ liệu về bề mặt Trái đất và các diễn giải dữ liệu để con ngƣời dễ hiểu. Thông tin địa lý gồm hai loại dữ liệu: không gian (spatial data) và phi không gian (non-spatial data). Hệ thống thông tin Địa lý (Geograpgic Information System) đã bắt đầu đƣợc sử dụng rộng rãi ở các nƣớc phát triển từ nhiều thập niên qua, đây là một dạng ứng dụng công nghệ tin học (Information Technology) nhằm mô tả thế giới thực (Real world) mà loài ngƣời đang sống-tìm hiểu-khai thác. Với những tính năng ƣu việt, kỹ thuật GIS ngày nay đang đƣợc ứng dụng trong nhiều lãnh vực nghiên cứu và quản lý, đặc biệt trong quản lý và quy hoạch sử dụng-khai thác các nguồn tài nguyên một cách bền vững và hợp lý. Sự phát triển không ngừng của công nghệ thông tin đã đƣa tin học thâm nhập sâu vào nhiều lĩnh vực khoa học và đời sống, mở ra một giai đoạn mới trong quá trình phát triển khoa học. Hệ thống thông tin địa lý là một trong những ứng dụng rất có giá trị của công nghệ tin học trong ngành địa lý, điều tra cơ bản, quy hoạch đô thị và cảnh báo môi trƣờng. Khai phá dữ liệu không gian hay còn gọi là khai phá tri thức từ dữ liệu không gian là một lĩnh vực đƣợc áp dụng rộng rãi. Từ dữ liệu đầu vào bao gồm một khối lƣợng dữ liệu không gian khổng lồ đƣợc thu thập từ nhiều ứng dụng khác nhau, chẳng hạn từ thiết bị viễn thám đến hệ thống thông tin địa lý, từ bản đồ số, từ các hệ thống quản lý và đánh giá môi trƣờng, Việc phân tích và khai thác lƣợng thông tin khổng lồ này ngày càng thách thức và khó khăn, đòi hỏi phải có các nghiên cứu sâu hơn để tìm ra các kỹ thuật khai phá dữ liệu hiệu quả hơn. Khai phá dữ liệu không gian đƣợc sử dụng nhiều trong các hệ thống thông tin địa lý (GIS), viễn thám, khai phá dữ liệu ảnh chẳng hạn ảnh y học, rô bốt dẫn đƣờng, Khám phá tri thức từ dữ liệu không gian có thể đƣợc thực hiện dƣới nhiều hình thức khác nhau nhƣ sử dụng các quy tắc đặc trƣng và quyết định, trích rút và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian, Các bài toán truyền thống của một hệ thông tin địa lý có thể trả lời các câu hỏi kiểu nhƣ: - Những con phố nào dẫn đến siêu thị Big C Hải Phòng ? - Những căn nhà nào nằm trong vùng quy hoạch mở rộng tại thành phố Hải Phòng? Khai phá dữ liệu không gian có thể giúp trả lời cho các câu hỏi dạng: - Xu hƣớng của các dòng chảy, các đứt gãy địa tầng ? - Nên bố trí các trạm tiếp sóng điện thoại di động nhƣ thế nào? - Những vị trí nào là tối ƣu để đặt các máy ATM, xăng dầu, nhà hàng, siêu thị? Một trong những bài toán có ý nghĩa thực tế cao là bài toán xác định vị trí tối ƣu cho việc đặt các máy ATM của các ngân hàng. Trong những năm gần đây, cùng với sự phát triển của xã hội, việc sử dụng thẻ ATM tại Việt Nam rất phổ biến. Thẻ ATM thực chất nhƣ một loại ví điện tử cho phép ngƣời sử dụng chỉ cần mang theo một chiếc thẻ gọn nhẹ, thay vì rất nhiều tiền mặt. Thẻ ATM không những cho phép ngƣời dùng rút tiền khi cần tiền mặt, còn cho phép thực hiện nhiều giao dịch khác tại máy ATM hoặc điện thoại, chẳng hạn chuyển khoản, thanh toán tàu xe ... Thẻ ATM còn có thể dùng để thanh toán tại các nhà hàng, siêu thị, trung tâm mua sắm, các điểm bán hàng có đặt ATM. Ngoài việc tiện lợi trong sử dụng ra, chủ thẻ còn đƣợc hƣởng lãi suất từ tài khoản tiền gửi. Xuất phát từ nhu cầu thực tế đó, luận văn giới thiệu tổng quan về GIS và phân cụm dữ liệu, giới thiệu một số thuật toán phân cụm dữ liệu không gian và thuật toán xếp chồng bản đồ đƣợc sử dụng hiện nay. Trên cơ sở đó cài đặt thử nghiệm một ứng dụng sử dụng kỹ thuật phân cụm dữ liệu địa lý và xếp chồng bản đồ, trong đó khai thác thông tin địa lý của các đối tƣợng địa lý có tầm ảnh hƣởng quan trọng đến vị trí đặt các máy ATM nhƣ: các siêu thị, trung tâm mua sắm, nhà hàng, khách sạn, bệnh viện, trƣờng học, ... để hỗ trợ giải quyết bài toán hỗ trợ tìm vị trí tối ƣu đặt các máy ATM trong khu vực nội thành thành phố Hải Phòng. Luận văn đƣợc chia thành các chƣơng mục sau: - Mở đầu - Chƣơng 1: Tổng quan về Hệ thông tin Địa lý (GIS) và phân cụm dữ liệu. - Chƣơng 2: Một số thuật toán liên quan - Chƣơng 3: Xây dựng chƣơng trình thử nghiệm - Kết luận CHƢƠNG 1. TỔNG QUAN VỀ HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS) VÀ PHÂN CỤM DỮ LIỆU 1.1 Một số vấn đề cơ bản của Hệ thông tin địa lý (GIS) Địa lý (geography) đƣợc hình thành từ hai khái niệm: trái đất (geo-earth) và tiến trình mô tả (graphy). Nhƣ vậy, địa lý đƣợc xem nhƣ tiến trình mô tả trái đất. Là lĩnh vực khoa học nghiên cứu về các vùng đất, địa hình, dân cƣ và các hiện tƣợng trên Trái Đất . Khi mô tả Trái đất, các nhà địa lý luôn đề cập đến quan hệ không gian (spatial relationship) của các đối tƣợng trong