Tóm tắt luận văn Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan nhà nước Lào

Ở Lào, sự liên kết xã hội ngày càng trở nên chặt chẽ hơn, sựphát triển của mỗi ngành không thểthiếu thông tin về các ngành khác. Hơn nữa sựphát triển của các tổchức xã hội không còn tập trung trong phạm vi thành phố, hoặc một sốtỉnh thành, mà phân bố trên diện rộng, về mặt địa lý trải dài trên nhiều quốc gia trên thếgiới. Thực tếcác hệthống tập trung đã bộc lộnhững nhược điểm nhưviệc tăng khảnăng lưu trữthông tin là khó khăn và bịgiới hạn bởi khảnăng tối đa của một máy cụthể, khảnăng phục vụkhông đảm bảo khi sốlượng người dùng tăng lên đáng kể. Cơsởdữliệu bịngưng trệphục vụkhi có sựcốxảy ra, có nghĩa là độsẵn sàng phục vụcủa cơsởdữ liệu không còn nữa, khảnăng tính toán của các máy tính đơn lẻ đang triến dần tới giới hạn vật lý, tính đa quốc gia của các tổ chức kinh tếxã hội làm cho tổchức dữliệu tập trung đang gặp nhiều khó khăn trong lưu trữcũng nhưxửlý. Những nhược điểm này đã được khắc phục trong các hệcơ sởdữliệu phân tán, vì việc quản lý thông tin ởkhắp mọi nơi là một yêu cầu cấp thiết đối với nhà quản lý cơsởdữliệu. Ví dụ như bộ máy quản lý nhà nước sẽ quản lý dữ liệu nằm ở các tỉnh, trong ngân hàng khi gửi tiền một nơi sẽrút tiền ởcác nơi khác, trong kinh doanh có thể áp dụng vào việc quản lý các doanh nghiệp vềdoanh sốvà doanh thu. Những sản phẩm của các hệ thống phân tán đã xuất hiện nhiều trên thị trường và từng bước chứng minh tính ưu việt của nó hơn hẳn các hệ 2 thống tập trung truyền thống. Trên thực tế, các hệthống phân tán đã thay thếdần các hệthống tập trung. Nhu cầu thu thập, lưu trữ, xử lý và trao đổi thông tin của các hoạt động xã hội và kinh tếngày càng cao. Yêu cầu tổ chức các hệxửlý phân tán là yêu cầu bức thiết. Vậy, đểhiểu thêm vềvấn đềnày em chọn đềtài “Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơquan Nhà nước Lào”.

pdf27 trang | Chia sẻ: oanh_nt | Lượt xem: 1736 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Tóm tắt luận văn Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan nhà nước Lào, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------------- KHOUANETHEVA PHOLSENA NGHIÊN CỨU CÁC GIẢI PHÁP CÔNG NGHỆ PHÂN TÁN DỮ LIỆU VÀ ỨNG DỤNG QUẢN LÝ NHÂN SỰ PHÂN TÁN TRONG CƠ QUAN NHÀ NƯỚC LÀO Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ HÀ NỘI – 2013 1 MỞ ĐẦU Ở Lào, s ự liên k ết xã h ội ngày càng tr ở nên ch ặt ch ẽ hơn, s ự phát tri ển c ủa m ỗi ngành không th ể thi ếu thông tin v ề các ngành khác. H ơn n ữa s ự phát tri ển c ủa các t ổ ch ức xã h ội không còn t ập trung trong ph ạm vi thành ph ố, ho ặc m ột s ố tỉnh thành, mà phân b ố trên di ện r ộng, v ề mặt địa lý tr ải dài trên nhi ều qu ốc gia trên th ế gi ới. Th ực t ế các h ệ th ống t ập trung đã bộc l ộ nh ững nh ược điểm nh ư vi ệc t ăng kh ả năng l ưu tr ữ thông tin là khó kh ăn và b ị gi ới h ạn b ởi kh ả năng t ối đa c ủa m ột máy cụ th ể, kh ả năng ph ục v ụ không đảm b ảo khi s ố lượng ng ười dùng t ăng lên đáng k ể. C ơ s ở dữ li ệu b ị ng ưng tr ệ ph ục v ụ khi có s ự cố xảy ra, có ngh ĩa là độ sẵn sàng ph ục v ụ của c ơ s ở dữ li ệu không còn n ữa, kh ả năng tính toán c ủa các máy tính đơ n lẻ đang tri ến d ần t ới gi ới h ạn v ật lý, tính đa qu ốc gia c ủa các t ổ ch ức kinh t ế xã h ội làm cho t ổ ch ức d ữ li ệu t ập trung đang g ặp nhi ều khó kh ăn trong l ưu tr ữ cũng nh ư x ử lý. Nh ững nh ược điểm này đã được kh ắc ph ục trong các h ệ c ơ sở d ữ li ệu phân tán, vì vi ệc qu ản lý thông tin ở kh ắp m ọi n ơi là một yêu c ầu c ấp thi ết đố i v ới nhà qu ản lý c ơ s ở d ữ li ệu. Ví d ụ nh ư b ộ máy qu ản lý nhà n ước s ẽ qu ản lý d ữ li ệu n ằm ở các tỉnh, trong ngân hàng khi g ửi ti ền m ột n ơi s ẽ rút ti ền ở các n ơi khác, trong kinh doanh có th ể áp d ụng vào vi ệc qu ản lý các doanh nghi ệp v ề doanh s ố và doanh thu. Nh ững s ản ph ẩm c ủa các h ệ th ống phân tán đã xu ất hi ện nhi ều trên th ị tr ường và từng b ước ch ứng minh tính ưu vi ệt c ủa nó h ơn h ẳn các h ệ 2 th ống t ập trung truy ền th ống. Trên th ực t ế, các h ệ th ống phân tán đã thay thế d ần các h ệ th ống t ập trung. Nhu c ầu thu th ập, l ưu tr ữ, x ử lý và trao đổi thông tin của các ho ạt độ ng xã h ội và kinh t ế ngày càng cao. Yêu c ầu t ổ ch ức các h ệ x ử lý phân tán là yêu c ầu b ức thi ết. Vậy, để hi ểu thêm v ề v ấn đề này em ch ọn đề tài “Nghiên c ứu các gi ải pháp công ngh ệ phân tán d ữ li ệu và ứng d ụng qu ản lý nhân s ự phân tán trong c ơ quan Nhà n ước Lào ”. Cấu trúc c ủa lu ận v ăn được t ổ ch ức thành 3 ch ươ ng: • Ch ươ ng 1, tôi trình bày các v ấn đề liên quan đến c ơ s ở dữ li ệu phân tán, đặ c bi ệt làm rõ ưu và nh ược điểm c ủa cơ s ở d ữ li ệu phân tán, các mô hình có th ể tri ển khai h ệ th ống phân tán, các lo ại truy xu ất, các m ức trong su ốt của c ơ s ở d ữ li ệu phân tán. • Ch ươ ng 2, trình bày các chi ến l ược phân tán, các ph ươ ng pháp thi ết k ế, các v ấn đề thi ết k ế, các ph ươ ng pháp phân m ảnh, phân b ố cho các m ảnh. • Ch ươ ng 3, trình bày v ề bài toán, các mô hình và các yêu c ầu qu ản lý c ủa h ệ th ống qu ản lý nhân s ự trong Qu ốc H ội n ước C ộng hòa Dân ch ủ Nhân dân Lào ; trình bày quy trình thi ết k ế c ơ s ở d ữ li ệu phân tán và tri ển khai th ử nghi ệm. 3 CH ƯƠ NG 1 TỔNG QUAN V Ề CƠ S Ở DỮ LI ỆU PHÂN TÁN 1.1 Khái ni ệm và định ngh ĩa c ơ s ở d ữ li ệu phân tán 1.1.1 Mở đầ u Hệ cơ s ở dữ li ệu phân tán được xây d ựng d ựa trên s ự hợp nh ất c ủa hai h ướng ti ếp c ận quá trình x ử lý d ữ li ệu, là lý thuy ết các h ệ CSDL và công ngh ệ mạng máy tính. Cung cấp đa d ạng các lo ại hình d ịch v ụ và các d ịch v ụ đa ph ươ ng ti ện cho ng ười s ử dụng. Kết nối các máy tính thành mạng v ới m ục tiêu chia s ẻ tài nguyên thông tin chung cho nhi ều ng ười cùng s ử dụng, có hi ệu qu ả tài nguyên thông tin, nâng cao kh ả năng tích h ợp và trao đổi các lo ại d ữ li ệu gi ữa các thành ph ần trên m ạng. 1.1.2 Khái ni ệm x ử lý phân tán Có hai khái ni ệm x ử lý phân tán liên quan v ới nhau. • Khái ni ệm vi ệc tính toán trên Client/Server. Ứng d ụng đượ c chia ra thành hai ph ần, Server và Client và đượ c vận hành ở hai n ơi. Dữ li ệu được phép truy nh ập tr ực ti ếp và xử lý d ữ li ệu trên Server và Client. • Khái ni ệm vi ệc th ực hi ện các giao d ịch được x ử lý ph ức tạp trên nhi ều h ệ th ống. Không gian nh ớ và b ộ x ử lý của nhi ều máy cùng chia nhau giao d ịch x ử lý. Máy trung tâm s ẽ giám sát và qu ản lý các ti ến trình. Hàng nghìn máy cùng x ử lý m ột giao d ịch trên m ạng Internet. 4 1.2.2 Gi ảm chi phí truy ền thông 1.2.3 Hi ệu qu ả công vi ệc Sự tồn t ại m ột s ố hệ th ống x ử lý điạ ph ươ ng đạt được thông quan vi ệc x ử lý song song. Có thu ận l ợi trong vi ệc phân tích d ữ li ệu ph ản ánh điều ki ện ph ụ thu ộc c ủa các ứng d ụng, cực đại hoá tính địa ph ươ ng c ủa ứng d ụng. Trao đổi thông tin qua l ại gi ữa các b ộ xử lý có chi phí cức ti ểu. Công vi ệc x ử lý được phân chia cho các b ộ xử lý khác nhau và tránh được các tắc ngh ẽn thông tin trên m ạng ho ặc các dịch v ụ chung c ủa toàn h ệ th ống. 1.2.4 Độ tin c ậy và tính s ẵn sàng Cho phép truy nh ập có độ tin c ậy và tính s ẵn sàng cao hơn so v ới truy nh ập t ập trung. Đòi h ỏi k ỹ thu ật ph ức t ạp. Lỗi xu ất hi ện trong m ột c ơ s ở dữ li ệu phân tán có th ể xảy ra nhi ều hơn, vì s ố các thành ph ần c ấu thành l ớn h ơn, nh ưng ảnh h ưởng của l ỗi ch ỉ ảnh h ưởng t ới các ứng d ụng s ử dụng các v ị trí-site lỗi. S ự hỏng hóc c ủa toàn h ệ th ống ít khi x ảy ra. Công ngh ệ cơ s ở dữ li ệu phân tán là s ự kết h ợp gi ữa hai v ấn đề phân tán và h ợp nh ất: • Phân tán: phân tán d ữ li ệu trên các site c ủa m ạng • Hợp nh ất: h ợp nh ất v ề mặt logic các d ữ li ệu phân tán sao cho chúng xu ất hi ện v ới ng ười s ử dụng gi ống nh ư với c ơ s ở dữ li ệu đơ n l ẻ duy nh ất. Công ngh ệ cơ s ở dữ li ệu phân tán được phát tri ển d ủa trên s ự phát tri ển c ủa k ỹ thu ật tính toán, k ỹ thu ật truy ền thông và m ạng máy tính. 5 1.3 Đặc tr ưng c ơ b ản c ủa c ơ s ở d ữ li ệu phân tán Ph ần này so sánh c ơ s ở dữ li ệu phân tán v ới c ơ s ở dữ li ệu t ập trung ở một s ố đặc điểm: điều khi ển t ập trung, s ự độc lập d ữ li ệu, s ự gi ảm d ư th ừa d ữ li ệu, các c ấu trúc v ật lý ph ức tạp để truy xu ất hi ệu qu ả. 1.3.1 Điểu khi ển t ập trung Toàn b ộ dữ li ệu được t ập trung l ại nh ằm để tránh s ự dư th ừa d ữ li ệu, đảm b ảo được tính độc l ập c ủa d ữ li ệu. Dữ li ệu được qu ản lý t ập trung b ởi ng ười qu ản tr ị cơ s ở dữ li ệu. Ch ức n ăng c ơ b ản là b ảo đảm s ự an toàn c ủa d ữ li ệu. Vấn đề điều khi ển t ập trung không được nh ấn m ạnh. Sự điều khi ển được th ực hi ện theo m ột c ấu trúc điều khi ển phân c ấp bao g ồm hai lo ại ng ười qu ản tr ị cơ s ở dữ li ệu: • Ng ười qu ản tr ị cơ s ở dữ li ệu toàn c ục. • Ng ười qu ản tr ị cơ s ở dữ li ệu địa ph ươ ng-cục b ộ. Người qu ản tr ị cơ s ở dữ li ệu c ục b ộ cần ph ải có nh ững quy ền độc l ập riêng v ề cơ s ở dữ li ệu c ục b ộ của mình mà ng ười qu ản tr ị cơ s ở dữ li ệu toàn c ục hoàn toàn không có nh ững quy ền này. Đặc điểm này được g ọi là s ự độc l ập v ị trí. T ừ sự độc l ập v ị trí hoàn toàn đến s ự điều khi ển t ập trung hoàn toàn. 1.3.2 Độc l ập d ữ li ệu Là t ổ ch ức l ưu tr ữ dữ li ệu là trong su ốt đối v ới ng ười lập trình ứng d ụng. Ưu điểm là các ch ươ ng trình không b ị ảnh hưởng b ởi nh ững thay đổi v ề tổ ch ức l ưu tr ữ vật lý c ủa d ữ li ệu. Tính đúng đắn c ủa các ch ươ ng trình ứng d ụng không b ị ảnh h ưởng b ởi s ự di chuy ển d ữ li ệu t ừ một v ị trí này đến m ột v ị trí khác. 6 1.3.3 Gi ảm d ư th ừa dữ li ệu Các cơ s ở dữ li ệu phân tán được dư th ừa d ữ li ệu vì: • Làm t ăng tính c ục b ộ của các ứng d ụng. Các ứng dụng c ục b ộ được th ực hi ện nhanh h ơn, không c ần ph ải truy xu ất d ữ li ệu t ừ xa. • Làm t ăng tính s ẵn sàng c ủa h ệ th ống ứng d ụng, n ếu dữ li ệu t ại v ị trí bị hỏng được nhân b ản t ại các v ị trí khác. 1.3.4 Độ tin c ậy qua các giao d ịch phân tán Hệ qu ản tr ị cơ s ở dữ li ệu phân tán c ải thi ện độ tin c ậy qua các giao d ịch phân tán, vì các thành ph ần được nhân b ản hạn ch ế được các v ị trí l ỗi riêng l ẻ. L ỗi c ủa tr ạm riêng, ho ặc l ỗi của truy ền thông làm cho m ột ho ặc nhi ều tr ạm m ất liên l ạc, không đủ để phá v ỡ toàn b ộ hệ th ống. Nếu bi ết cách h ỗ tr ợ cho các giao d ịch phân tán và các giao th ức ứng d ụng, thì ng ười s ử dụng v ẫn có th ể truy nh ập được t ới ph ần khác trong cơ s ở dữ li ệu phân tán. 1.3.5 C ải ti ến hi ệu n ăng Được c ải ti ến d ựa vào hai điểm: a) H ệ qu ản tr ị cơ s ở dữ li ệu phân tán có kh ả năng phân mảnh cơ s ở dữ li ệu khái ni ệm và cho phép c ục b ộ hoá d ữ li ệu. b) Tính song song c ủa các h ệ th ống phân tán có thể được khai thác để th ực hi ện song song liên truy v ấn và nội b ộ. 1.3.6 D ễ dàng m ở r ộng h ệ th ống Th ực hi ện b ằng cách t ăng kh ả năng l ưu tr ữ và x ử lý c ủa mạng. Kh ả năng m ở rộng h ệ th ống d ễ dàng mang tính kinh t ế, chi phí gi ảm. 7 1.3.7 Tính toàn v ẹn, ph ục h ồi và điều khi ển t ươ ng tranh Các ph ươ ng pháp cung c ấp các giao tác. M ỗi m ột giao tác là m ột nguyên t ố. Giao tác nguyên t ố là ph ươ ng ti ện để đạt được tính toàn v ẹn d ữ li ệu. Sự ph ục h ồi liên quan đến v ấn đề đảm b ảo tính nguyên tố của giao tác khi có sự sự cố về mặt k ỹ thu ật. Điều khi ển t ươ ng tranh nh ằm đảm b ảo tính nguyên t ố của giao tác khi xu ất hi ện s ự tươ ng tranh giao tác. 1.4 Các mô hình c ơ s ở d ữ li ệu phân tán Mọi ứng d ụng CSDL g ồm 3 ph ần:  Thành ph ần x ử lý ứng d ụng  Thành ph ần ph ần m ềm CSDL  CSDL (database) 1.4.1 Mô hình CSDL Client/Server Cơ s ở dữ li ệu được cài đặt trên Server, phần m ềm c ơ sở dữ li ệu trên Server s ẽ truy nh ập vào c ơ s ở dữ li ệu và x ử lý theo yêu c ầu và g ửi tr ả kết qu ả cho máy Client. Application Network Tow er System Application Databas Application Hình 1.1 Mô hình Client-Server 8  Server – điều khi ển, l ưu tr ữ CSDL, x ử lý các truy vấn và qu ản lý vi ệc khai thác tài nguyên trên m ạng của các Clients.  Client – Khai thác tài nguyên qua Server Mô hình CSDL client/server gi ống v ới mô hình CSDL file-server nh ưng trên th ực t ề mô hình CSDL Client/Server có nhi ều thu ận l ợi h ơn mô hình file-server. 1.4.2 Mô hình CSDL phân tán -Hai mô hình CSDL File-Server và Client/Server:d ữ li ệu và ch ươ ng trình ứng d ụng truy nh ập d ữ li ệu n ằm trên 2 b ộ xử lý khác nhau. -Mô hình CSDL phân tán:CSDL ở trên nhi ều máy khác nhau. Hình 1.3 Distributed database model 9 CH ƯƠ NG II KỸ THU ẬT PHÂN TÁN D Ữ LI ỆU 2.1 Khái ni ệm và s ự cần thi ết phân m ảnh d ữ liê ụ Phân m ảnh là chia CSDL thành các mảnh d ữ li ệu nh ỏ hơn và x ử lý m ỗi m ảnh nh ận được nh ư m ột CSDL độc l ập, ch ỉ được th ực hi ện khi nó t ăng hi ệu qu ả, và có độ tin c ậy. Có 2 ki ểu phân m ảnh: - 1. Phân m ảnh ngang: CSDL được phân ho ạch thành các CSDL con, m ỗi CSDL con là m ột t ập h ợp các b ộ th ỏa mãn một s ố tính ch ất nào đó. - 2. Phân m ảnh d ọc: chia CSDL thành các CSDL con gồm m ột t ập h ợp con các thu ộc tính cùng v ới các giá tr ị của chúng có trong t ập các thu ộc tính c ủa CSDL đã cho. Khi CSDL được phân m ảnh, ph ải d ịch câu truy v ấn toàn c ục thành nhi ều câu truy v ấn theo các m ảnh. 2.2 Các quy t ắc phân m ảnh Các nguyên t ắc để đảm b ảo c ơ s ở dữ li ệu khi phân mảnh s ẽ đảm b ảo tính không thay đổi v ề ng ữ ngh ĩa, toàn v ẹn dữ liệu và đảm b ảo tính độc l ập d ữ li ệu. Có 3 qui tắc ph ải tuân th ủ phân mảnh c ơ s ở dữ li ệu quan h ệ: 2.2.1 Tính đầy đủ 2.2.2 Tính ph ục h ồi 2.2.3 Tính tách bi ệt 10 2.3 Kỹ thu ật phân m ảnh ngang d ữ li ệu 2.3.1 Khái ni ệm Là vi ệc chia quan h ệ thành nhi ều mảnh quan h ệ kh ả hợp. M ỗi m ảnh quan h ệ bao g ồm nhóm b ộ dữ li ệu th ỏa m ột điều ki ện logic. Là th ực hi ện các phép ch ọn quan h ệ th ỏa mãn một bi ểu th ức điều kiên cho tr ước. Có 2 lo ại ph ươ ng pháp phân m ảnh ngang: • Phân m ảnh ngang nguyên th ủy. • Phân m ảnh ngang d ẫn xu ất. 2.3.2 Thông tin c ần thi ết c ủa phân m ảnh ngang a) Thông tin v ề cơ s ở dữ li ệu: Là các thông tin v ề lược đồ khái ni ệm toàn c ục c ủa h ệ cơ s ở dữ li ệu. b) Thông tin v ề ứng d ụng: Để th ực hi ện vi ệc phân mảnh m ột quan h ệ, c ần ph ải có thông tin định tính và thông tin định l ượng. c) Thông tin định tính v ề các ứng d ụng c ần ph ải có: • Độ tuy ển h ội s ơ c ấp (Minterm Selectivity): là s ố bộ của quan h ệ sẽ được ch ọn theo v ị từ hội s ơ c ấp cho tr ước. • Tần s ố ứng d ụng ng ười s ử dụng truy xu ất d ữ li ệu. N ếu Q = {q 1, q 2, … , q q} là t ập truy v ấn, ký hi ệu acc(q i) là tần s ố truy xu ất c ủa truy v ấn q i trong m ột kho ảng th ời gian đã cho. • Tần s ố truy xu ất h ội s ơ c ấp là t ần s ố truy xu ất c ủa h ội sơ c ấp m, ký hi ệu là acc(m). 11 2.3.3 Phân m ảnh ngang nguyên th ủy Phân m ảnh ngang nguyên th ủy được định ngh ĩa b ằng một phép ch ọn trên quan h ệ ch ủ của l ược đồ cơ s ở dữ li ệu. R = σ (R) , i=1 ...n i Fi Fi là bi ểu th ức đại s ố quan h ệ hội s ơ c ấp có d ạng chu ẩn hội. Nếu F i có d ạng chu ẩn h ội, thì nó là v ị từ hội s ơ c ấp (m i). Thu ật toán s ẽ th ảo lu ận kh ẳng định F i là v ị từ hội s ơ c ấp. Một mảnh ngang R i của quan h ệ R g ồm t ất c ả các b ộ của R tho ả một v ị từ hội s ơ cấp m i. Trong các thu ật toán phân m ảnh ngang , tr ước tiên c ần ph ải xác định các v ị từ đơ n gi ản s ẽ tạo ra v ị từ hội s ơ c ấp. 2.3.4 Tính đầy đủ và tính c ực ti ểu c ủa v ị t ừ đơn gi ản a) Tính đầy đủ: T ập các v ị từ đơ n gi ản Pr được g ọi là đầy đủ khi và ch ỉ khi xác su ất truy xu ất b ởi m ỗi ứng d ụng t ới bộ bất k ỳ của m ột m ảnh h ội s ơ c ấp b ất k ỳ được định ngh ĩa theo Pr là nh ư nhau. V ị từ đầy đủ sẽ đảm b ảo cho các m ảnh tho ả mãn các v ị từ sơ c ấp, nh ất quán v ề mặt logic. Sử dụng m ột t ập vị từ đầy đủ làm c ơ s ở cho vi ệc phân m ảnh ngang c ơ s ở. b) Tính tính c ực ti ểu: Đặc tính th ứ 2 của t ập các v ị từ có tính c ực ti ểu. Đây là m ột đặc tính c ảm tính.Nếu m ột v ị từ đơ n gi ản có liên đới đến vi ệc phân m ảnh , ph ải có tính liên đới (relevant) trong vi ệc xác định m ột phân m ảnh. Gọi m i và m j là hai v ị từ hội s ơ c ấp. G ọi f i và f j là hai mảnh t ươ ng ứng được định ngh ĩa theo m i và m j. acc (m) acc (m) Khi đó p i là có liên đới khi và ch ỉ khi: ≠ card ( fi ) card ( f j ) 12 2.3.5 Phân mảnh ngang d ẫn xu ất Là phân chia quan h ệ thành viên thành các m ảnh quan hệ theo phân m ảnh c ủa quan h ệ ch ủ, các m ảnh thu được ch ỉ được định ngh ĩa trên các thu ộc tính c ủa quan h ệ thành viên. Có th ể tồn t ại m ột s ố kết n ối r ỗng khi phân tán d ữ li ệu và các thu ộc tính k ết n ối tách r ời nhau. Kết n ối phân tán được bi ểu di ễn bằng hai d ạng đồ th ị rút g ọn: Đồ th ị rút g ọn là tách (Partitioned) và Đồ th ị nối rút g ọn là đơ n gi ản (Simple). R R R S1 S1 S1 R2 R2 R2 S2 S S2 2 R R S3 R S3 R S3 S3 R R R S4 a) Đồ th ị kết n ối a) Đồ th ị c) Đồ th ị kết n ối hoàn toàn kết n ối tách Đơ n gi ản Hình 2.2 Đồ th ị kết n ối 2.4 Kỹ thu ật phân m ảnh d ọc dữ li ệu 2.4.1 Khái ni ệm phân m ảnh d ọc Là phân chia quan h ệ R thành t ập các quan h ệ nh ỏ hơn để có nhi ều ứng d ụng có th ể ch ỉ cần th ực hi ện trên m ột m ảnh. Mảnh t ối ưu sinh ra m ột l ược đồ phân m ảnh cho phép gi ảm t ối thi ểu th ời gian th ực hi ện c ủa ứng d ụng trên m ảnh đó. Sử dụng hai ph ươ ng pháp Heuristic: Nhóm thu ộc tính và Tách m ảnh. 13 2.4.2 Thông tin c ần thi ết c ủa phân m ảnh d ọc a) Ma tr ận giá tr ị sử dụng thu ộc tính: Ký hi ệu ma tr ận giá tr ị sử dụng thu ộc tính là use(q i, Aj), Q={q 1, q 2,.., q q} là t ập các câu truy v ấn c ủa ng ười s ử dụng. Các câu truy v ấn Q s ẽ ch ạy trên quan h ệ R(A 1, A 2,…, A n). 1 Nếu thu ộc tính A j được v ấn tin qi tham chi ếu Use(q i,A j) = i=1..q và j=1..n 0 Ng ược l ại Các vector Use(q i,*) được hi ểu là câu truy v ấn q i được ch ạy trên c ơ s ở dữ li ệu. b) Ma tr ận l ực hút AA( Attribute Affinity Matrix) c ủa thu ộc tính: R(A 1,A 2,…,A n) là m ột quan h ệ trên t ập các thu ộc tính Ω={A 1,A 2,…,A n}. K là s ố mảnh c ủa quan h ệ R c ần ph ải được phân tán trên m ạng máy tính, t ức là: R = R 1∪R2∪…∪Rk. = aff (Ai ,A j ) ∑ ∑ref l (qk )acc l (qk ) ∧ ∀ k[( use (qk ,Ai ) use (qk ,Aj )l Sl ref l (q k) là s ố lần truy xu ất các thu ộc tính(Ai,Aj) cho q k tại v ị trí Sl và acc l (q k) là s ố đo t ần s ố truy xu ất ứng d ụng q k tại v ị trí S l. 2.4.3 Thu ật toán t ụ nhóm Thu ật toán th ực hi ện b ằng cách nhóm các thu ộc tính của m ột quan h ệ dựa trên các giá tr ị lực hút thu ộc tính trong ma tr ận AA đầu vào. Số đo l ực hút chung lớn nh ất là AM (Global Affinity Measure). Ma tr ận l ực hút t ụ CA (Cluster Affinity) là Kết qu ả, gồm có 3 b ước : 14 2.4.4 Thu ật toán phân m ảnh Là xác định các t ập thu ộc tính được truy xu ất b ởi các tập ứng d ụng. Trong ma tr ận t ụ lực hút CA c ủa quan h ệ, trong hình 2.4 n ếu m ột điểm trên đường chéo chính được ch ọn, hai tập thu ộc tính s ẽ được xác định. M ột t ập {A 1,A 2,.....,A i} ở góc trái cao nh ất, g ọi là t ập đỉnh TA (Top) và t ập th ứ hai {A i+1 ,...,A n} ở góc ph ải th ấp nh ất, g ọi là t ập đáy BA (Bottom). A A .... A A ...... A 1 2 i i+1 n A1 .... TA A2 .Ai A .... i+1 BA . Hình 2.4 C ấp phát điểm tách 2.5 Bài toán phân b ố dữ li ệu 2.5.1 Khái ni ệm Là bài toán để gi ải quy ết các vấn đề không thu ận l ợi nhu là: các m ảnh được mô hình hóa không thích h ợp hoàn toàn nh ư các t ệp riêng, s ố mảnh nhi ều h ơn so v ới các quan h ệ toàn cục... Nh ững vấn đề đặt ra này là phân b ố dữ li ệu sao cho t ối ưu đối v ới các ứng d ụng. 15 2.5.2 Bài toán phân b ố Ký hi ệu x j là bi ến quy ết định (Decisio Variable) ch ọn vị trí để đặt sao l ưu: 1 N ếu m ảnh F k được đặt t ại v ị trí S j xj = 0 Trong tr ường h ợp ng ược l ại. Khi đó đặc t ả chính xác nh ư sau:  m   ' + +  min ∑( ∑ x ju jcij t j min cij ) ∑ x jd j j S ∈I  i=1 ∈ j ∈   j S j I j S j I  Trong đó x j bằng 0 ho ặc 1. 2.5.3 Thông tin c ần thi ết cho bài toán phân b ố Các thông tin c ần cho bài toán phân bố có th ể phân chia thành b ốn lo ại: thông tin CSDL, thông tin ứng d ụng, thông tin về vị trí và thông tin v ề mạng. 2.5.4 Mô hình phân b ố d ữ li ệu Là mô hình để gi ảm t ối thi ểu tổng chi phí x ử lý và l ưu tr ữ, đáp ứng được các đòi h ỏi v ề th ời gian đáp ứng. 2.6 Xử lý truy v ấn phân tán d ữ li ệu Xử lý truy v ấn phân tán là quá trình chuy ển đổi câu truy vấn ngôn ng ữ bậc cao trên c ơ s ở dữ li ệu phân tán thành m ột chu ỗi các thao tác c ủa đại s ố quan h ệ trên các m ảnh phân tán. Bao g ồm nhi ều b ước th ực hi ện cụ th ể nh ư sau: • Câu truy v ấn phân tán ph ải được phân rã thành m ột chu ỗi các thao tác d ựa trên các phép tính đại s ố quan h ệ. 16 • Dữ li ệu được truy nh ập b ởi truy v ấn là nh ững m ảnh dữ li ệu được phân rã, được g ọi là d ữ li ệu c ục b ộ. • Phép truy v ấn đại s ố trên các m ảnh ph ải được m ở rộng v ới các thao tác truy ền thông và t ối ưu hoá ch ức n ăng tham chi ếu các ngu ồn tài nguyên. 2.6.1 V ấn đề x ử lý truy v ấn Vì có nhi ều gi ải pháp bi ến đổi, m ỗi gi ải pháp khác nhau có th ể tiêu th ụ tài nguyên c ủa m ạng máy tính khác nhau. Vậy, cần ph ải l ựa ch ọn m ột gi ải pháp khi th ực hi ện, nó tiêu th ụ tài nguyên c ủa m ạng là t ối thi ểu. Có hai ph ươ ng pháp t ối ưu hóa truy v ấn c ơ b ản: ph ươ ng pháp bi ến đổi m ột câu truy v ấn phép tính đại s ố quan h ệ thành câu
Luận văn liên quan