Mạng Internet ra đời và phát triển thành một kho dữliệu khổng lồ, bao gồm
đầy đủ các khía cạnh về văn hoá, chính tr ị, khoa học -kỹthuật,. Với sựđa sắc
màu văn hoá trên thế giới, đa tín ngưỡng, đa lối sống, đa tư duy, đã làm cho
thông tin trên Internet luôn song hành tính tích cực và tiêu cực trong nội tại. Ưu thế
từcông nghệInternet làm cho sức thâm nhập của kênh thông tin quan trọng này đối
với người sửdụng rất rộng lớn và nhanh chóng. Các khía cạnh xấu -độc hại trong
xã hội cũng theo đường Internet đểthâm nhập vào mỗi gia đình, mỗi con người.
Chính vì lý do đó, công việc hỗtrợquản lý và đảm bảo an toàn –an ninh thông tin
trên mạng Internet đã trởthành mối quan tâm của mỗi gia đình, mỗi tổchức, mỗi
quốc gia.
Vềphương diện gia đình, mối quan tâm của các bậc phụhuynh là ngăn ngừa
việc thâm nhập các trang Web độc hại đốivới con em mình. Vềphía cá nhân người
sửdụng, khai thác được những thông tin tích cực và ngăn ngừa tiếp xúc web độc
hại do vô tìnhhay cốý.
71 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2123 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Tiến Dũng
NGHIÊN CỨU GIẢI PHÁP
LỌC NỘI DUNG INTERNET TẠI MÁY TÍNH CÁ NHÂN
VÀ XÂY DỰNG PHẦN MỀM
LUẬN VĂN THẠC SĨ
Hà Nội – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Tiến Dũng
NGHIÊN CỨU GIẢI PHÁP
LỌC NỘI DUNG INTERNET TẠI MÁY TÍNH CÁ NHÂN
VÀ XÂY DỰNG PHẦN MỀM
Ngành : Công nghệ Thông tin
Chuyên ngành : Hệ thống Thông tin
Mã số : 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. HÀ QUANG THỤY
Hà Nội - 2009
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay xuất bản
dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một công trình
nghiên cứu nào.
Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng.
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.
Hà Nội, tháng 08 năm 2009
Người cam đoan
Phạm Tiến Dũng
LỜI CẢM ƠN
Em xin chân thành cảm ơn các Thầy giáo, Cô giáo trong khoa Công nghệ
thông tin và các cán bộ, nhân viên phòng Đào tạo Sau đại học, trường Đại học
Công nghệ, Đại học Quốc gia Hà Nội đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt
nhất cho em trong quá trình học tập tại trường.
Xin chân thành cảm ơn các anh, chị và các bạn học viên lớp Cao học K12T3 -
trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã luôn động viên, giúp đỡ
và nhiệt tình chia sẻ với em những kinh nghiệm học tập, công tác trong suốt khoá
học.
Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo PGS.TS. Hà Quang
Thụy đã tận tình giúp đỡ em định hướng xây dựng, nghiên cứu phát triển và hoàn
chỉnh luận văn.
Mặc dù đã có nhiều cố gắng, song bài luận văn không tránh khỏi những khiếm
khuyết do sự hạn hẹp về thời gian và điều kiện nghiên cứu. Em chân thành mong
nhận được những ý kiến đóng góp quý báu của các thầy cô giáo nhằm giúp đề tài
của luận văn ngày một hoàn thiện và có tính phổ dụng trong tương lai.
MỤC LỤC
MỤC LỤC.........................................................................................................................i
DANH SÁCH HÌNH VẼ ................................................................................................. ii
MỞ ĐẦU........................................................................................................................ iii
Chương 1 - TỔNG QUAN LỌC NỘI DUNG INTERNET ...............................................1
1.1. Đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài ...............................................1
1.1.1. Thế giới ...........................................................................................................1
1.1.2. Tại Việt Nam ...................................................................................................3
1.2. Thực trạng lọc nội dung truy cập hiện nay..............................................................4
Chương 2 - MỘT SỐ NỘI DUNG CƠ BẢN VỀ PHƯƠNG PHÁP LỌC INTERNET......7
2.1. Biện pháp lọc .........................................................................................................7
2.2. Phương pháp lọc.....................................................................................................8
2.2.1. Lọc địa chỉ IP...................................................................................................8
2.2.2. Lọc địa chỉ URL ..............................................................................................9
2.2.3. Lọc từ khóa......................................................................................................9
2.2.4. Lọc cụm từ.....................................................................................................10
2.2.5. Lọc ảnh..........................................................................................................10
2.3. Vị trí thực hiện lọc................................................................................................11
2.3.1. Lọc tại cổng Internet quốc gia ........................................................................11
2.3.2. Lọc tại cổng Internet mạng LAN....................................................................11
2.3.3. Lọc thông qua bên thứ ba...............................................................................12
2.3.4. Lọc tại máy tính cá nhân ................................................................................12
Chương 3 - GIẢI PHÁP LỌC NỘI DUNG INTERNET .................................................13
3.1. Giải pháp tại cổng Internet quốc gia .....................................................................13
3.1.1. Kiến trúc hệ thống..........................................................................................13
3.1.2. Hoạt động ......................................................................................................15
3.1.3. Phân tích các thành phần................................................................................16
3.2. Giải pháp tại cổng Internet của mạng LAN...........................................................19
3.2.1. Kiến trúc tổng quan........................................................................................19
3.2.2. Giải thuật và cơ chế hoạt động .......................................................................19
3.3. Giải pháp trực tiếp trên máy tính cá nhân .............................................................24
3.3.1. User mode: lấy nội dung từ lớp ứng dụng (Application).................................25
3.3.2. User Mode: lấy nội dung từ lớp phiên (Session).............................................29
3.3.3. Kernel mode: lấy nội dung từ lớp mạng (IP) ..................................................32
3.3.4. Kernel mode: cơ chế nghe lén (sniffer) ..........................................................35
3.4. Đề xuất giải pháp..................................................................................................36
3.4.1. Đánh giá giải pháp trực tiếp ...........................................................................36
3.4.2. Đề xuất ..........................................................................................................37
Chương 4 - GIẢI PHÁP LỌC NỘI DUNG VÀ XÂY DỰNG PHẦN MỀM TẠI MÁY
TÍNH CÁ NHÂN............................................................................................................39
4.1. Giải thuật..............................................................................................................39
4.2. Hoạt động.............................................................................................................40
4.3. Phân tích các thành phần ......................................................................................41
4.3.1. Thành phần lấy dữ liệu...................................................................................41
4.3.2. Thành phần phân tích nội dung gói tin ...........................................................45
4.3.3. Thành phần tách, tổng hợp gói tin thành phiên giao dịch................................48
4.3.4. Thành phần lọc cụ thể, lọc loại trừ .................................................................51
4.3.5. Thành phần lọc nội dung................................................................................52
4.3.6. Thành phần quản lý ứng dụng ........................................................................54
4.3.7. Thành phần ghi log truy cập...........................................................................56
4.3.8. Thành phần quản lý luật truy cập ...................................................................56
4.4. Chương trình thử nghiệm .....................................................................................57
4.4.1. Kết quả chương trình thử nghiệm...................................................................57
4.4.2. So sánh với chương trình cùng loại ................................................................58
KẾT LUẬN ....................................................................................................................60
TÀI LIỆU THAM KHẢO...............................................................................................61
DANH SÁCH HÌNH VẼ
Hình 2.1. Lọc tại cổng Internet quốc gia .........................................................................11
Hình 2.2. Lọc thông qua bên thứ ba ................................................................................12
Hình 2.3. Lọc tại máy tính cá nhân .................................................................................12
Hình 3.1. Hệ thống tưởng lửa hiện tại của các ISP ..........................................................14
Hình 3.2. Kiến trúc hệ thống lọc nội dung Internet tại ISP ..............................................15
Hình 3.3. Gateway Filter lọc cho một mạng LAN ...........................................................19
Hình 3.4. Sơ đồ giải thuật lọc cho mạng LAN 1..............................................................20
Hình 3.5. Sơ đồ giải thuật lọc cho mạng LAN 2..............................................................22
Hình 3.6. Sơ đồ giải thuật lọc cho mạng LAN 3..............................................................23
Hình 3.7. Sơ đồ giải thuật lọc cho mạng LAN 4..............................................................24
Hình 3.8. Nội dung kiểm soát lấy từ cửa sổ trình duyệt...................................................26
Hình 3.9. Sơ đồ giải thuật User mode (lấy nội dung lớp ứng dụng) .................................27
Hình 3.10. Hook Firewall ở User Mode ..........................................................................30
Hình 3.11. Sơ đồ giải thuật User mode (lấy nội dung lớp phiên) .....................................31
Hình 3.12. Các chế độ Hook Firewall trên Windows ......................................................33
Hình 3.13. Sơ đồ giải thuật Kernel mode (lấy nội dung lớp IP) .......................................34
Hình 4.1. Sơ đồ giải thuật lọc nội dung trực tiếp trên máy tính cá nhân...........................39
Hình 4.2. Phân lớp xử lý gói tin ......................................................................................41
Hình 4.3. Sơ đồ xử lý tổng quát giải pháp lọc nội dung...................................................42
Hình 4.4. Quy trình ghi log truy cập ...............................................................................42
Hình 4.5. Cấu trúc dữ liệu tầng Transport .......................................................................43
Hình 4.6. Cấu trúc dữ liệu tầng Network.........................................................................44
Hình 4.7. Cấu trúc dữ liệu tầng DataLink........................................................................44
Hình 4.8. Cấu trúc gói tin lấy dữ liệu ..............................................................................45
Hình 4.9. Các gói tin dạng thô và được phân tích theo từng lớp mạng.............................47
Hình 4.10. Dữ liệu tầng TCP/IP của một gói tin..............................................................48
Hình 4.11. Header file ảnh ..............................................................................................48
Hình 4.12. Header file text/html......................................................................................49
Hình 4.13. Gói tin đầu tiên của một phiên giao dịch........................................................49
Hình 4.14. Tham số Seq và Ack......................................................................................49
Hình 4.15. Tham số Seq và Ack gói tin kế tiếp ...............................................................50
Hình 4.16. Tổng hợp các gói tin đơn lẻ thành phiên giao dịch.........................................50
Hình 4.17. Trích đoạn danh sách lọc đang được áp dụng cho mạng VNN.......................51
Hình 4.18. Gói tin request(Get).......................................................................................52
Hình 4.19. Ánh xạ tên tiến trình và cổng tương ứng........................................................55
Hình 4.20. Ánh xạ chi tiết PID (Process number) và số cổng ..........................................55
Hình 4.21. Tổng hợp ghi log ...........................................................................................56
Hình 4.22. Cập nhật luật truy cập từ server .....................................................................57
MỞ ĐẦU
Mạng Internet ra đời và phát triển thành một kho dữ liệu khổng lồ, bao gồm
đầy đủ các khía cạnh về văn hoá, chính trị, khoa học - kỹ thuật,... Với sự đa sắc
màu văn hoá trên thế giới, đa tín ngưỡng, đa lối sống, đa tư duy,… đã làm cho
thông tin trên Internet luôn song hành tính tích cực và tiêu cực trong nội tại. Ưu thế
từ công nghệ Internet làm cho sức thâm nhập của kênh thông tin quan trọng này đối
với người sử dụng rất rộng lớn và nhanh chóng. Các khía cạnh xấu - độc hại trong
xã hội cũng theo đường Internet để thâm nhập vào mỗi gia đình, mỗi con người.
Chính vì lý do đó, công việc hỗ trợ quản lý và đảm bảo an toàn – an ninh thông tin
trên mạng Internet đã trở thành mối quan tâm của mỗi gia đình, mỗi tổ chức, mỗi
quốc gia.
Về phương diện gia đình, mối quan tâm của các bậc phụ huynh là ngăn ngừa
việc thâm nhập các trang Web độc hại đối với con em mình. Về phía cá nhân người
sử dụng, khai thác được những thông tin tích cực và ngăn ngừa tiếp xúc web độc
hại do vô tình hay cố ý.
Trong những năm gần đây, lĩnh vực nghiên cứu phát triển hệ thống lọc nội
dung hỗ trợ quản lý và đảm bảo an toàn – an ninh thông tin trên mạng Internet nhận
được sự quan tâm đặc biệt ở hầu hết các quốc gia trên thế giới.
Tại Việt Nam, giải pháp cấp quốc gia đã được Nhà nước chỉ đạo các ban
ngành liên quan nghiên cứu và đề xuất. Tuy nhiên trước thực tế nhu cầu cần giải
pháp lọc nội dung truy cập của người sử dụng Internet, tìm hiểu và xây dựng giải
pháp lọc nội dung truy cập trực tiếp trên máy tính cá nhân hiện đang là mục tiêu
nghiên cứu của nhiều cá nhân, tập thể và đây chính là mục tiêu của luận văn này.
Chương thứ nhất của luận văn trình bày tổng quan về lọc nội dung Internet
trên thế giới và tại Việt Nam, phân tích thực trạng về lọc nội dung truy cập hiện nay
trên phương diện về chính sách quy định của Nhà nước cũng như yêu cầu đặt ra đối
với các công cụ phần mềm.
Chương thứ hai của luận văn trình bày các nội dung cơ bản liên quan đến vấn
đề lọc nội dung truy cập Internet, bao gồm: biện pháp lọc, phương pháp lọc và vị trí
thực hiện lọc.
Dựa trên việc phân tích về vị trí thực hiện lọc nội dung đã trình bày trong
chương hai, chương thứ ba trình bày về các giải pháp lọc nội dung truy cập tại cổng
Internet Quốc gia, tại cổng Internet của mạng LAN và giải pháp trực tiếp trên máy
tính cá nhân.
Cuối cùng, chương thứ tư trình bày về giải pháp và xây dựng chương trình lọc
nội dung truy cập Internet tại máy tính cá nhân. Trong các trường hợp thử nghiệm,
chương trình đã hoạt động đúng chức năng đặt ra.
1
Chương 1 - TỔNG QUAN LỌC NỘI DUNG INTERNET
1.1. Đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài
1.1.1. Thế giới
Hầu hết các nước trên thế giới đều xây dựng và thực hiện các chính sách quốc
gia về an toàn – an ninh Internet, trong đó đặc biệt chú ý tới vấn đề lọc nội dung
trên Internet. Ngoài một số công bố về vấn đề lọc nội dung đối với nước Mỹ [ 1 ],
một số công trình nghiên cứu về lọc nội dung trên Internet điển hình đối với một số
nước khác đã được tổ chức The OpenNet Initiative - ONI (Tổ chức cộng tác, phối
hợp nghiên cứu của the Citizen Lab thuộc Munk Centre for International Studies tại
University of Toronto) tổng hợp và công bố tại trang Web với địa chỉ
Đây là một tổ chức có nhiệm vụ điều tra nghiên
cứu về tình trạng giám sát và lọc thông tin trên thực tế tại các quốc gia, để từ đó tìm
ra những ảnh hưởng đến chủ quyền đất nước, các tác động đến người sử dụng,... Để
đạt được mục đích đó, ONI sử dụng một cách tiếp cận kết hợp các phương tiện kỹ
thuật tiên tiến (các công cụ giám sát mạng tinh vi, các kỹ thuật đánh giá phù hợp
với từng hoàn cảnh cụ thể,…) và năng lực về tri thức địa phương dựa trên quan hệ
hợp tác giữa các nhà nghiên cứu và chuyên gia trên toàn thế giới.
Một điều đặc biệt đáng chú ý, do tầm quan trọng của việc bảo đảm an toàn-an
ninh thông tin trên mạng diện rộng nói chung và mạng Internet nói riêng, hầu hết
chính phủ các nước đều thành lập các cơ quan cấp nhà nước tiến hành các hoạt
động nghiên cứu và triển khai đối với công tác đảm bảo an toàn an ninh Internet,
trong đó có vấn đề lọc nội dung trên Internet.
Mỹ được coi là quốc gia xuất phát của công nghệ Internet, vấn đề bảo đảm an
toàn an ninh trên mạng Internet của nước Mỹ đã được đề cập đến ngay từ những
ngày đầu xuất hiện Internet. Đồng thời với các đạo luật an ninh mạng trong các
giao dịch điện tử, vấn đề lọc nội dung Internet, đặc biệt đối với việc truy nhập
Internet của trẻ em, được quan tâm rất sớm.
Trong báo cáo được công bố vào tháng 12/2005, Marcia S. Smith [ 1 ] đã tổng
hợp và phân tích các văn bản pháp lý điển hình của nước Mỹ về vấn đề lọc Internet
2
đối với trẻ em bao gồm các văn bản the 1996 Communications Decency Act (CDA),
the 1998 Child Online Protection Act (COPA), the 2000 Children’s Internet
Protection Act (CIPA - the 2002 “Dot Kids” Act (P.L.
107-317) và the 2003 “Amber Alert” Act (P.L. 108-21). Thêm nữa, có tới 21 bang
của nước Mỹ bổ sung các luật lọc Internet áp dụng cho các trường phổ thông và thư
viện công cộng, bao gồm cả đòi hỏi bắt buộc phải sử dụng các bộ lọc Internet. Hai
bang Texas và Utah còn có các đạo luật riêng đối với nhà cung cấp dịch vụ Internet
hoặc nhà cung cấp máy tính về các điều khoản đảm bảo cơ chế lọc Internet.
Việc sử dụng Internet của trẻ em đã đặt ra cho các bậc phụ huynh thêm nhiều
mối quan tâm, lo lắng về các hiểm họa mới, trong đó có hiện tượng trẻ em sử dụng
“blog” để đưa nhật ký cá nhân trên mạng. Vì vậy, các gia đình Mỹ đã sử dụng các
phương tiện kỹ thuật để đảm bảo an toàn truy nhập Internet cho con em mình. Theo
kết quả nghiên cứu của Amanda Lenhart, số lượng gia đình có trẻ vị thành niên kết
nối Internet trực tuyến đã sử dụng bộ lọc Internet ngày càng tăng và đạt tới 54%
vào tháng 3-2005. Hiện nay, hầu hết các trường học và thư viện trên khắp nước Mỹ
đều sử dụng những hệ thống lọc Internet có quy luật lọc ràng buộc trong luật lọc
(National Conference of State Legislatures).
Nhiều sản phẩm phần mềm lọc nội dung đã được công bố và được sử dụng từ
rất sớm. Dự án The InFoPeople Project kết thúc vào năm 2001 [ 1 ], cung cấp một
cái nhìn tổng quát về hoạt động lọc nội dung trên Internet tại nước Mỹ, đặc biệt đã
cung cấp các đánh giá xác đáng về các sản phẩm phần mềm lọc nội dung điển hình
như CyberPatrol, i-Gear, i-Prism, N2H2, S4F, SmartFilter, Web Inspector,
WebSense, X-Stop.
Tuy là nước có hệ thống phương tiện hiện đại trong việc đảm bảo an ninh
quốc gia, nhưng trong không ít tình huống, chính quyền Mỹ đã phải sử dụng nhiều
giải pháp đa dạng, trong đó có các giải pháp về pháp lý, để tiến hành công việc lọc
nội dung thông tin trên các đường truyền thông tin công cộng.
Tóm lại, trên cả phương diện an ninh quốc gia cũng như phương diện an toàn
truy nhập Inernet của công dân (đặc biệt đối với trẻ em), nước Mỹ đã triển khai
nhiều giải pháp về pháp lý, về khoa học và công nghệ trong việc mở rộng các hình
thức lọc Internet. Theo đó, nhiều dự án đã được triển khai và nhiều phần mềm đã
được phát triển.
3
1.1.2. Tại Việt Nam
Sau khi Nghị định 55/2001/NĐ-CP ra đời Internet ở Việt Nam phát triển mạnh
đã khẳng định lộ trình phổ cập và xã hội hoá Internet của nhà nước đã đi đúng
hướng. Nhờ những chính sách quản lý hợp lý và phù hợp với xu thế phát triển cũng
n