Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời
điểm đó nó chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày
19/11/1997 là ngày đầu tiên Việt Nam chính thức hòa vào mạng Internet toàn cầu,
sau mƣời mấy năm hoạt động Internet trở thành một thuật ngữ hầu nhƣ ai cũng biết,
một phƣơng tiện truyền thông ai ai cũng đang sử dụng, thậm chí với một số bộ phận
còn phụ thuộc hoàn toàn. Tầm ảnh huởng của Internet phát tán mạnh mẽ khi nó bắt
đầu phát huy công dụng giải trí của mình, ngƣời ta không chỉ có thể tìm tƣ liệu mà
còn xem phim, nghe nhạc, chơi game trên mạng. Hàng triệu triệu ngƣời vào mạng
mỗi ngày, nhƣng số ngƣời vào mạng để làm việc, học tập, truy cập tài liệu thì rất ít.
Với sự phát triển nhanh chóng của Internet hiện nay, đó là dấu hiệu đáng
mừng trƣớc sự phát triển của công nghệ thông tin trong một xã hội hiện đại. Nhƣng
đằng sau nó là những hệ lụy từ Internet mang lại cho con ngƣời, trong đó đặc biệt là
giới trẻ. Song song với các trò chơi trên mạng, thì việc tò mò truy cập vào các trang
có nội dung không lành mạnh để đọc truyện Sex, xem các hình ảnh khiêu dâm, xem
phim Sex cũng trở nên phổ biến và tác hại làm cho ngƣời xem muốn có hành vi
quan hệ tình dục ngay, dẫn đến tình trạng sa đà vào tệ nạn mại dâm, hiếp dâm khi
chƣa đủ tuổi vị thành niên. 1
73 trang |
Chia sẻ: tranhieu.10 | Lượt xem: 3506 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng bộ lọc phát hiện các website có nội dung khiêu dâm dựa trên url và text content, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------
NGUYỄN THANH PHONG
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT
Luận văn Thạc sĩ Công nghệ Thông tin
ĐỒNG NAI, 2014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------
NGUYỄN THANH PHONG
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT
Chuyên ngành: Công nghệ Thông tin
Mã số: 60480201
Luận văn Thạc sĩ Công nghệ Thông tin
NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. VŨ ĐỨC LUNG
ĐỒNG NAI, 2014
LỜI CẢM ƠN
Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới
thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hoàn
thành luận văn.
Em cũng xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng đã tận tình
truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đó đã
giúp em rất nhiều trong việc học tập và nghiên cứu sau này.
Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè,
đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn.
Đồng Nai, tháng 08 năm 2014
Trân trọng
Nguyễn Thanh Phong
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá
nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong toàn
bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là
đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ
rõ ràng và đƣợc trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Đồng Nai, tháng 08 năm 2014
Tác giả
Nguyễn Thanh Phong
MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ
MỞ ĐẦU ..................................................................................................................... 1
Lý do chọn đề tài ......................................................................................................... 1
Mục tiêu đề tài ............................................................................................................. 2
Nội dung thực hiện ...................................................................................................... 2
Phƣơng pháp thực hiện ................................................................................................ 3
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4
1.1 Giới thiệu ............................................................................................................. 4
1.2 Các loại bộ lọc WEB có nội dung khiêu dâm ..................................................... 4
1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4
1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6
1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9
1.2.4 Bộ lọc WEB dựa vào từ khóa ........................................................................ 10
1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh ............................................ 10
1.3 Các công trình liên quan .................................................................................. 11
CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15
2.1 Rút trích nội dung của website .......................................................................... 15
2.1.1 Phân tích mã HTML ...................................................................................... 15
2.1.2 So sánh khung mẫu ........................................................................................ 16
2.1.3 Xử lý ngôn ngữ tự nhiên ................................................................................ 17
2.2 Phân tích nội dung thành các token .................................................................. 18
2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19
2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19
2.2.3 Tách từ ........................................................................................................... 21
2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25
2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25
2.2.3.3 Mô hình tách từ bằng WFST và mạng Neural ............................................. 26
2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di
truyền ........................................................................................................... 28
2.2.4 Thuật toán KEA ............................................................................................. 29
2.2.4.1 Chọn cụm ứng viên ...................................................................................... 31
2.2.4.2 Tính toán đặc trƣng ...................................................................................... 33
2.2.4.3 Huấn luyện ................................................................................................... 33
2.2.4.4 Rút trích những cụm từ khóa ....................................................................... 34
2.2.5 Thuật toán KIP ............................................................................................... 34
2.2.6 Nhận diện thực thể có tên............................................................................... 36
2.3 Phân tích URL .................................................................................................. 37
CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL
VÀ TEXT CONTENT ............................................................................................ 38
3.1 Phân tích mô hình hệ thống .............................................................................. 38
3.2 Module xử lý dựa vào URL .............................................................................. 40
3.3 Module lọc theo nội dung ................................................................................. 40
3.3.1 Giai đoạn huấn luyện ..................................................................................... 41
3.3.1.1 Tiền xử lý văn bản ....................................................................................... 41
3.3.1.2 Trích lọc đặc trƣng ....................................................................................... 42
3.3.1.3 Thuật toán Naïve Bayes ............................................................................... 44
3.3.2 Giai đoạn phân lớp, nhận dạng ...................................................................... 47
CHƢƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................. 50
4.1 Môi trƣờng thử nghiệm ...................................................................................... 50
4.2 Giao diện chƣơng trình ...................................................................................... 50
4.2.1 Giao diện chính .............................................................................................. 50
4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website ............................ 53
4.2.3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN ................ 54
4.2.4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN ............... 54
4.2.5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website................. 55
4.2.6 Giao diện lấy TOKEN URL........................................................................... 55
4.2.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website ........ 56
4.3 Thu thập dữ liệu ................................................................................................ 56
4.3.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL ................................... 56
4.3.2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung .............................. 57
4.4 Đánh giá kết quả thực nghiệm .......................................................................... 58
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ............................................................. 60
TÀI LIỆU THAM KHẢO
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
Từ viết tắt Ý nghĩa
KNN K-Nearest Neighbor
LDA Latent Drichlet Allocation
LLSF Linear Least Square Fit
LRMM Left Right Maximum Matching
MM Maximum Matching
NB Naïve Bayes
pLSA Probabilistic Latent Semantic Analysis
SVM Support Vector Machine
TBL Transformation -based Learning
TF Term Frequency
WFST Weighted Finit State Transducer
DANH SÁCH CÁC HÌNH VẼ
Hình 2.1 - Hệ thống bóc tách nội dung của VietSpider ............................................ 16
Hình 2.2 – Mô hình bóc tách nội dung chính bằng so sánh khung mẫu ................... 17
Hình 2.3 – Sơ đồ thuật toán KEA ............................................................................. 30
Hình 3.1 – Mô hình hệ thống lọc Website có nội dung khiêu dâm .......................... 39
Hình 3.2 – Quy trình huấn luyện lấy TOKEN URL ................................................. 40
Hình 3.3 – Quy trình huấn luyện TOKEN nội dung ................................................. 41
Hình 3.4 – Quy trình tách từ ..................................................................................... 42
Hình 3.5 – Mô hình huấn luyện từ ............................................................................ 44
Hình 3.6 – Mô hình giai đoạn phân lớp .................................................................... 48
Hình 4.1 – Giao diện lúc khởi động bộ lọc ............................................................... 50
Hình 4.2 – Giao diện đăng nhập................................................................................ 51
Hình 4.3 – Giao diện khi duyệt một địa chỉ WEB tốt ............................................... 51
Hình 4.4 – Giao diện khi duyệt một địa chỉ WEB xấu ............................................. 52
Hình 4.5 – Giao diện danh sách địa chỉ WEB tốt, xấu ............................................. 52
Hình 4.6 – Giao diện chức năng hệ thống ................................................................. 53
Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép ..................................................... 53
Hình 4.8 – Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách ToKEN ......... 54
Hình 4.9 – Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách ToKEN ........ 54
Hình 4.10 – Giao diện duyệt TOKEN từ đơn và từ ghép ......................................... 55
Hình 4.11 – Giao diện huấn luyện TOKEN URL ..................................................... 55
Hình 4.12 – Giao diện danh sách các TOKEN URL sau huấn luyện ....................... 56
Hình 4.13 – Địa chỉ URL thu thập đƣợc ................................................................... 56
Hình 4.14 – File tốt thu thập đƣợc ............................................................................ 57
Hình 4.15 – File xấu thu thập đƣợc ........................................................................... 57
Hình 4.16 – Cơ sở dữ liệu TOKEN nội dung sau quá trình huấn luyện .................. 58
DANH SÁCH CÁC BẢNG BIỂU
Bảng 1.1 – Kết quả đánh giá NET PROJECT ............................................................ 5
Bảng 1.2 – Một số sản phẩm lọc WEB theo URL ...................................................... 7
Bảng 2.1 – Xác định cụm ứng viên ........................................................................... 32
Bảng 3.1 – Thống kê một số từ điển thông dụng tiếng việt ...................................... 43
Bảng 3.2 – Số liệu thống kê bảng từ điển ................................................................. 43
Bảng 3.3 – Ví dụ minh họa tần số xuất hiện các TOKEN ........................................ 46
Bảng 3.4 –Ví dụ minh họa tần số xuất hiện các TOKEN chƣa làm trơn .................. 47
Bảng 3.5 –Ví dụ minh họa tần số xuất hiện các TOKEN đã làm trơn ...................... 47
Bảng 4.1 – Kết quả thực nghiệm File nội dung ........................................................ 59
Bảng 4.2 – Kết quả thực nghiệm URL ...................................................................... 59
1
MỞ ĐẦU
1. Lý do chọn đề tài
Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời
điểm đó nó chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày
19/11/1997 là ngày đầu tiên Việt Nam chính thức hòa vào mạng Internet toàn cầu,
sau mƣời mấy năm hoạt động Internet trở thành một thuật ngữ hầu nhƣ ai cũng biết,
một phƣơng tiện truyền thông ai ai cũng đang sử dụng, thậm chí với một số bộ phận
còn phụ thuộc hoàn toàn. Tầm ảnh huởng của Internet phát tán mạnh mẽ khi nó bắt
đầu phát huy công dụng giải trí của mình, ngƣời ta không chỉ có thể tìm tƣ liệu mà
còn xem phim, nghe nhạc, chơi game trên mạng. Hàng triệu triệu ngƣời vào mạng
mỗi ngày, nhƣng số ngƣời vào mạng để làm việc, học tập, truy cập tài liệu thì rất ít.
Với sự phát triển nhanh chóng của Internet hiện nay, đó là dấu hiệu đáng
mừng trƣớc sự phát triển của công nghệ thông tin trong một xã hội hiện đại. Nhƣng
đằng sau nó là những hệ lụy từ Internet mang lại cho con ngƣời, trong đó đặc biệt là
giới trẻ. Song song với các trò chơi trên mạng, thì việc tò mò truy cập vào các trang
có nội dung không lành mạnh để đọc truyện Sex, xem các hình ảnh khiêu dâm, xem
phim Sex cũng trở nên phổ biến và tác hại làm cho ngƣời xem muốn có hành vi
quan hệ tình dục ngay, dẫn đến tình trạng sa đà vào tệ nạn mại dâm, hiếp dâm khi
chƣa đủ tuổi vị thành niên. 1
Website khiêu dâm không chỉ ảnh hƣởng đến hành vi tình dục của giới trẻ
mà còn ảnh hƣởng đến đạo đức làm việc nơi công sở 2. Ngoài ra, nó còn gây mất an
ninh cho máy tính cá nhân của ngƣời sử dụng và hệ thống mạng máy tính nơi cơ
quan, bởi các phần mềm độc hại. Vậy làm sao để ngăn chặn không cho ngƣời sử
dụng truy cập vào các Website có nội dung khiêu dâm là vấn đề đang đƣợc xã hội
quan tâm. Hiện nay trong nƣớc và ngoài nƣớc cũng có nhiều phần mềm đƣợc
nghiên cứu nhƣ:
Nghiên cứu trong nƣớc có thể đề cập đến một số phần mềm sau: Phần mềm
Killporn của tác giả Nguyễn Hữu Bình; Phần mềm VwebFilter (viết tắt VWF) của
Công ty Điện toán và Truyền số liệu xây dựng; Phần mềm Depraved Web Killer
1
2
tri-o-chon-cong-so.html
2
(DWK) của Vũ Lƣơng Bằng, nhân viên công ty Điện thoại Đông, quận 10 (TP
HCM); Phần mềm MiniFireWall 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn (công tác
tại phòng Tin học - Bƣu điện tỉnh Đồng Tháp); Bộ lọc phát hiện các Website có nội
dung không lành mạnh, luận văn thạc sĩ công nghệ thông tin của Cao Nguyễn Thủy
Tiên.
Nghiên cứu ngoài nƣớc có thể kể đến một số phần mềm sau: STOP P-O-R-
N 5.5 đƣợc phát hành bởi PB Software LLC; K9 Web Protection đƣợc phát hành
bởi Blue Coat Systems; Media Detective 2.3 đƣợc phát hành bởi Tap Tap Software;
Parental Filter 3.0 đƣợc phát hành bởi NWSP Software Design; ScrubLT 3.2.2.0
đƣợc phát hành bởi CrubLT; CyberSitter đƣợc phát hành bởi Solid Oak Software ;
iShield 1.0 đƣợc phát hành bởi Guardware.
Thực tế cho thấy các phần mềm ngoài nƣớc đa phần muốn sử dụng thì phải
trả phí và thƣờng lọc hình ảnh khiêu dâm còn lọc nội dung khiêu dâm chủ yếu bằng
tiếng anh còn bằng tiếng việt thì hạn chế, còn các phần mềm trong nƣớc thì cũng
còn những hạn chế trong việc chặn từ khóa khiêu dâm thông dụng và chặn URL cụ
thể của Website. Qua đó cho thấy còn nhiều vấn đề cần phải nghiên cứu làm sáng
tỏ, làm tốt hơn và đó là cũng là lý do mà đề tài “Xây dựng bộ lọc phát hiện các
Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT” đƣợc lựa
chọn cho luận văn này.
2. Mục tiêu đề tài
Xây dựng bộ lọc WEB có thể tự động phát hiện các Website cần truy cập có
nội dung khiêu dậm dựa trên URL và TEXT CONTENT của Website.
3. Nội dung thực hiện
Thu thập các URL và TEXT CONTENT của các Website có nội dung khiêu
dâm và không khiêu dâm để tạo bộ dữ liệu các token từ đã đƣợc huấn luyện để phục
vụ cho việc phân loại các Website có nội dung khiêu dâm và không khiêu dâm.
Nghiên cứu cách khai phá URL và TEXT CONTENT của Website từ đó đề
xuất mô hình lọc các Website có nội dung khiêu dâm dựa trên URL và TEXT
CONTENT.
Cài đặt bộ lọc Website hiện thực hóa vấn đề nghiên cứu.
3
4. Phƣơng pháp thực hiện
Dùng các công cụ, phần mềm đã có trong nƣớc và ngoài nƣớc để thu thập dữ
liệu của các trang tin tức, các trang Web có nội dung khiêu dâm. Dữ liệu cần thu
thập là URL và nội dung của Website.
Để phân lớp URL của một Website cần duyệt thuộc lớp tốt hay xấu thì dựa
vào danh sách ToKenURL. Danh sách ToKenURL là các từ, cụm từ đƣợc huấn
luyện từ các URL thu thập đƣợc.
Để phân lớp nội dung của một Website cần duyệt thuộc lớp có nội dung
Khiêu dâm hay không thì dựa vào danh sách ToKen nội dung. Danh sách ToKen
nội dung này đƣợc xây dựng từ việc huấn luyện các tập dữ liệu tốt và tập dữ liệu
xấu thu thập đƣợc, tính tỉ lệ xuất hiện của các ToKen từ trên các tập dữ liệu tốt và
xấu để chọn ra các ToKen từ có trọng số cao rồi so sánh với bộ từ điển dữ liệu để
chọn ra các ToKen từ đặc trƣng dùng để phân lớp nội dung của Website.
Nghiên cứu và áp dụng các thuật toán tách câu, tách từ trong văn bản tiếng
việt, kết hợp với thuật toán Naïve Bayes để tính xác suất nội dung văn bản của
Website cần duyệt để phân lớp Website là khiêu dâm hay không khiêu dâm.
4
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN
WEBSITE
1.1. Giới thiệu
Lọc trang WEB là một vấn đề không phải là mới. Làm sao để phát hiện đƣợc
các trang WEB có nội dung và hình ảnh khiêu dâm là vấn đề cần thiết. Các gia
đình có sử dụng Internet thì cha mẹ không muốn con mình tiếp xúc với các trang
WEB có nội dung và hình ảnh khiêu dâm. Hiện nay, một số quốc gia trên thế giới,
trong đó có cả Việt Nam đã và đang nghiên cứu các giải pháp ngăn chặn các trang
WEB khiêu dâm sao cho có hiệu quả, vì thế yêu cầu đặt ra là liên tục phát triển các
phần mềm phát hiện và ngăn chặn các trang WEB khiêu dâm là một biện pháp an
toàn bổ sung. Nhiều trang WEB khiêu dâm không chỉ có nội dung khiêu dâm và
hình ảnh khiêu dâm mà cón chứa cả phần mềm độc hại, phần mềm quảng cáo, phần
mềm gián điệp và Virus
Nói chung các trang WEB và các trang WEB có thể đƣợc phân loại là WEB
khiêu dâm chủ yêu dựa trên các yếu tố nhƣ: hình ảnh khiêu dâm và nội dung khiêu
dâm. Trong phạm vi của đề tài này chỉ giới hạn phát hiện và ngăn chặn các trang
WEB có nội dung khiêu dâm dựa trên URL và TEXT CONTENT của trang WEB.
1.2. Các loại bộ lọc WEB có nội dung khiêu dâm
Lọc chặn nội dung khiêu dâm trên mạng không phải là vấn đề đơn giản, nguyên
nhân nằm ở chỗ có hàng tỷ liên kết, và thực chẳng dễ dàng chút nào để biết chắc
chắn đâu là liên kết bẩn trong khối lƣợng thông tin khổng lồ và lộn xộn nhƣ thế.
Dƣới đây là một vài cách thức thƣờng đƣợc dùng trong các bộ lọc WEB đen, WEB
khiêu dâm.
1.2.1. Bộ lọc WEB dựa vào địa chỉ mạng
Bộ lọc dựa vào danh sách đen (Back List) và danh sách trắng (White List)
Đây là biện pháp mà hầu hết các công cụ chặn web đen áp dụng, họ xây
dựng, chia nhóm và phân loại các trang web để biết chắc chắn nội dung chủ yếu của
một tên miền nào đấy thuộc về danh sách đen hay danh sách trắng (danh sách trắng
là danh sách các website đƣợc phép truy cập, danh sách đen là danh sách những trang
cấm), điều này có thể đƣợc thực hiện bằng máy, hoặc thông qua cộng đồng Internet
đông đảo giúp sức. Nó tỏ ra khá hiệu quả, ngăn chặn hầu nhƣ 99% các trang web
5
sex phổ biến, tuy nhiên nhƣợc điểm của chƣơng trình là đôi