Trích chọn thực thể là bài toán cơ bản nhất trong các bài toán trích chọn
thông tin nhưng lại đóng vai trò khá quan trọng. Thực thể tên ngày càng được
ứng dụng trong nhiều bài toán trong khai phá dữ liệu web cũng như nhiều các
bài toán trong xử lý ngôn ngữ tự nhiên. Do đó việc xây dựng các giải thuật trích
chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng. Luận văn tập
trung vào tìm hiểu việc xây dựng một mô hình trích chọn thực thể tên và ứng
dụng vào trích chọn thực thể tên máy ảnh trên web.
Cấu trúc luận văn gồm 4 chương:
Chương 1:Giới thiệu một cách khái quát nhất bài toán trích chọn thông tin,
tính ứng dụng thực tiễn của bài toán.
Chương 2: Trình bày m ột số các khái niệm liên quan đến bài toán trích
chọn thông tin, các phương pháp trích chọn thông tin. Với mỗi phương pháp
trình bày một mô hình minh họa. Đây là cơ sở luận quan trọng để luận văn đề
xuất một mô hình áp dụng với bàitoán trích chọn thực thể.Cụ thể luận văn lựa
chọn hướng tiếp cận học bán giám sát.
Chương 3: Ứng dụng phương pháp học bán giám sát vào hệ thống trích
chọn tên máy ảnh kĩ thuật số.
Chương 4:Kết quả thực nghiệm của luận văn, đánh giá phương pháp và kết
quả đạt được.
Phần kết luận: Tóm lược những nội dung chính đạt được của luận văn đồng
thời cũng chỉ ra những điểm cần khắc phục và đưa ra những định hướng nghiên
cứu trong tương lai.
65 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2363 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên máy ảnh số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRƯƠNG THỊ PHƯƠNG THẢO
PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO
BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ ỨNG DỤNG
TRÍCH CHỌN THỰC THỂ TÊN MÁY ẢNH SỐ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ
Cán bộ hướng dẫn khoa học: TS. Nguyễn Trí Thành
Hà Nội - 2011
2
Lời cam đoan
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên
cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận
văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được
tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có
xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Học viên
Trương Thị Phương Thảo
3
Mục lục
Lời cam đoan ..................................................................................................... 2
Mục lục .............................................................................................................. 3
Danh mục các ký hiệu, các chữ viết tắt............................................................... 4
Danh mục các bảng ............................................................................................ 5
Danh mục các hình vẽ, đồ thị ............................................................................. 6
Mở đầu............................................................................................................... 7
CHƯƠNG 1. GIỚI THIỆU ................................................................................ 8
CHƯƠNG 2. HỆ THỐNG TRÍCH CHỌN THÔNG TIN................................. 14
2.1. Xây dựng hệ thống trích chọn thông tin..................................................... 14
2.1.1. Công nghệ tri thức .................................................................................. 14
2.1.2. Huấn luyện tự động ................................................................................ 14
2.2. Các phương pháp trích chọn ...................................................................... 15
2.2.1. Học có giám sát trích chọn quan hệ ........................................................ 16
2.2.2. Học không giám sát trích chọn quan hệ .................................................. 18
2.2.3. Học bán giám sát trích chọn quan hệ ...................................................... 21
2.2.3.1. DIPRE: Dual Iterative Pattern Relation Extraction .............................. 22
2.2.3.2. Hệ thống SNOWBALL ....................................................................... 26
2.3. Nhận xét .................................................................................................... 32
CHƯƠNG 3. MÔ HÌNH HỌC BÁN GIÁM SÁT TRÍCH CHỌN THỰC THỂ
VÀ ỨNG DỤNG.............................................................................................. 33
3.1. Mô tả bài toán............................................................................................ 33
3.2. Mô hình giải quyết bài toán ....................................................................... 33
3.3. Mô hình hệ thống ...................................................................................... 35
3.3.1. Pha tiền xử lí .......................................................................................... 36
3.3.2. Pha sinh các mẫu .................................................................................... 43
3.3.3. Pha sinh các bộ quan hệ mới................................................................... 48
CHƯƠNG 4. THỰC NGHIỆM ........................................................................ 50
4.1. Môi trường thực nghiệm............................................................................ 50
4.2. Dữ liệu thực nghiệm .................................................................................. 50
4.3. Đánh giá hệ thống...................................................................................... 51
4.4. Thực nghiệm ............................................................................................. 51
Kết luận và hướng phát triển tương lai ............................................................. 61
Tài liệu tham khảo............................................................................................ 62
Phụ lục. Mối quan hệ ngữ nghĩa trong WordNet .............................................. 64
4
Danh mục các ký hiệu, các chữ viết tắt
IE Information Extraction
NE Named Entity
MUC Message Understanding Conferences
NER Named Entity Recognition
IR Information Retrieval
DIPRE Dual Iterative Pattern Relation Extraction
5
Danh mục các bảng
Bảng 1: Các luật của AutoSlog......................................................................... 18
Bảng 2: Năm bộ quan hệ hạt giống của hệ thống DIPRE.................................. 24
Bảng 3: Ví dụ các sự kiện được mô tả dưới dạng bộ - 7 ................................... 24
Bảng 4: Ví dụ về việc sinh các mẫu DIPRE ..................................................... 26
Bảng 5: Năm bộ quan hệ hạt giống của hệ thống Snowball .............................. 27
Bảng 6: Một số lớp thường dùng trong WordNet ............................................. 45
Bảng 7: Cấu hình của máy PC dùng trong thực nghiệm ................................... 50
Bảng 8: Các công cụ sử dụng trong thực nghiệm.............................................. 50
Bảng 9: Các thư viện sử dụng trong thực nghiệm ............................................. 50
Bảng 10: Dữ liệu kiểm thử và dữ liệu huấn luyện............................................. 51
Bảng 11: Tập các quan hệ hạt giống ban đầu.................................................... 51
Bảng 12: Một số cặp ở lần lặp đầu tiên ............................ 52
Bảng 13: Giá trị Precision, Recall và F1 sau các vòng lặp ................................ 52
Bảng 14: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup................ 54
Bảng 15: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 5000 .............. 55
Bảng 16: Kết quả so sánh giữa thực nghiệm 1 và 2 .......................................... 55
Bảng 17: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 1200 ....... 56
Bảng 18: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 5000 ....... 56
Bảng 19: Bảng thống kê kết quả trích chọn khi áp dụng giải thuật DIPRE cho
bài toán trích chọn tên máy ảnh số ................................................................... 56
Bảng 20: Kết quả thực nghiệm 5 với số lượng các cặp tìm được ...................... 58
Bảng 21: Kết quả thực nghiệm 5 - Một số mẫu có độ chính xác cao và xuất hiện
nhiều ................................................................................................................ 58
Bảng 22: Kết quả thực nghiệm 5 - Thống kê các loại máy ảnh phổ biến nhất ... 59
Bảng 23: Kết quả thực nghiệm 5 - Thống kê số lượng máy ảnh theo hãng sản
xuất .................................................................................................................. 60
Bảng 24: Các quan hệ ngữ nghĩa trong WordNet ............................................. 64
6
Danh mục các hình vẽ, đồ thị
Hình 1: Minh họa về một hệ thống trích chọn thông tin...................................... 8
Hình 2: Ví dụ về khai phá quan điểm ............................................................... 10
Hình 3: Sơ đồ hoạt động của hệ thống AutoSlog .............................................. 17
Hình 4: Sơ đồ hoạt động của hệ thống AutoSlog – TS...................................... 19
Hình 5: Ví dụ về AutoSlog - TS ....................................................................... 21
Hình 6: Mô hình hoạt động của hệ thống DIPRE ............................................. 22
Hình 7: Mô hình hoạt động của hệ thống Snowball .......................................... 27
Hình 8: Các sự kiện tìm được dựa vào bộ quan hệ hạt giống ............................ 28
Hình 9: Mô hình hệ thống trích chọn tên máy ảnh số ....................................... 35
Hình 10: Mô hình của pha tiền xử lí ................................................................. 36
Hình 11: Mô hình thuật toán sinh mẫu từ một bộ quan hệ ................................ 43
Hình 12: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 1200 .............. 53
Hình 13: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup ................ 54
Hình 14: Kết quả thực nghiệm 3 (a) và thực nghiệm 4 (b) đối với giá trị F1..... 57
7
Mở đầu
Trích chọn thực thể là bài toán cơ bản nhất trong các bài toán trích chọn
thông tin nhưng lại đóng vai trò khá quan trọng. Thực thể tên ngày càng được
ứng dụng trong nhiều bài toán trong khai phá dữ liệu web cũng như nhiều các
bài toán trong xử lý ngôn ngữ tự nhiên. Do đó việc xây dựng các giải thuật trích
chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng. Luận văn tập
trung vào tìm hiểu việc xây dựng một mô hình trích chọn thực thể tên và ứng
dụng vào trích chọn thực thể tên máy ảnh trên web.
Cấu trúc luận văn gồm 4 chương:
Chương 1: Giới thiệu một cách khái quát nhất bài toán trích chọn thông tin,
tính ứng dụng thực tiễn của bài toán.
Chương 2: Trình bày một số các khái niệm liên quan đến bài toán trích
chọn thông tin, các phương pháp trích chọn thông tin. Với mỗi phương pháp
trình bày một mô hình minh họa. Đây là cơ sở luận quan trọng để luận văn đề
xuất một mô hình áp dụng với bài toán trích chọn thực thể. Cụ thể luận văn lựa
chọn hướng tiếp cận học bán giám sát.
Chương 3: Ứng dụng phương pháp học bán giám sát vào hệ thống trích
chọn tên máy ảnh kĩ thuật số.
Chương 4: Kết quả thực nghiệm của luận văn, đánh giá phương pháp và kết
quả đạt được.
Phần kết luận: Tóm lược những nội dung chính đạt được của luận văn đồng
thời cũng chỉ ra những điểm cần khắc phục và đưa ra những định hướng nghiên
cứu trong tương lai.
8
CHƯƠNG 1. GIỚI THIỆU
Với sự bùng nổ của Internet và các phương tiện lưu trữ đã tạo ra một lượng
thông tin khổng lồ. Bên cạnh đó nhu cầu về tốc độ xử lý thông tin cũng như tính
chính xác ngày càng tăng. Hiện nay, các máy tìm kiếm (search engine) thực hiện
việc tìm những trang web phù hợp với yêu cầu câu hỏi người dùng.
Mặc dù chất lượng của các máy tìm kiếm đã được cải thiện nhưng kết quả
trả về chỉ là những tài liệu có liên quan, chúng không dễ dàng gì rút ra được các
mối quan hệ tiềm ẩn và tạo được các câu trả lời cho các truy vấn phức tạp, chẳng
hạn như “danh sách các công ty liên doanh” hoặc “danh sách các nhà lãnh đạo
quốc tế trên toàn thế giới”. Người ta phân loại câu trả lời các truy vấn ở dạng: có
phân tích các tài liệu liên quan để tập hợp những thông tin cần thiết. Nếu nhiều
mối quan hệ như “Công ty A liên doanh với công ty B” được lưu trong các tài
liệu thì nó tự động tổng hợp và cấu trúc hóa, điều này rất tốt không chỉ cho các
hệ thống truy vấn thông tin mà còn cho các hệ thống hỏi đáp tự động và tóm tắt
văn bản. Do đó khai thác được những tri thức đó sẽ mang lại nhiều thông tin bổ
ích. Đó là lĩnh vực mà “trích chọn thông tin” nghiên cứu.
Trích chọn thông tin (Information Extraction - IE) là công việc trích ra các
thông tin có cấu trúc từ các văn bản không có cấu trúc. Nói cách khác, một hệ
thống trích chọn thông tin rút ra những thông tin đã được định nghĩa trước về
các thực thể và mối quan hệ giữa các thực thể từ một văn bản dưới dạng ngôn
ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ liệu có cấu
trúc hoặc một dạng mẫu được định nghĩa trước đó. Không giống như hiểu toàn
bộ văn bản, các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số thông
tin đáng quan tâm ở một lĩnh vực nào đó. Ví dụ hệ thống trích chọn các bộ quan
hệ từ các tài liệu web, bổ sung chúng vào cơ sở
dữ liệu.
Canon has posted a firmware update for
its EOS 7D digital SLR.
Pentax has announced the Optio RS1500
compact camera with interchangeable,
user designable covers.
Casio and Ricoh have released firmware
updates for the Exilim EX-H20G and
G700SE digital cameras respectively
Hình 1: Minh họa về một hệ thống trích chọn thông tin
Producer Camera
Canon EOS 7D
Pentax Optio RS1500
Casio Exilim EX-H20G
Ricoh G700SE
9
Có rất nhiều mức độ cũng như nội dung công việc trích chọn thông tin khác
nhau. Một số bài toán trích chọn có thể liệt kê như sau:
Trích chọn là thực thể tên (Named Entity –NE). Một thực thể tên là một
thực thể được đặt một tên riêng, ví dụ như “Barack Obama” là một thực
thể tên người, “Microsoft Corporation” là thực thể tên công ty/ tổ chức
[7, 17].
Trích chọn thông tin là đi tìm những quan hệ giữa các đối tượng có tên
được chỉ định trước. Ví dụ: từ một câu “Bill Gates là chủ tịch của
Microsoft”, chúng ta muốn hệ thống có thể đưa ra được kết quả: Bill
Gates là một tên người, Microsoft là tên một tổ chức và Bill Gates ông
chủ của Microsoft. Một số quan hệ khác có thể là: quan hệ sát nhập
(affiliation); quan hệ vai trò (role); quan hệ về vị trí, địa điểm (location);
quan hệ toàn thể-bộ phận (part-whole); quan hệ nhân quả (cause-effect);
các mối quan hệ xã hội … giữa các cặp thực thể. Ví dụ, câu “George
Bush được bầu làm tổng thống của Mỹ.” Thì quan hệ, “George Bush”
(Person) là “tổng thống” của “Mỹ”, có thể được rút ra. [5]
Trích chọn sự kiện cho miền dữ liệu tin tức dưới dạng khung mẫu
(template). Mỗi khung mẫu bao gồm tập hợp các slot cần được lấp đầy
bởi một hoặc nhiều giá trị. Những giá trị này có thể bao gồm văn bản
thuần túy, các con trỏ trỏ tới các đối tượng khung mẫu khác [4, 9]. Ví
dụ: “4 Apr. Dallas - Early last evening, a tornado swept through northwest
Dallas. The twister occurred without warning at about 7:15 pm and destroyed
two mobile homes. The Texaco station at 102 Main St. was also severely
damaged, but no injuries were reported.” Đoạn văn bản tóm tắt câu chuyện
về thảm họa tự nhiên lốc xoáy, trích chọn các thông tin về ngày và thời
gian xảy ra, và thiệt hại tài sản hay thương tích về con người do sự kiện
gây ra. Hệ thống có thể trích chọn ra khung mẫu sau:
Event: tornado
Date: 4/3/97
Time: 19:15
Location: “northwest Dallas”: Texas: USA
Damage: “mobile homes” (đối tượng bị thiệt hại – Damaged
Object)
“Texaco station” (đối tượng bị thiệt hại)
Khai phá quan điểm (opinion mining): trong lĩnh vực này ta cần trích
chọn ra các nhận định của người dùng về một đối tượng nào đó [14].
Hình 2 chỉ ra một trong các quan điểm mà ta có thể trích ra là thông tin
10
người dùng nhận thấy “the colors of pictures” được chụp bởi sản phẩm
Powershot là “great”.
Hình 2: Ví dụ về khai phá quan điểm
Ngoài ra tùy vào từng ứng dụng cụ thể mà ta có thể cần trích chọn các
đối tượng khác trong văn bản, chẳng hạn trích chọn các nguyên nhân
dẫn đến một loại bệnh nào đó [10], …
Con người, thời gian, địa điểm, các con số, ... là những đối tượng cơ bản
trong một văn bản dù ở bất kì ngôn ngữ nào. Do đó thực thể tên là một đối
tượng được quan tâm rất nhiều và ngày càng trở nên quan trọng, nó đang được
khai thác và ứng dụng trong nhiều bài toán trong lĩnh vực xử lý ngôn ngữ tự
nhiên (Natural Language Processing) cũng như khai phá văn bản và khai phá
web (Web Mining).
Mục đích chính của bài toán nhận biết các loại thực thể là xác định những
đối tượng này từ đó phần nào giúp cho chúng ta trong việc hiểu văn bản. Rõ
ràng trước khi có thể xác định được các mối quan hệ giữa các thực thể ta phải
xác định được đâu là các thực thể tham gia vào mối quan hệ đó. Ví dụ về một số
ứng dụng của thực thể tên trong lĩnh vực xử lý ngôn ngữ tự nhiên và khai phá dữ
liệu văn bản, web là:
Dịch máy (Machine Translation): khi chúng ta phát hiện ra được một
thực thể tên trong một văn bản thì khi dịch sang ngôn ngữ mới ta
thường để nguyên thực thể tên đó chứ không dịch [12].
I just bought a Powershot a
few days ago. I took some
pictures using the camera.
Here are my feelings:
(1) colors are so great even
when flash is used
(2) easy to grip since the body
has a grip handle
Opinion holder (writer)
Suject
Part
Attribute
Evaluation
Condition
Opinion unit 1
Opinion holder (writer)
Suject
Part
Attribute
Evaluation
Condition <body has a grip
handle>
Opinion unit 2
11
Tóm tắt văn bản: Khi xác định được nội dung của một văn bản nói về
một thực thể tên nào đó thì chúng ta sẽ gán trọng số cao cho các câu có
đề cập đến thực thể tên, cách này có thể làm tăng chất lượng của hệ tóm
tắt [11].
Phân lớp văn bản: khi tìm ra được một thực thể tên thường thuộc một
phân lớp văn bản nào đó, thì đó sẽ là một thông tin quan trọng để giúp
làm tăng chất lượng của các giải thuật phân lớp. Chẳng hạn như tin nói
về tổng thống Obama thường hay xuất hiện ở thể loại tin tức là: Thế giới
[15].
Tìm kiếm thực thể: đây là một hướng phát triển mới của các máy tìm
kiếm. Khi nhu cầu người dùng tăng cao thì người ta muốn các máy tìm
kiếm trở nên thông minh hơn, và người ta mong muốn có một hệ thống
tìm kiếm có thể trả về các thực thể người ta cần chứ không phải là các
văn bản chứa các thực thể như những máy tìm kiếm hiện tại [13].
Hệ thống hỏi đáp [16], chẳng hạn giúp trả lời các câu hỏi liên quan đến
thực thể như “Ai là người đầu tiên đặt chân lên mặt trăng?”
- Tên lửa được phóng ra từ đâu?
- Ai là chủ nhân và điều khiển tên lửa đó?
- Khối lượng chất nổ trong tên lửa?
- Chất nổ sử dụng là gì?
Ứng dụng trong phân tích một đối tượng nào đó. Ví dụ như trong một
tài liệu văn bản mô tả bằng ngôn ngữ tự nhiên, ta có thể tìm hiểu sự di
chuyển của các giám đốc điều hành từ vị trí này đến vị trí khác ở các
công ty khác nhau dựa vào các thực thể kiểu: Tên nhà điều hành, Tên
công ty cũ, Vị trí cũ, Tên công ty mới, Vị trí mới, Ngày chuyển đi.
Thông tin này có ích trong việc phân tích, chẳng hạn như các phân tích
liên kết, trình bày tiến trình thời gian, địa vị, và vẽ đồ thị của xu hướng.
Ngày nay những thông tin trích chọn cũng được sử dụng để hỗ trợ và
tăng cường các loại khác của các ứng dụng xử lý văn bản như các hệ
thống truy vấn thông tin, hệ thống hỏi đáp, phân loại văn bản…
…
Muốn khai thác được thực thể tên vào các bài toán cụ thể thì công việc đầu
tiên là phải nhận dạng ra được các thực thể tên có trong văn bản. Do đó bài toán
nhận dạng thực thể tên (Named Entity Recognition – NER) ngày càng trở nên
bài toán mang tính chất rất quan trọng và rất cần làm tăng chất lượng của nó.
Luận văn tập trung vào bài toán trích chọn thực thể tên và quan hệ của nó trong
văn bản.
12
Nhận dạng thực thể có tên là một công việc của xử lý ngôn ngữ tự nhiên
trên máy tính, được giới thiệu lần đầu tiên tại hội nghị MUC lần thứ 6 [8], bao
gồm các nhiệm vụ: nhân dạng tên người (PERSON), địa danh (LOCATION), tổ
chức (organization) (ENAMEX); ngày tháng (date), thời gian (time) (TIME); và
tỷ lệ (percentage), tiền tệ (monetary) (NUMEX). Giờ các thực thể tên được mở
rộng hơn như tên các loại bệnh, tên các loại protin, tiêu đề bài báo, tên các cuộc
hành trình…
WWW chứa đựng một nguồn thông tin khổng lồ, và cực kỳ phân tán, từ cơ
sở dữ liệu DNA đến danh sách các nhà hàng ưu thích. Tuy nhiên dữ liệu rải rác
trong hàng ngàn nguồn thông tin với nhiều định dạng khác nhau. Nếu các mẩu
thông tin này có thể được trích chọn từ WWW và tích hợp vào một dạng có cấu
trúc, chúng sẽ tạo thành một nguồn thông tin chưa từng có. Nó sẽ bao gồm một
thư mục quốc tế lớn nhất của con người, các cơ sở dữ liệu lớn và đa dạng nhất
các sản phẩm, và nhiều nguồn tài nguyên hữu ích khác. Chúng ta sẽ trích chọn
một quan hệ từ hàng nghìn nguồn dữ liệu, để lấy được những mẩu quan hệ trong
WWW. Nhưng một thực tế là khối lượng thông tin quá lớn,