Đề tài Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình crfs theo tiêu chuẩn kỳ vọng tổng quát

Trích chọn thông tin là một khâu cơ bản trong bài toán khai phá dữliệu. Ngày nay, cùng với sựphát triển của công nghệthông tin, Tin học đã dần được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh tế, thương mại, y tế, ngân hàng và mang lại nhiều lợi ích to lớn. Bản thân tôi hiện đang công tác tại Học việ n Cảnh sát nhân dân, tôi có những hiểu biết nhất định vềcông tác giữgìn trật tựan toàn xã hội của lực lượng cảnh sát nhân dân. Tôi nhận thấy, các hoạt động của lực lượng cảnh sát có liên quan nhiều đến việc lưu trữ h ồsơ dữ li ệu, tra cứu, phân tích tổng hợp dữliệu. Tuy nhiên, công tác quản lý hồsơ dữliệu này vẫn còn kém hiệu quảdo những hạn chếnhất định. Do đó tôi đã mạnh dạnchọn đề tài tập trung nghiên cứu vào việc trích lọc thông tin trên tập văn bản pháp luật này. Trong nhiều thập kỷqua, các nhà khoa học quan tâm đến lĩnh vực xử lý ngôn ngữtựnhiên đã nghiên cứu và đềxuất được nhiều phương pháp, mô hình xửlý ngônngữvới hiệu quảcao. Nổi bật trong sốđó là phương pháp học máy bán giám sát dựa trên mô hình trường ngẫu nhiên có điều kiện theo tiêu chuẩ n kỳvọng tổng quát, phương pháp này đạt được kết quảrất khảquan trên tập dữ liệu ngôn ngữtiếng Anh và hiện chưađược áp dụng cho tiếng Việt. Được sự giúp đỡvà đồng ý của Thầy giáo hướng dẫn TS. Nguyễn Lê Minh,tác giảquyết định sửdụng mô hình này ứng dụng cho tập văn bản pháp luật. Bốcục của luận văn chia thành 4 chương như sau:  Chương 1: Trình bày những kiến thức cơ bản về mô hình trường ngẫu nhiên có điều kiện và phương pháp học máy bán giám sát.  Chương 2: Trình bày vềtiêu chuẩn kỳ vọng tổng quát và áp dụng tiêu chuẩn kỳvọng tổng quát vàomô hình trường ngẫu nhiên có điều kiện.  Chương 3: Trình bày vềbài toán trích chọn thưc thểtrên tập văn bản pháp luật và đềxuất mô hình giải quyết bài toán dựa trên mô hình CRFs theo tiêu chuẩn kỳvọng tổng quát.  Chương 4: Trình bày các thực nghiệ m trên tập dữliệu sửdụng một sốmô hình học máy có giám sát CRFs, và mô hình học máy bán giám sát CRFs theo chuẩn hóa entropy và theo tiêu chuẩn kỳvọngtổng quát; Từ đó đánh giá kết quảthu được.

51 trang | Chia sẻ: lvbuiluyen | Lượt xem: 2075 | Lượt tải: 5

Bạn đang xem trước 20 trang tài liệu Đề tài Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình crfs theo tiêu chuẩn kỳ vọng tổng quát, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

- 1 - 1 TRƯỜNG …………………. KHOA………………………. ---------- Báo cáo tốt nghiệp Đề tài: TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT - 2 - 2 LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luận theo quy định cho lời cam đoan của mình. Hà Nội, 05/2011 Phạm Thị Ngân - 3 - 3 MỤC LỤC LỜI CAM ĐOAN .............................................................................................. 1 MỤC LỤC ......................................................................................................... 3 DANH MỤC HÌNH VẼ ..................................................................................... 5 DANH MỤC BẢNG BIỂU................................................................................ 6 KÝ TỰ VIẾT TẮT............................................................................................. 7 LỜI CẢM ƠN .................................................................................................... 8 LỜI MỞ ĐẦU.................................................................................................... 9 CHƯƠNG 1: HỌC BÁN GIÁM SÁT THEO MÔ HÌNH TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN.................................................................................. 11 1.1. Phương pháp học máy Trường ngẫu nhiên có điều kiện ............................. 11 1.1.1. Khái niệm trường ngẫu nhiên có điều kiện ......................................... 11 1.1.2. Học máy CRFs ................................................................................... 13 1.1.2.1. Hàm tiềm năng của các mô hình CRFs .................................... 13 1.1.2.2. Thuật toán gán nhãn cho dữ liệu dạng chuỗi. ........................... 14 1.1.2.3. Ước lượng tham số cho các mô hình CRFs .............................. 15 1.2. Học máy bán giám sát CRFs ...................................................................... 15 1.2.1. Học máy bán giám sát......................................................................... 15 1.2.1.1. Học không có giám sát và Học có giám sát ............................. 16 1.2.1.2. Học máy bán giám sát.............................................................. 18 1.2.1.3. Một số thuật toán học máy bán giám sát .................................. 19 1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs ................................... 21 1.3. Kết luận chương 1 ...................................................................................... 22 CHƯƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT ...................................................................................... 23 2.1. Tiêu chuẩn kỳ vọng tổng quát .................................................................... 23 2.1.1. Giới thiệu sơ bộ .................................................................................. 23 2.1.2. Tiêu chuẩn kỳ vọng tổng quát............................................................. 24 2.2. Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát ... 26 - 4 - 4 2.3. Kết luận chương 2 ...................................................................................... 28 CHƯƠNG 3: MỘT MÔ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH CHỌN THÔNG TIN PHÁP LUẬT TIẾNG VIỆT ......................................... 29 3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt ................................. 29 3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt........... 29 3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt .................. 31 3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp luật tiếng Việt ...................................................................................................... 31 3.2.1. Một số phân tích ................................................................................. 31 3.2.2. Mô hình đề nghị ................................................................................. 32 3.2.3. Lựa chọn thuộc tính............................................................................ 36 3.2.4. Cách đánh giá ..................................................................................... 36 3.3. Kết luận chương 3 ...................................................................................... 37 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................. 38 4.1. Mô hình thực nghiệm ................................................................................ 38 4.1.1. Dữ liệu thực nghiệm ........................................................................... 38 4.1.2. Bộ công cụ Mallet .............................................................................. 38 4.2. Thực nghiệm và đánh giá .......................................................................... 38 4.2.1. Môi trường thực nghiệm..................................................................... 38 4.2.2. Mô tả quy trình thực nghiệm............................................................... 38 4.2.3. Kết quả thực nghiệm........................................................................... 39 4.2.4. Đánh giá ............................................................................................. 40 4.3. Kết luận chương 4 ..................................................................................... 43 KẾT LUẬN...................................................................................................... 45 TÀI LIỆU THAM KHẢO ................................................................................ 47 - 5 - 5 DANH MỤC HÌNH VẼ Hình 1. Đồ thị vô hướng mô tả CRFs ....................................................... 12 Hình 2. Một bước trong thuật toán Viterbi cải tiến................................... 14 Hình 3/4. Mô hình đề xuất giải quyết bài toán.......................................... 34 Hình 5. Tập các ràng buộc (Constraint file) ............................................. 35 Hình 6. Kết quả nhóm thực nghiệm 1 ....................................................... 40 Hình 7. Kết quả nhóm thực nghiệm 2 ....................................................... 40 Hình 8. Kết quả nhóm thực nghiệm 3 ....................................................... 41 Hình 9. Kết quả nhóm thực nghiệm 4 ....................................................... 42 Hình 10. Kết quả nhóm thực nghiệm 5 ..................................................... 43 - 6 - 6 DANH MỤC BẢNG BIỂU Bảng 1. Mẫu ngữ cảnh từ vựng ........................................................................ 36 Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể .................................................. 36 Bảng 3. Kết quả nhóm thực nghiệm 1............................................................... 39 Bảng 4. Kết quả nhóm thực nghiệm 2............................................................... 40 Bảng 5. Kết quả nhóm thực nghiệm 3............................................................... 41 Bảng 6. Kết quả nhóm thực nghiệm 4............................................................... 42 Bảng 7. Kết quả nhóm thực nghiệm 5............................................................... 42 - 7 - 7 KÝ TỰ VIẾT TẮT CRFs Conditional Random Fields EM Entropy Maximum GE Generalized Expectation GEC Generalized Expectation Criteria GIS Generalized Iterative Scaling i.i.d independently and identically IIS Improved Iterative Scaling KL Kullback Leibler L-BFGS Limited memory Broyden–Fletcher–Goldfarb–Shanno LOC LOCation MISC MIScellaneous NER Named Entity Recognition ORG ORGanization PER PERson - 8 - 8 LỜI CẢM ƠN Để hoàn thành luận văn này tác giả đã nhận được sự giúp đỡ từ rất nhiều cơ quan, đoàn thể và cá nhân. Trước hết tôi xin chân thành cảm ơn các thầy giáo, cô giáo trong Khoa Công nghệ Thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình học tập tại trường. Tôi xin bày tỏ lòng biết ơn sâu sắc đến TS. Nguyễn Lê Minh - người thầy đã trực tiếp hướng dẫn tôi trong suốt quá trình xây dựng và hoàn thành luận văn này. Tôi xin bày tỏ lòng biết ơn chân thành đến thầy giáo PGS.TS. Hà Quang Thụy và các bạn trong Phòng thí nghiệm công nghệ tri thức, Trường Đại học Công nghệ đã giúp đỡ và đóng góp nhiều ý kiến quý báu cho tôi. Cuối cùng, tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè, những người luôn động viên, giúp đỡ tôi rất nhiệt tình để hoàn thành luận văn. Hà Nội, tháng 05 năm 2011 Học viên Phạm Thị Ngân - 9 - 9 LỜI MỞ ĐẦU Trích chọn thông tin là một khâu cơ bản trong bài toán khai phá dữ liệu. Ngày nay, cùng với sự phát triển của công nghệ thông tin, Tin học đã dần được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh tế, thương mại, y tế, ngân hàng và mang lại nhiều lợi ích to lớn. Bản thân tôi hiện đang công tác tại Học viện Cảnh sát nhân dân, tôi có những hiểu biết nhất định về công tác giữ gìn trật tự an toàn xã hội của lực lượng cảnh sát nhân dân. Tôi nhận thấy, các hoạt động của lực lượng cảnh sát có liên quan nhiều đến việc lưu trữ hồ sơ dữ liệu, tra cứu, phân tích tổng hợp dữ liệu... Tuy nhiên, công tác quản lý hồ sơ dữ liệu này vẫn còn kém hiệu quả do những hạn chế nhất định. Do đó tôi đã mạnh dạn chọn đề tài tập trung nghiên cứu vào việc trích lọc thông tin trên tập văn bản pháp luật này. Trong nhiều thập kỷ qua, các nhà khoa học quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên đã nghiên cứu và đề xuất được nhiều phương pháp, mô hình xử lý ngôn ngữ với hiệu quả cao. Nổi bật trong số đó là phương pháp học máy bán giám sát dựa trên mô hình trường ngẫu nhiên có điều kiện theo tiêu chuẩn kỳ vọng tổng quát, phương pháp này đạt được kết quả rất khả quan trên tập dữ liệu ngôn ngữ tiếng Anh và hiện chưa được áp dụng cho tiếng Việt. Được sự giúp đỡ và đồng ý của Thầy giáo hướng dẫn TS. Nguyễn Lê Minh, tác giả quyết định sử dụng mô hình này ứng dụng cho tập văn bản pháp luật. Bố cục của luận văn chia thành 4 chương như sau:  Chương 1: Trình bày những kiến thức cơ bản về mô hình trường ngẫu nhiên có điều kiện và phương pháp học máy bán giám sát.  Chương 2: Trình bày về tiêu chuẩn kỳ vọng tổng quát và áp dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường ngẫu nhiên có điều kiện.  Chương 3: Trình bày về bài toán trích chọn thưc thể trên tập văn bản pháp luật và đề xuất mô hình giải quyết bài toán dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát.  Chương 4: Trình bày các thực nghiệm trên tập dữ liệu sử dụng một số mô hình học máy có giám sát CRFs, và mô hình học máy bán giám sát CRFs theo chuẩn hóa entropy và theo tiêu chuẩn kỳ vọng tổng quát; Từ đó đánh giá kết quả thu được. Trong phần kết luận, luận văn tóm tắt lại những công việc đã thực hiện và các kết quả đạt được. Đồng thời cũng đề cập đến những điểm còn hạn chế của - 10 - 10 luận văn và hướng nghiên cứu trong tương lai. - 11 - 11 CHƯƠNG 1 HỌC BÁN GIÁM SÁT THEO MÔ HÌNH TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 1.1. Phương pháp học máy Trường ngẫu nhiên có điều kiện Mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields, viết tắt là CRFs) được Lafferty và cộng sự, 2001 [LCP01] giới thiệu lần đầu tiên vào năm 2001. CRFs là mô hình dựa trên xác suất có điều kiện, nó cho phép tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Tuy nhiên, khác với các mô hình xác suất khác, CRFs là mô hình đồ thị vô hướng. Điều này cho phép CRFs có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong các mô hình đồ thị có hướng khác. Theo Lafferty và cộng sự [LCP01], Hanna M. Wallach, 2002 và 2004 [Wal02, Wal04], bản chất “phân phối điều kiện” và “phân phối toàn cục” của CRFs cho phép mô hình này khắc phục được những nhược điểm của các mô hình trước đó trong việc gán nhãn và phân đoạn các dữ liệu dạng chuỗi mà tiêu biểu là vấn đề ‘label bias’. Khi đề cập đến trường ngẫu nhiên có điều kiện, chúng ta sử dụng một số qui ước kí hiệu:  Chữ viết hoa X, Y, Z…kí hiệu các biến ngẫu nhiên.  Chữ thường đậm x, y, t, s,…kí hiệu các vector như vector biểu diễn chuỗi các dữ liệu quan sát, vector biểu diễn chuỗi các nhãn …  Chữ viết thường in đậm và có chỉ số là kí hiệu của một thành phần trong một vector, ví dụ xi chỉ một thành phần tại vị trí i trong vector x.  Chữ viết thường không đậm như x, y,… là kí hiệu các giá trị đơn như một dữ liệu quan sát hay một trạng thái.  S: Tập hữu hạn các trạng thái của một mô hình CRFs. 1.1.1. Khái niệm trường ngẫu nhiên có điều kiện Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S. Trong bài toán gán nhãn từ loại, X có thể nhận giá trị là các câu trong ngôn ngữ - 12 - 12 tự nhiên (gồm các từ), Y là một chuỗi ngẫu nhiên các nhãn tương ứng với các từ tạo thành câu này và mỗi một thành phần Yi của Y có miền giá trị là tập tất cả các nhãn từ loại có thể (danh từ, động từ, tính từ,...). Cho một đồ thị vô hướng phi chu trình G = (V, E), ở đây V là tập các đỉnh của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị. Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa một đỉnh và một thành phần Yv của Y. Ta nói (Y|X) là một trường ngẫu nhiên điều kiện (Conditional Random Field) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G [LCP01]: ))(,,|(),,|( vNYXYPvYXYP vv    (1.1) Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc toàn cục vào X. Trong các bài toán xử lý dữ liệu dạng chuỗi, G đơn giản chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}). Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mô hình đồ thị cho CRFs có dạng: Hình 1. Đồ thị vô hướng mô tả CRFs Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn cấu trúc của một CRFs. Áp dụng kết quả của J.Hammersley và P. Clifford, 1971 [HC71] cho các trường ngẫu nhiên Markov, sẽ thừa số hóa được p(y|x) - xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát - thành tích của các hàm tiềm năng như sau (theo [Wal04]):    CA A AP )|()|( xxy  (1.2) Vì trong các bài toán xử lý dữ liệu dạng chuỗi, đồ thị biểu diễn cấu trúc của một CRF có dạng đường thẳng như trong hình 1 cho nên tập C phải là hợp của E và V, trong đó E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách khác đồ thị con A hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G. Yn-1 Y Y Y Y - 13 - 13 1.1.2. Học máy CRFs 1.1.2.1. Hàm tiềm năng của các mô hình CRFs Lafferty và cộng sự [LCP01] giới thiệu phương pháp xác định các hàm tiềm năng cho các mô hình CRFs dựa trên nguyên lý cực đại hóa Entropy. Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác suất từ một tập các dữ liệu huấn luyện. Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng một hàm mũ.     k kkA AfA xx |exp|  (1.3) Ở đây fk là một thuộc tính của chuỗi dữ liệu quan sát và k là trọng số chỉ mức độ biểu đạt thông tin của thuộc tính fk. Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng thái (kí hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G. Thay các hàm tiềm năng vào công thức (1.2) và thêm vào đó một thừa số chuẩn hóa Z(x) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi dữ liệu quan sát bằng 1, ta được:           i i k ikk k iikk stZ P ),(),,(exp )( 1)|( 1 xyxyyx xy  (1.4) Ở đây, x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; tk là thuộc tính của tòan bộ chuỗi quan sát và các trạng thái tại ví trí i-1, i trong chuỗi trạng thái; sk là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví trí i trong chuỗi trạng thái. Thừa số chuẩn hóa Z(x) được tính như sau:            y i i k ikk k iikk stZ ),(),,(exp)( 1 xyxyyx  (1.5) Đặt ..),...,,( 2,121  là các vector các tham số của mô hình,  được ước lượng giá trị nhờ các phương pháp ước lượng tham số cho mô hình sẽ được đề cập trong phần sau. si = 1 nếu xi=Bill và yi= B_PER 0 nếu ngược lại ti = = 1 nếu xi-1= “Bill”, xi=”Clinton” và yi-1=B_PER,yi=I_PER 0 nếu ngược lại - 14 - 14 1.1.2.2. Thuật toán gán nhãn cho dữ liệu dạng chuỗi. Tại mỗi vị trí i trong chuỗi dữ liệu quan sát, ta định nghĩa một ma trận chuyển |S|×|S| như sau:  ),,'()( xx yyMM ii  (1.6)          k k kkkki ysyytyyM ),(),,'(exp),,'( xxx  (1.7) Ở đây Mi(y’, y, x) là xác suất chuyển từ trạng thái y’ sang trạng thái y với chuỗi dữ liệu quan sát là x. Chuỗi trạng thái y* mô tả tốt nhất cho chuỗi dữ liệu quan sát x là nghiệm của phương trình: y* = argmax{p(y|x)} (1.8) Chuỗi y* được xác định bằng thuật toán Viterbi cải tiến [Spr07] như mô tả trong hình 2. Định nghĩa )(yi là xác suất của “chuỗi trạng thái độ dài i kết thúc bởi trạng thái y và có xác suất lớn nhất” biết chuỗi quan sát là x. Giả sử biết tất cả )( ki y với mọi yk thuộc tập trạng thái S của mô hình, cần xác định )(1 ji y . Từ hình 2, ta suy ra công thức truy hồi   SyyyMyy kjkikiji   ),,(*)(max)( 11 x (1.9) Hình 2. Một bước trong thuật toán Viterbi cải tiến Đặt  ),,'(*)'(maxarg)(Pr 1 xyyMyye iii  . Giả sử chuỗi dữ liệu quan sát x có độ dài n, sử dụng kĩ thuật backtracking để tìm chuỗi trạng thái y* tương ứng như sau:  Bước 1: Với mọi y thuộc tập trạng thái tìm o  )(maxarg)(* yn ny o i  n ? Pr Pr )( Ni y )( 1yi )( 2yi )(1 ji y - 15 - 15  Bước lặp: chừng nào i>0 o i  i-1 o y  Prei(y) o y*(i) = y Chuỗi y* tìm được chính là chuỗi có xác suất p(y*|x) lớn nhất, đó cũng chính là chuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát cho trước. Như vậy, do bản chất phân phối toàn cục của mình, CRFs có thể giải quyết được vấn đề ‘label bias’, một nhược điểm tiêu biểu của mô hình MEM [MMI02, Wal04]. Ở phương diện lý thuyết mô hình, ta có thể coi mô hình CRFs như là một máy trạng thái xác suất với các trọng số không chuẩn hóa, mỗi trọng số gắn liền với một bước chuyển trạng thái. Bản chất không chuẩn hóa của các trọng số cho phép các bước chuyển trạng thái có thể nhận các giá trị quan trọng khác nhau. Vì thế bất cứ một trạng thái nào cũng có thể làm tăng hoặc giảm xác suất được truyền cho các trạng thái sau nó mà vẫn đảm bảo xác suất cuối cùng được gán cho toàn bộ chuỗi trạng thái thỏa mãn định nghĩa về xác suất nhờ thừa số chuẩn hóa toàn cục. 1.1.2.3. Ước lượng tham số cho các mô hình CRFs Kĩ thuật được sử dụng để đánh giá tham số cho một mô hình CRFs là làm cực đại hóa độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm. Nguyên lý cực đại likelihood được phát biểu như sau: Các tham số tốt nhất của mô hình là các tham số làm cực đại hàm likelihood. Như vậy, về phương diện toán học, bài toán ước lượng