Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên
cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về
collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số
phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn
collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương
pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề
xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn.
Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh
hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu
thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán
nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương
trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng
tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt.
49 trang |
Chia sẻ: lvbuiluyen | Lượt xem: 2849 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Khóa luận Các kỹ thuật xác định collocation và ứng dụng cho Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đồng Thị Ngân
CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ
ỨNG DỤNG CHO TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đồng Thị Ngân
CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ
ỨNG DỤNG CHO TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: TS. Lê Anh Cường
HÀ NỘI - 2010
LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã
luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này.
Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy
tính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu
không có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoá
luận.
Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã
luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá
trình thực hiện luận văn.
Hà Nội, ngày 21 tháng 5 năm 2010
Sinh viên thực hiện
ĐỒNG THỊ NGÂN
TÓM TẮT LUẬN VĂN
Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên
cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về
collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số
phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn
collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương
pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề
xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn.
Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh
hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu
thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán
nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương
trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng
tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt.
GIỚI THIỆU
Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”,
mặc dù “strong” và “powerful” tương đương với nhau về nghĩa, và “powerful tea”
không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giản
chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân
theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định
nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ
không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh
nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation
thường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thành
phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó.
Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định
nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọn
collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn
này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất
hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp
tương đối cố định.
Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23],
biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25,
27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự
cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn
ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn.
Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được
tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực
khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở
mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp
thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền
xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm;
từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương
trình.
Mục tiêu của luận văn:
Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa,
đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và
các bài toán xử lý ngôn ngữ tự nhiên.
Trình bày một số phương pháp trích chọn collocation dựa trên thống kê. Cụ
thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương
pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết
và phương pháp dựa trên thông tin tương hỗ. Với mỗi phương pháp, từ việc
trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào
bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực
nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích
chọn collocations trong tiếng Việt.
Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương
pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết
quả và độ chính xác của chương trình.
Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng
cho trích chọn collocation có dạng cụm danh từ. Từ việc trình bày cơ sở lý
thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được
và độ chính xác của chương trình dựa trên phương pháp này.
MỤC LỤC
GIỚI THIỆU
Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG
VIỆT 1
1.1. ĐỊNH NGHĨA ............................................................................................ 1
1.2. ĐẶC TRƯNG ............................................................................................. 1
1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. .............................................. 1
1.2.2. Có tính cứng nhắc: .................................................................................. 2
1.2.3. Phụ thuộc vào lĩnh vực của văn bản. ....................................................... 2
1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: ................................................. 3
1.3. PHÂN LOẠI ............................................................................................... 3
1.4. ỨNG DỤNG ............................................................................................... 5
Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG
KÊ 7
2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ ..................................................... 8
2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT .......................................... 9
2.2.1. Phương pháp kiểm tra t ........................................................................... 9
2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. ................................. 12
2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE
MUTUAL INFORMATION (PMI))...................................................................... 13
2.4. KẾT QUẢ THỰC NGHIỆM .................................................................... 15
2.4.1. Khái quát về dữ liệu sử dụng ................................................................ 15
2.4.2. Trích chọn bigrams ............................................................................... 16
2.4.3. Các mô hình thử nghiệm ....................................................................... 18
2.4.4. Kết quả thực nghiệm ............................................................................. 19
Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH
CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ ............................ 25
3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG
BIGRAM. ............................................................................................................. 26
3.1.1. Bước 1: Trích chọn bigram ................................................................... 26
3.1.2. Bước 2: Lọc các bigram không hợp lệ .................................................. 27
3.2. GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH
TỪ CÓ DẠNG N-GRAM. .................................................................................... 28
3.2.1. Bước 1: ................................................................................................. 29
3.2.2. Bước 2: ................................................................................................. 29
3.2.3. Bước 3: ................................................................................................. 29
3.3. KẾT QUẢ THỰC NGHIỆM .................................................................... 30
Chương 4. KẾT LUẬN ............................................................................. 33
TÀI LIỆU THAM KHẢO
PHỤ LỤC A
PHỤ LỤC B
DANH SÁCH HÌNH VẼ
Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ
lớn cửa sổ thay đổi từ 1 đến 5 ..................................................................................... 20
Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn ................................ 21
Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú
pháp ........................................................................................................................... 22
Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào
................................................................................................................................... 22
DANH SÁCH BẢNG
Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt................................. 4
Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh .............................. 8
Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt ......................................... 9
Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t ............ 11
Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương .................. 12
Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra
Chi bình phương ......................................................................................................... 13
Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin
tương hỗ ..................................................................................................................... 14
Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger................................................................... 15
Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ
với độ lớn cửa sổ thay đổi từ 1 đến 5 .......................................................................... 19
Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ
loại ............................................................................................................................. 20
Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú
pháp ........................................................................................................................... 21
Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm............... 23
Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng ....... 27
Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 .................................................. 30
Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 ................................................... 30
Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2....................... 31
1
Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT
Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về
số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người,
ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và
liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc
xây dựng một hệ thống trích chọn collocations cho tiếng Việt. Cụ thể hơn, nó có
nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation?
Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại
của chương sẽ đi sâu vào trả lời bốn câu hỏi này.
1.1. ĐỊNH NGHĨA
Firth[17] định nghĩa collocation là một khái niệm cú pháp trừu tượng, không trực
tiếp liên hệ với nghĩa của các từ cấu thành lên nó. Choueka[5] quan niệm collocation
là một dãy gồm hai hoặc nhiều hơn các từ liên tiếp nhau, có những đặc trưng của một
đơn vị cú pháp có nghĩa, và nghĩa của nó không thể được suy ra trực tiếp từ nghĩa của
các từ thành phần. Còn theo Benson[2]: một collocation là một tổ hợp cố định và lặp
đi lặp lại các từ. Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka
lại thiên về chức năng cú pháp của collocation trong văn bản. Định nghĩa của Benson
là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số
đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch
một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương
ứng với từ. Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành,
tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về
collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên
cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết
hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí
và quan hệ ngữ pháp tương đối cố định.
1.2. ĐẶC TRƯNG
Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính:
1.2.1. Được sử dụng lặp đi lặp lại trong văn bản.
Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản
không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một
ngữ cảnh nhất định. Các cụm từ như “to make a decision, to hit a record, to perform
2
an operation” là các collocation thường gặp trong văn bản tiếng Anh, hay “nhiễm
HIV/AIDS, chuyển_dịch cơ_cấu, học_hỏi kinh_nghiệm” là các collocation thường gặp
trong văn bản tiếng Việt; và các cụm từ như “to buy short, to ease the jib” hoặc “tiêm
vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên
môn. Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất
định.
1.2.2. Có tính cứng nhắc:
Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố
định. Nghĩa của một collocation thường không thể trực tiếp được suy ra từ nghĩa của
các từ cấu thành nên nó. Trong hầu hết trường hợp, một collocation không thể được
dịch theo kiểu từ đối từ từ một ngôn ngữ sang một ngôn ngữ khác. Ví dụ, chúng ta có
thể dịch cụm từ “mở cửa” trong tiếng Việt sang tiếng Anh, tiếng Đức một cách dễ
dàng, nhưng không thể dịch từ đối từ cụm từ “cạnh_tranh gay_gắt, phản_đối
kịch_liệt” từ tiếng Việt sang tiếng Anh hay tiếng Đức. Một người học tiếng Việt không
thể dễ dàng sử dụng cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” nếu họ không
biết trước nghĩa của cả cụm từ trước đó. Dịch một văn bản từ ngôn ngữ này sang một
ngôn ngữ khác không chỉ đòi hỏi kiến thức về các quy tắc ngữ pháp và ngữ nghĩa vì
collocations có tính cứng nhắc, kho ngữ liệu song ngữ về collocations thực sự cần thiết
cho một ứng dụng dịch máy hiệu quả.
1.2.3. Phụ thuộc vào lĩnh vực của văn bản.
Trong các văn bản chuyên ngành, tồn tại rất nhiều collocations. Các thuật ngữ
chuyên ngành thường ít nhiều xa lạ với những người không nghiên cứu, học tập trong
lĩnh vực đó. Thêm vào đó, có những từ quen thuộc với người đọc nhưng được sử dụng
với nghĩa hoàn toàn khác nghĩa thông thường trong các văn bản chuyên ngành. Ví dụ
trong ngành công nghệ thông tin các từ như “kỹ_nghệ phần_mềm, xử_lý bó,
tài_nguyên hệ_thống…” hoàn toàn là những từ mới đối với những người học trong
ngành xã hội, hoặc kinh tế khác. Bên cạnh đó, có rất nhiều cụm từ không chứa các
thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người
không thuộc chuyên ngành. Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là
một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị
ướt trong các điều kiện thời tiết khắc nghiệt. Người bản xứ thường không ý thức được
tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính
cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít
khó khăn.
3
1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng:
Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng
từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của
cụm từ ban đầu. Tính chất này của collocation thường được sử dụng bởi các nhà thực
hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]). Các nhà
thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định
cụm từ nào là collocation và cụm từ nào không phải là collocation. Họ thu thập thông
tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ. Các từ khuyết
có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó,
đó là việc không đơn giản. Chính vì vậy, collocation có phân phối xác suất riêng
(Halliday[22]; Cruse[8]). Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện
liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất
hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc
lập. Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn
và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê.
1.3. PHÂN LOẠI
Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều
nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations. Một hệ thống
phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần. Theo đó, có hai loại
collocation chính là collocation có quan hệ về ngữ pháp và collocation có quan hệ về
ngữ nghĩa. Collocations có quan hệ về ngữ pháp thường bao gồm các giới từ, bao gồm
các cặp từ có cấu trúc dạng động từ + giới từ(ví dụ come to, put on), tính từ + giới từ
(như afraid of, fond of) và danh từ + giới từ (ví dụ: by accident, witness to).
Collocations có quan hệ về mặt ngữ nghĩa là các cặp từ giới hạn về mặt từ vựng,
không phải khi nào chúng ta cũng có thể thay thế một từ thành phần bằng từ đồng
nghĩa của nó.
Một hệ thống phân loại khác là thiên về cấu trúc của collocation. Theo đó, có hai
loại collocations: các collocations là các cụm từ ghép và các collocation có cấu trúc
linh động hơn. Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau
trong văn bản, và với chức năng cú pháp cố định. Cụm danh từ + danh từ là ví dụ về
loại collocation như thế. Các collocation là các cặp từ linh động bao gồm các
collocations có dạng chủ ngữ và động từ, và giữa chúng có thể có khoảng cách (hay
xuất hiện các từ xen ngang).
4
Một hệ thống nữa được đưa ra bởi Smadja[19] trong bộ công cụ Xtract, theo đó,
các collocation được chia làm 3 loại chính:
- Collocations có quan hệ cú pháp: là loại collo