Nhập dữ liệu tự động đang là bài toán ngày càng thu hút nhiều sự chú ý và đầu tư nghiên cứu bởi vì đây thật sự là một vấn đề quan trọng, cần thiết do khả năng áp dụng rộng rãi vào thực tế cũng như hiệu quả mà nó mang lại. Trong hệ thống này, khử nhiễu, khử nghiêng và phân vùng ảnh là một phần có vai trò đặc biệt quan trọng. Chức năng của nó là chính xác ảnh và tách ra các vùng được nhập thông tin để làm đầu vào cho module nhận dạng chữ. Dựa trên đặc điểm phân bố có hướng và đồng đều của form văn bản, chúng tôi đã sử dụng phương pháp phép chiếu để khử nghiêng ảnh do phương pháp này đạt được độ chính xác cao đối với những ảnh có đặc trưng trên. Cũng dựa trên đặc điểm của kiểu form văn bản là dữ liệu được nhập vào các ô trên form ( nghĩa là nằm trong giới hạn giữa các đường thẳng), giải pháp đề ra cho phân vùng là thông qua việc xác định các đường thẳng kết hợp với sử dụng hệ tọa độ tương đối để xác định các vùng nhập dữ liệu. Chúng tôi đã tiến hành thực nghiềm trên nhiều kiểu form văn bản khác nhau và thu được những kết quả rất khả quan.
72 trang |
Chia sẻ: tuandn | Lượt xem: 1932 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Khóa luận Nghiên cứu và xây dựng hệ thống nhập tài liệu tự động bằng nhận dạng quang học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyên Thanh Phúc
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG NHẬP TÀI LIỆU TỰ ĐỘNG BẰNG NHẬN DẠNG QUANG HỌC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
HÀ NỘI - 2006
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Phúc
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG NHẬP TÀI LIỆU TỰ ĐỘNG BẰNG NHẬN DẠNG QUANG HỌC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: ThS. Đào Kiến Quốc
HÀ NỘI - 2006
LỜI CẢM ƠN
Trước tiên, tôi muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, ThS. Đào Kiến Quốc, người đã tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu khoa học và làm khóa luận tốt nghiệp.
Tôi xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy tôi trong bốn năm qua, những kiến thức mà tôi nhận được trên giảng đường đại học sẽ là hành trang giúp tôi vững bước trong tương lai.
Tôi cũng xin cảm ơn các bạn sinh viên K47, đặc biệt là thành viên còn lại bạn Nguyễn Thanh Phúc trong nhóm nghiên cứu Nghiên cứu và xây dựng hệ thống nhập dữ liệu tự động bằng phương pháp nhận dạng quang học, đã cho tôi những ý kiến đóng góp giá trị khi thực hiện đề tài này.
Cuối cùng, tôi muốn gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những người luôn kịp thời động viên và giúp đỡ tôi vượt qua những khó khăn trong cuộc sống.
Sinh Viên
Nguyễn Thanh Phúc
TÓM TẮT
Nhập dữ liệu tự động đang là bài toán ngày càng thu hút nhiều sự chú ý và đầu tư nghiên cứu bởi vì đây thật sự là một vấn đề quan trọng, cần thiết do khả năng áp dụng rộng rãi vào thực tế cũng như hiệu quả mà nó mang lại. Trong hệ thống này, khử nhiễu, khử nghiêng và phân vùng ảnh là một phần có vai trò đặc biệt quan trọng. Chức năng của nó là chính xác ảnh và tách ra các vùng được nhập thông tin để làm đầu vào cho module nhận dạng chữ. Dựa trên đặc điểm phân bố có hướng và đồng đều của form văn bản, chúng tôi đã sử dụng phương pháp phép chiếu để khử nghiêng ảnh do phương pháp này đạt được độ chính xác cao đối với những ảnh có đặc trưng trên. Cũng dựa trên đặc điểm của kiểu form văn bản là dữ liệu được nhập vào các ô trên form ( nghĩa là nằm trong giới hạn giữa các đường thẳng), giải pháp đề ra cho phân vùng là thông qua việc xác định các đường thẳng kết hợp với sử dụng hệ tọa độ tương đối để xác định các vùng nhập dữ liệu. Chúng tôi đã tiến hành thực nghiềm trên nhiều kiểu form văn bản khác nhau và thu được những kết quả rất khả quan.
Từ khóa : detect skew angle, project profile method, form recognition
ABSTRACT
Automatic form data reading is an attractive subject to many researchers because of its importance and widely applicability. Deskew and region extraction module plays an important role in this system. Its funtion is to correct skewed images and extract regions of input data. Its outputs are the inputs of the character recognition module. Basing on the directional and equilateral distribution of form document images, we used project profile method to detect skew angle - for this method is highly accurate when applied to this kind of image. On the other hand, in form documents, infomation is often entered into cells ( surrounded by lines). Therefore, we extract entered information regions by detecting lines and using local co-ordination. Experimental results on variety of form documents show that our approach has achieved good and accurate results.
Keywords : detect skew angle, project profile method, form recognition
MỤC LỤC
DANH MỤC HÌNH VẼ
Hình 1: Sơ đồ hệ thống 2
Hình 2: (a) Ảnh sau khi khử nhiễu và tách nền; (b) Ảnh sau khi khử nghiêng 6
Hình 3: (a) Hệ trục tọa độ 0xy; (b) Không gian tham số c,m 7
Hình 4: (a) Hệ tọa độ 0xy; (b) Hệ tọa độ cực (s,θ) 9
Hình 5: Các đường thẳng tìm được dựa trên phép biến đổi Hough - thực hiện bởi OpenCV ( Intel® Open Source Computer Vision Library) 9
Hình 6: (a) Các đối tượng chữ; (b) Biên của các đối tượng chữ; (c) Các điểm đặc trưng của các đối tượng chữ 10
Hình 7: Phiếu điều tra với đường thẳng dày 11
Hình 8: (a), (b), (c) : Các đối tượng trên ảnh ; (d), (e), (f) : Phân cụm các đối tượng [17] 12
Hình 9: (a) Text line; (b) Cụm các đối tượng liên kết nhau ( connected component); (c) Tính độ nghiêng giữa đối tượng đầu và cuối trong cụm 14
Hình 10: Ảnh được thêm vào khung bao quanh hình chữ nhật [6] 15
Hình 11: (a) Phần ảnh con phía trên. (b) Chia ảnh con thành các dải. (c) Xác định các đoạn thăng. (d) Hợp các đoạn thẳng tạo thành đường thẳng. (e) Xác định được cạnh trên của hình chữ nhật bao. 17
Hình 12: Form mẫu và các vùng nhập dữ liệu được định nghĩa 18
Hình 13: Form sau khi được in ra, điền thông tin và scan vào máy tính 18
Hình 14: (a) Ảnh gốc; (b) Ảnh scan sau khi tiền xử lý 19
Hình 15: Xác định các block trên form để làm mốc xác định các vùng cần tách [10] 21
Hình 16: (a)ảnh với góc nghiêng bằng không; (b) đồ thị của phép chiếu ngang trên ảnh (a) 23
Hình 17: (a) Ảnh với góc nghiêng 50; (b) Đồ thị của phép chiếu ngang trên ảnh (a) 23
Hình 18: (a) Ảnh scan. (b) Ảnh sau khi chính xác góc nghiêng 25
Hình 19: (a) Ảnh sau khi tiền xử lý; (b) Ảnh sau khi lọc các black run ngắn theo chiều ngang (c) Ảnh sau khi hợp cách black run dài theo chiều ngang; (d) Ảnh sau khi lọc các black run ngắn theo chiều thẳng đứng (e) Ảnh sau khi hợp các black run dài theo chiều thẳng đứng (f) Các đường thẳng xác định được trên ảnh 29
Hình 20: (a) Đường thẳng mờ và bị đứt doạn (b) Đường thẳng xác định được khi tính đến mật độ 30
Hình 21: Xác định nhầm đường thẳng do phân bố không đều trên đường 30
Hình 22: Chia đường thẳng thành các đoạn ngắn rồi tính mật độ trên các đoạn này 31
Hình 23: Ảnh cần xác định kích thước font chữ trung bình 35
Hình 24: Hình chữ nhật bao các đối tượng tìm được trên ảnh 35
Hình 25: Hình chữ nhật bao quanh các đối tượng chữ tìm được trên ảnh 35
Hình 26: Đối tượng tạo bởi các black run 36
Hình 27: Gán nhãn các đối tượng trên ảnh nhị phân 37
Hình 28: Ảnh sau khi giảm bớt các điểm đen 38
Hình 29: Kết quả xác định các đối tượng 39
Hình 30: Hình chữ nhật bao quanh các đôi tượng tìm được 39
Hình 31: FormFiller của hãng ABBYY 42
Hình 32: Remark Office OMR Template Editor của Princia Produtcs 42
Hình 33: (a) Ảnh mẫu; (b) Định nghĩa các vùng nhập dữ liệu trên ảnh mẫu; (c) Ảnh scan sau khi tiền xử lý; (d) Kết quả tách vùng trên ảnh scan 45
Hình 34 : (a) ảnh chuẩn; (b) Một phần của ảnh được phóng to 50
Hình 35: Vùng cần xác định bị lệch so với vùng xác định thực tế 51
Hình 36: (a) Ảnh mẫu, các hình chữ nhật màu đỏ biểu diễn các vùng cần được xác định. 52
Hình 37: Giao diện chính của chương trình 53
Hình 38: Nhập Template File 55
Hình 39: Lưu Template File 55
DANH MỤC BẢNG BIỂU
Bảng 1: phân loại ảnh 46
Bảng 2: Kết quả thực nghiệm xác định góc nghiêng với một số góc tiêu biểu 47
Bảng 3: Độ lệch trung bình so với góc thực tế 48
Bảng 4: Kiểm thử hiệu năng 48
Bảng 5: Độ chính xác của phương pháp xác định đường thẳng 49
Bảng 6: Độ chính xác của phương pháp ghép cặp các đường thẳng trong tập mẫu và tập ảnh mới 49
Bảng 7: Kết quả xác định kích thước trung bình của các đối tượng 50
Bảng 8: Thời gian xác định kích thước trung bình 50
Bảng 9: Kết quả kiểm thử tích hợp 54
Giới Thiệu
Đặt vấn đề
Trong nhiều ứng dụng, nhập liệu chiếm một chi phí khá lớn do khối lượng dữ liệu phải nhập và cũng có thể do công sức bỏ ra để đảm bảo việc nhập có độ chính xác cao. Vì thế từ lâu vấn đề nhập liệu tự động đã được đầu tư nhiều. Tuy nhiên cho tới nay kết quả còn khá hạn chế. Nếu giải quyết tốt việc này sẽ mang lại hiệu quả rất lớn.
Nguồn dữ liệu phổ biến nhất là các văn bản trên giấy. Do đó giải pháp chủ yếu là phải lấy ảnh và nhận dạng. Nhận dạng là bài toán đã xuât hiện khá lâu và đã đạt được nhiều thành tựu to lớn. Tuy nhiên nhận dạng một văn bản bất kì bao gồm cả các văn bản có lẫn chữ viết tay hay hình ảnh luôn là một bài toán khó và hiện nay vẫn chưa thật sự có giải pháp hoàn chỉnh. Có hai đối tượng văn bản cần nhận dạng có đặt trưng khác nhau đòi hỏi có các phương pháp xử lý khác nhau. Đó là nhận dạng văn bản phi cấu trúc và nhận dạng văn bản kiểu form với các dữ liệu chữ được sắp xếp trong những vùng xác định.
Trên thế giới, hiện đã có nhiều ứng dụng liên quan đến vấn đề nhận dạng văn bản hay nhập dữ liệu tự động. Có thể kể đến như : sản phẩm FineReader, Scan To Office của hãng ABBYY, Smart scan Xpress của Pegasus Image, các ứng dụng chấm thi tự động …Ở Việt Nam cũng đã có các ứng dụng nhận dạng văn bản như VNDocR của Viện Công nghệ Thông tin hay ImageScan của CardPro. Đây là các ứng dụng nhận dạng chữ in. Việc nhận dạng chữ viết tay đang còn là một thách thức. Một số nghiên cứu về nhận dạng chữ viết tay đã được thực hiện tại Viện CNTT và Bộ môn Công nghệ Phần mềm. Tuy nhiên các ứng dụng này hiện vẫn còn rất nhiều hạn chế do khả năng nhận dạng chữ viết tay chưa đạt được độ chính xác cần thiết để có thể áp dụng rộng rãi trên thực tế.
Cùng với sự phát triển của công nghệ thông tin hiện nay, các thuật toán nhận dạng ngày càng chính xác và đưa ra được các kết quả đáng tin cậy. Ngay cả đối với chữ viết tay cũng có thể đạt đuợc độ chính xác cao với điều kiện là chỉ nhận dạng từng chữ riêng biệt và chữ viết đẹp. Với các văn bản thông thường ta khó có thể đạt được điều này. Tuy nhiên, Các form nhập liệu là kiểu văn bản có cấu trúc và ta có thể đưa ra một số quy tắc ràng buộc để tăng độ chính xác cho việc nhận dạng - chẳng hạn như: các chữ được viết riêng rẽ trên các ô riêng biệt của các vùng nhập liệu. Mặt khác, việc nhận dạng không cần thiết phải tiến hành trên toàn bộ ảnh của tài liệu mà chỉ giới hạn ở những vùng nhập dữ liệu. Đặc điểm này cũng cho phép ta tiếp cận bài toán một cách có hiệu quả hơn, chẳng hạn có thể sử dụng các thông tin sẵn có từ thiết kế form làm tham số nhận dạng. Một khía cạnh khác của nhận dạng form tài liệu là các dữ liệu nhận dạng được của mỗi vùng của form sẽ phải được tự động gắn vào một trường dữ liệu xác định của ứng dụng. Bài toán nhập liệu tự động từ form tài liệu sẽ gồm các vấn đề sau :
Quản trị form bao gồm : thiết kế form nhập liệu ; quản lý và lưu trữ tự động các tham số của form để có thể cung cấp dữ liệu cho quá trình nhận dạng sau này nhanh và tin cậy ; tích hợp với cơ sở dữ liệu.
Nhận dạng các vùng dữ liệu (bài toán phát hiện và phân vùng dữ liệu).
Nhận dạng chữ viết tay trên các vùng dữ liệu ; xử lý từ vựng và ghi nhận vào cơ sở dữ liệu.
Nhưng trước hết phải tiền xử lý ảnh để làm tốt ảnh, phục vụ cho quá trình nhận dạng, đảm bảo độ tin cây.
Hình 1: Sơ đồ hệ thống
Với số lượng công việc như vậy, đề tài chung được chia làm hai phần :
Các giải pháp tối ưu cho tiền xử lý ảnh do Đinh Văn Phương thực hiện.
Khử nghiêng văn bản bằng phương pháp phép chiếu và phân vùng ảnh do Nguyễn Thanh Phúc thực hiện.
Khóa luận này chỉ giới hạn tập trung trình bày về việc khử nghiêng văn bản bằng phép chiếu và phân vùng ảnh - các giải pháp và thực nghiệm và bao gồm các công việc cụ thể như sau :
Các thuật toán xử lý form văn bản :
Thuật toán xác định góc xoay dựa trên phép chiếu.
Thuật toán xác định các đường thẳng trong văn bản phục vụ cho việc xác định các vùng nhận dạng.
Phân vùng ảnh dựa trên các đường thẳng xác định được.
Thực nghiệm
Thử nghiệm độ chính xác của các thuật toán.
Đánh giá kết quả, hiệu quả của thuật toán và nhận xét.
Kết luận.
Cũng cần nói thêm rằng, đề tài này được đặt trong một dự án nghiên cứu phối hợp giữa Trung tâm Nghiên cứu và Phát triển Phần mềm và Bộ môn Công nghệ Phần mềm để đi đến một thương phẩm. Cách đây gần hai năm những nghiên cứu về nhận dạng chữ viết tay đã được khởi động và cho đến nay đã thu đuợc nhiều kết quả khả quan
Nội dung và cấu trúc của khóa luận
Bài toán con được thực hiện trong khoá luận này là bài toán xác định góc nghiêng và phân vùng ảnh. Nắm bắt được khó khăn cũng như những đặc trưng của bài toán này, chúng tôi đã áp dụng một giải pháp có độ chính xác cao trong việc xác định góc nghiêng là sử dụng phương pháp phép chiếu, đồng thời sử dụng các đường thẳng có trong form để phân vùng, tách riêng ra các vùng cần xử lý.
Với nội dung chính là trình bày những lý thuyết cơ bản về xử lý ảnh, về các phương pháp xác định góc nghiêng, các phương pháp phân vùng và lựa chọn các giải pháp áp dụng vào bài toán, khóa luận được tổ chức như sau :
Chương 1: Giới thiệu
Phần đầu của chương giới thiệu về bài toán nhập dữ liệu tự động nói chung: tình hình Việt Nam và thế giới, các thành tựu đã đạt được trong lĩnh vực nhận dạng chữ viết, những khó khăn cũng như các đặc trưng của bài toán nhận dạng form nhập dữ liệu so với các bài toán nhận dạng khác. Phần tiếp theo giới thiệu về hệ thống chung mà nhóm chúng tôi đang tiến hành nghiên cứu và xây dựng : Nghiên cứu và xây dựng hệ thống nhập dữ liệu tự động bằng nhận dạng hình ảnh, phạm vi giới hạn và quy trình giải quyết bài toán. Từ đó nêu lên nội dung mà chúng tôi nghiên cứu và thực hiện trong bài toán chung thông qua việc trình bày nội dung và cấu trúc của khóa luận.
Chương 2: Tổng quan một số phương pháp khử nghiêng và phân vùng ảnh
Chương hai trình bày về các phương pháp khử nghiêng và phân vùng ảnh , các khái niệm và tầm quan trọng của khử nghiêng và phân vùng ảnh trong nhận dạng form. Chương này cũng xác định các ưu nhược điểm và phạm vi áp dụng của mỗi phương pháp để từ đó lựa chọn giải pháp thích hợp.
Chương 3: Đề xuất giải pháp khử nghiêng và phân vùng ảnh
Chương này trình bày về phần việc chính mà tôi đã thực hiện trong đề tài chung : Giải pháp cho việc khử nghiêng ảnh bằng phép chiếu và phân vùng ảnh. Nội dung của chương tập trung vào :
Phân tích những đặc trưng của ảnh dạng form nhập liệu từ đó đưa ra giải pháp cho việc xác định góc nghiêng và phân vùng ảnh.
Quy trình thực hiện các giải pháp này.
Đánh giá ưu và nhược điểm của các phương pháp.
Chương 4: Thực nghiệm
Chương bốn mô tả chi tiết quá trình thực nghiệm với phương pháp khử nghiêng bằng phép chiếu và phân vùng ảnh cùng với thực nghiệm về hệ thống chung. Đồng thời chương cũng đề cập đến quá trình thu thập và xây dựng cơ sở dữ liệu ảnh dạng form sử dụng cho thực nghiệm.
Chương 5: Kết luận
Chương năm tổng kết lại những kết quả đạt được và những việc cần được tiếp tục thực hiện trong tương lai.
Tổng quan một số phương pháp khử nghiêng và phân vùng ảnh
Một số phương pháp khử nghiêng ảnh
Văn bản bị nghiêng xảy ra trong quá trình quét vào máy tính hay copy, điều này ảnh hưởng đến toàn bộ các đối tượng có trong văn bản nhất là các vùng mà ta cần phải nhận dạng. Văn bản bị nghiêng là một điều không thể tránh khỏi, và trong nhiều trường hợp gây ảnh hưởng không tốt đến độ chính xác đối với kết quả phân vùng và nhận dạng ký tự. Cũng có một số phương pháp về phân vùng ảnh không yêu cầu văn bản phải có góc nghiêng bằng không [4,13]. Tuy nhiên các phương pháp này vẫn đòi hỏi góc nghiêng của văn bản nằm trong một khoảng giới hạn cho phép. Bên cạnh đó, đơn giản hóa vấn đề này sẽ dẫn tới phức tạp hóa cũng như tốn thời gian xử lý đối với các nhiệm vụ khác. Do đó chính xác lại góc nghiêng của ảnh là một việc làm tất yếu và phải được thực hiện trước khi tiến hành phân vùng và nhận dạng ảnh.
Hình 2: (a) Ảnh sau khi khử nhiễu và tách nền; (b) Ảnh sau khi khử nghiêng
Một văn bản có rất nhiều các đặc trưng so với các loại hình ảnh khác như các đặc trưng về hướng, về cấu trúc phân bố các đối tượng ... Từ đó cũng có một số phương pháp xác định góc nghiêng cho ảnh của văn bản. Dưới đây là chi tiết về một số phương pháp tiêu biểu.
Phương pháp khử nghiêng dựa trên phép biến đổi Hough
Phép biến đổi Hough là một phương pháp mà trên lý thuyết có thể được sử dụng để tìm kiếm các các đối tượng đặc trưng với bất kỳ hình dạng nào trên ảnh. Tuy nhiên, trong thực tế nó thường chỉ được dùng để tìm kiếm các đường thẳng hoặc đường tròn. Để có thể tìm được các đối tượng có hình dáng càng phức tạp thì càng yêu cầu khối lượng tính toán lớn. Trong các phương pháp xác định góc nghiêng của văn bản dựa trên phép biến đổi Hough, chúng ta sẽ chỉ dùng biến đổi Hough để tìm các đường thẳng trên ảnh [2].
Cách tiếp cận đó như sau :
Giả sử (x’,y’) là một điểm trong ảnh. Mọi điểm đi qua (x’,y’) phải thỏa mãn phương trình :
Eq 1: Phương trình đường thẳng với m,c là các tham số
Viết lại phương trình trên ta có :
Như vậy, mọi đường thẳng qua (x’,y’) tương ứng với một điểm trong không gian tham số (c,m). Xét hai điểm (x1,y1) và (x2,y2) nằm trên cùng một đường thẳng.
Hình 3: (a) Hệ trục tọa độ 0xy; (b) Không gian tham số c,m
Với mỗi điểm ảnh, mọi đường thẳng qua nó được biểu diễn bởi một điểm trong (c,m). Ví dụ :
Nhưng một đường thẳng duy nhất trong không gian (x,y) qua hai điểm (x1,y1) và (x2,y2) được biểu diễn bởi giao của hai đường trong không gian tham số (c,m). Điểm giao cho giá trị của c và m trong phương trình y = mx + c.
Để áp dụng kỹ thuật này, không gian tham số (c,m) cần phải được lượng hóa và như vậy ta cần dùng một ma trận tham số P (c,m). Với :
c1 ≤ c ≤ ck và m1 ≤ m ≤ mk ; k là số điểm chia của C và N là số điểm ảnh. Cách tiến hành như sau :
Khởi tạo bảng tham số P (c,m) : các phần tử của bảng này được gán là 0.
Với mỗi điểm đen (xi,yi) : P (c,m) = P (c,m) + 1 cho các điểm thỏa mãn Eq1.
Lặp lại quá trình trên cho đến khi toàn bộ ảnh được quét.
Kết thúc bước này, mỗi phần tử của ma trận P (c,m) chứa số điểm biên thỏa Eq1. Nếu số điểm này vượt quá một ngưỡng T nào đấy thì một đường thẳng dạng y = mx + c được khởi tạo. Cần chú ý rằng trong biến đổi Hough, các điểm nằm trên cùng một đường thẳng không nhất thiết là liên tục. Đây là một tính chất quan trọng.
Nếu biểu diễn bởi đường thẳng thì khi biểu diễn các đường đứng ( vertical straight line) thì c có xu hướng tiến ra vô cùng. Một cách khắc phục là dùng hệ tọa độ cực (s,θ).
Trong biến đổi Hough, một đường thẳng trong một mặt phẳng với khoảng chác s và hướng θ có thể biểu diễn bởi : s = x cosθ + y sinθ. Đường thẳng này có thể coi như một điểm trong mặt phẳng (s,θ) như trong hình vẽ :
Hình 4: (a) Hệ tọa độ 0xy; (b) Hệ tọa độ cực (s,θ)
Áp dụng phép biến đổi Hough để tìm tất cả các đường thẳng có thể trên ảnh ta thu được kết quả như sau :
Hình 5: Các đường thẳng tìm được dựa trên phép biến đổi Hough - thực hiện bởi OpenCV ( Intel® Open Source Computer Vision Library)
Ta thấy rằng các đường thẳng tìm đươc xuất hiện theo nhiều hướng. Tuy nhiên ta sẽ chọn hướng có số lượng đường thẳng xuất hiện nhiều nhất làm hướng chính xác của văn bản.
Nhận xét :
Xác định tất cả các đường thẳng trên ảnh theo phép biến đổi Hough đòi hỏi khối lượng tính toán cực lớn, tốn nhiều thời gian xử lý.
Khó tìm ngưỡng thích hợp để loại loại bớt các đường thẳng.
Dựa trên tư tưởng của của phép biến đổi Hough, người ta đã thực hiện một số cải tiến :
Loại bớt các điểm đen, chỉ để lại các điểm tiêu biểu để giảm bớt khối lượng tính toán cũng như tăng cường sự chính xác.
Sử dụng đường thẳng "dày" trên ảnh để xác định góc nghiêng.
Phương pháp kết hợp ( sử dụng kết hợp các phương pháp trên).
Cải tiến dựa trên việc giảm bớt các điểm đen
Theo hướng tiếp cận này, người ta giảm bớt số lượng các điểm đen trên ảnh để giảm bớt khối lượng tính toán. Những điểm đen được giữ lại là những điểm được đánh giá là đặc trưng cho ảnh và việc thực hiện biến đổi Hough trên các điểm này không những giữ nguyên mà thậm chí còn tăng độ chính xác, trong khi tính toán lại đơn giản hơn rất nhiều.
Tuy nhiên lại có nhiều cách giảm bớt số lượng các điểm đen khác nhau ví dụ như :
chỉ để lại các đối tượng chữ
chỉ để lại các điểm biên.
chỉ để lại các điểm đặc trưng của các đối tượng chữ.[7]
Hình 6: (a) Các đối tượng chữ; (b) Biên của các đối tượng chữ; (c) Các điểm đặc trưng của các đối tượng chữ
Nhận xét : kết quả đã chính xác hơn trước rất nhiều và xử lý đã đơn giản hơn. Tuy nhiên khối lượng tính toán vẫn còn khá lớn và việc giảm bớt các điểm đen cũng đòi hỏi thời gian xử lý.
Cải tiến dựa trên việc dùng đường thẳng "dày"
Một cải tiến khác cho việc sử dụng phép biến đổi Hough để xác định góc nghiên của ảnh là thêm vào ảnh một đường thẳng dày [3]. Đường thẳng này song song
Các file đính kèm theo tài liệu này:
- Phucnt-LVTN-Final.doc
- Phucnt-Tomta tLVTN.doc