Luận văn Biến đổi Hough và ứng dụng phát hiện góc nghiêng văn bản

Ngày nay, do sự thịnh hành của máy tính cá nhân, phương tiện đã làm cho kỹ thuật chế bản điện tử trở nên vô cùng phổ biến, số lượng những tài liệu lưu trữ trên giấy đã tăng đến một số lượng đáng kể. Hàng tỷ tỷ những trang giấy được tạo ra mỗi năm dưới nhiều hình thức khác nhau như sách, tạp chí, bản tin, báo, thư từ, biểu mẫu, bảng ghi nhớ, trên khắp thế giới. Mặc khác, việc lưu trữ, phân phối, phục hồi những thông tin trên giấy là một công việc đòi hỏi nhiều công sức, thậm chí không thể thực hiện được một cách thủ công. Trong khi quét văn bản, bị nghiêng là không tránh khỏi đối với các văn bản in, viết tay, văn bản hình ảnh Phát hiện độ nghiêng là một trong những vấn đề đầu tiên được áp dụng để quét các văn bản khi chuyển đổi dữ liệu sang dạng số. Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán phát hiện góc nghiêng như một bước đầu tiên và tất yếu của công đoạn tiền xử lý. Chính vì vậy, cùng với sự phát triển của xử lý ảnh nói chung và xử lý, nhận dạng văn bản nói riêng, bài toán phát hiện góc nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc độ khác nhau. Có rất nhiều hướng tiếp cận bài toán như: thuật toán dựa vào phân tích hình chiếu, phân tích láng giềng, biến đổi Hough, phương pháp dùng các phép toán hình thái, biến đổi Fourier Sử dụng biến đổi Hough phát hiện góc nghiêng văn bản là một kỹ thuật phân biệt tốt các ký tự chữ cái và những đối tượng không phải chữ cái như nhiễu, đối tượng đồ hoạ, đường thẳng do đó độ chính xác của kỹ thuật này cũng được cải thiện hơn. Xuất phát từ những yêu cầu trên, em chọn đề tài nghiên cứu: “Biến đổi Hough và ứng dụng phát hiện góc nghiêng văn bản”. Các thuật toán phát hiện độ nghiêng được thực hiện. Bước đầu tiên là quét dòng cơ bản phát hiện độ nghiêng. Trong phương thức này, hình ảnh ước lượng ở nhiều góc cạnh và phương sai về số lượng các điểm ảnh màu đen ước lượng mỗi dòng được xác định. Các góc mà tại đó phương sai lớn nhất tìm thấy là góc nghiêng. Bước thứ 2 là dựa trên biến đổi Hough. Biến đổi Hough là thực hiện trên ảnh văn bản đã quét và phương sai trong các giá trị ρ là tính toán cho mỗi giá trị của θ. Góc mà cho giá trị phương sai lớn nhất là góc nghiêng. Bước thứ 3 là dựa trên phương thức base-point. Sau khi Base-point liên tiếp trong từng dòng văn bản trong khoảng thời gian thích hợp như một vùng đã được chọn làm mẫu cho khớp đường thẳng .Tỷ lệ trung bình của đường cơ bản được tính toán, tương ứng với mức độ nghiêng của toàn bộ văn bản hình ảnh. Chương trình được viết bằng ngôn ngữ Matlab trên bộ công cụ Image Processing Toolbox để xây dựng, mẫu nhận dạng được thu thập từ các văn bản in, viết tay và quét vào bằng máy quét ảnh với các kích cỡ và định dạng khác nhau, thiết kế chương trình theo thuật toán đã nghiên cứu.

docx55 trang | Chia sẻ: tuandn | Ngày: 31/01/2013 | Lượt xem: 4200 | Lượt tải: 5download
Bạn đang xem nội dung tài liệu Luận văn Biến đổi Hough và ứng dụng phát hiện góc nghiêng văn bản, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN THỊ HỒNG HÀ BIẾN ĐỔI HOUGH VÀ ỨNG DỤNG PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội - năm 2011 bé Gi¸o dôc vµ ®µo t¹o Bé Quèc phßng Häc viÖn Kü thuËt Qu©n sù NguyÔn thÞ hång hµ BiÕn ®æi hough vµ øng dông ph¸t hiÖn gãc nghiªng v¨n b¶n Chuyªn ngµnh: Khoa häc m¸y tÝnh M· sè: 60 48 01 luËn v¨n th¹c sÜ kü thuËt Hµ Néi - N¨m 2011 c«ng tr×nh ®­îc hoµn thµnh t¹i häc viÖn kü thuËt qu©n sù C¸n bé h­íng dÉn chÝnh: TS. TrÇn Nguyªn Ngäc Cán bộ chấm phản biện 1:.................................................................. Cán bộ chấm phản biện 2:.................................................................. LuËn v¨n th¹c sÜ ®­îc b¶o vÖ t¹i: héi ®ång chÊm luËn v¨n th¹c sÜ häc viÖn kü thuËt qu©n sù Ngµy ... th¸ng ... n¨m 2011 HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM PHÒNG SAU ĐẠI HỌC Độc lập – Tự do – Hạnh phúc Hà Nội, ngày tháng năm 2011 NHIÖM Vô LUËN V¡N TH¹C SÜ Hä tªn häc viªn: NguyÔn ThÞ Hång Hµ Giíi tÝnh: N÷ Ngµy, th¸ng, n¨m sinh: 27/11/1985 N¬i sinh: H¶i D­¬ng Chuyªn ngµnh: Khoa häc m¸y tÝnh M· sè: 60 48 01 I- T£N §Ò TµI: biÕn ®æi hough vµ øng dông ph¸t hiÖn nghiªng v¨n b¶n II- NHIÖM Vô Vµ NéI DUNG: Sử dụng thuật toán biến đổi Hough trong bài toán phát hiện góc nghiêng văn bản. Chương trình được viết bằng ngôn ngữ Matlab trên bộ công cụ Image Processing Toolbox để xây dựng, thiết kế chương trình theo thuật toán đã nghiên cứu. III- NGµY GIAO NHIÖM Vô :………….......................................................... IV- NGµY HOµN THµNH NHIÖM Vô:........................................................... V- C¸N Bé H¦íNG DÉN: TS. TrÇn Nguyªn Ngäc C¸N Bé H¦íNG DÉN CHñ NHIÖM Bé M¤N (Häc hµm, häc vÞ, hä tªn vµ ch÷ ký) QL CHUY£N NGµNH Néi dung vµ ®Ò c­¬ng luËn v¨n th¹c sÜ ®· ®­îc Héi ®ång chuyªn ngµnh th«ng qua. Ngµy th¸ng n¨m 2011 TR¦ëNG PHßNG S§H TR¦ëNG KHOA QL NGµNH MỤC LỤC Trang phụ bìa Nhiệm vụ luận văn Mục lục Tóm tắt luận văn Danh mục các ký hiệu Danh mục các bảng Danh mục các hình vẽ MỞ ĐẦU 1 Chương 1 ĐẶT VẤN ĐỀ 1.1. Bài toán xử lý văn bản và các ứng dụng trong thực tế 7 1.2. Vai trò của tiền xử lý trong nhận dạng văn bản. 8 1.3. Bài toán phát hiện góc nghiêng văn bản. 13 Chương 2 CÁC THUẬT TOÁN PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN 2.1. Phát hiện góc nghiêng dựa vào phương pháp Base-point. 15 2.1.1. Lựa chọn của một phân vùng và đối tượng 15 2.1.2. Tập các điểm cơ sở. 17 2.1.3. Độ phức tạp 19 2.2. Phát hiện góc nghiêng dựa vào biến đổi Fourier 23 2.2.1. Phép biến đổi Fourier và các đặc trưng hình học 23 2.2.2. Biến đổi Fourier trong định dạng văn bản 25 2.3. Phát hiện góc nghiêng dựa vào phương pháp Scanline. 26 2.3.1. Thuật toán Scanline 27 2.3.2. Biến đổi Hough. 32 2.3.3. Độ phức tạp 36 Chương 3 THUẬT TOÁN BIẾN ĐỔI HOUGH VÀ KHẢ NĂNG KHAI THÁC TRONG MÔI TRƯỜNG MATLAB 3.1. Thuật toán biến đổi Hough và một số đặc điểm tính toán 37 3.2. Hàm biến đổi Hough trong Matlab. 39 3.2.1. Một số hàm biến đổi ảnh. 39 3.2.1. Hàm biến đổi Hough. 41 3.3. Bài toán phát hiện đường thẳng và mối quan hệ với góc nghiêng trong văn bản 42 Chương 4 ÁP DỤNG THUẬT TOÁN HOUGH TRONG PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN 4.1. Ứng dụng biến đổi Hough phát hiện góc nghiêng văn bản. 46 4.2. Chuẩn hóa dữ liệu vào, ra 47 4.3. Cài đặt ứng dụng 48 4.4. Kết quả, đánh giá, nhận xét 49 KẾT LUẬN VÀ KIẾN NGHỊ 1. Kết luận………………………………………………………………...50 2. Kiến nghị……………………………………………………………….51 TÀI LIỆU THAM KHẢO 52 DANH MỤC CÁC BẢNG Bảng 2.1: so sánh kết quả độ nghiêng văn bản quét của tài liệu khác nhau tính toán góc ban đầu sử dụng phương pháp Base – point …………………………13 Bảng 2.2: so sánh kết quả độ nghiêng văn bản quét của tài liệu khác nhau tính toán góc ban đầu sử dụng phương pháp Scanline. …………………………26 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Các giai đoạn chính trong xử lý ảnh 5 Hình 2.1: Hộp bao quanh và điểm cơ sở của một ký tự. 12 Hình 2.2: Quét tài liệu từ sách với phương pháp Base – poin. 14 Hình 2.3: Ảnh quét từ bài thi với phương pháp Base – point. 15 Hình 2.4: Ảnh quét từ danh mục điện thoại với phương pháp Base – point. 16 Hình 2.5: Ảnh quét từ danh mục điện thoại với phương pháp Base – point 17 Hình 2.6: Quét tài liệu từ sách với phương pháp scanline 22 Hình 2.7: Ảnh quét từ bài thi với phương pháp scanline 23 Hình 2.8: Ảnh quét từ danh mục điện thoại với phương pháp scanline 24 Hình 2.9: Ảnh quét từ danh mục điện thoại với phương pháp scanline 25 Hình 2.10: Đại diện dòng bình thường 28 Hình 3.1: Đường thẳng Hough trong tọa độ cực 38 Hình 4.1: Biến đổi Hough phát hiện góc nghiêng 41 Hình 4.2: Giao diện chính chương trình 42 MỞ ĐẦU Ngày nay, do sự thịnh hành của máy tính cá nhân, phương tiện đã làm cho kỹ thuật chế bản điện tử trở nên vô cùng phổ biến, số lượng những tài liệu lưu trữ trên giấy đã tăng đến một số lượng đáng kể. Hàng tỷ tỷ những trang giấy được tạo ra mỗi năm dưới nhiều hình thức khác nhau như sách, tạp chí, bản tin, báo, thư từ, biểu mẫu, bảng ghi nhớ, … trên khắp thế giới. Mặc khác, việc lưu trữ, phân phối, phục hồi những thông tin trên giấy là một công việc đòi hỏi nhiều công sức, thậm chí không thể thực hiện được một cách thủ công. Trong khi quét văn bản, bị nghiêng là không tránh khỏi đối với các văn bản in, viết tay, văn bản hình ảnh… Phát hiện độ nghiêng là một trong những vấn đề đầu tiên được áp dụng để quét các văn bản khi chuyển đổi dữ liệu sang dạng số. Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán phát hiện góc nghiêng như một bước đầu tiên và tất yếu của công đoạn tiền xử lý. Chính vì vậy, cùng với sự phát triển của xử lý ảnh nói chung và xử lý, nhận dạng văn bản nói riêng, bài toán phát hiện góc nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc độ khác nhau. Có rất nhiều hướng tiếp cận bài toán như: thuật toán dựa vào phân tích hình chiếu, phân tích láng giềng, biến đổi Hough, phương pháp dùng các phép toán hình thái, biến đổi Fourier… Sử dụng biến đổi Hough phát hiện góc nghiêng văn bản là một kỹ thuật phân biệt tốt các ký tự chữ cái và những đối tượng không phải chữ cái như nhiễu, đối tượng đồ hoạ, đường thẳng… do đó độ chính xác của kỹ thuật này cũng được cải thiện hơn. Xuất phát từ những yêu cầu trên, em chọn đề tài nghiên cứu: “Biến đổi Hough và ứng dụng phát hiện góc nghiêng văn bản”. Các thuật toán phát hiện độ nghiêng được thực hiện. Bước đầu tiên là quét dòng cơ bản phát hiện độ nghiêng. Trong phương thức này, hình ảnh ước lượng ở nhiều góc cạnh và phương sai về số lượng các điểm ảnh màu đen ước lượng mỗi dòng được xác định. Các góc mà tại đó phương sai lớn nhất tìm thấy là góc nghiêng. Bước thứ 2 là dựa trên biến đổi Hough. Biến đổi Hough là thực hiện trên ảnh văn bản đã quét và phương sai trong các giá trị 𝜌 là tính toán cho mỗi giá trị của 𝜃. Góc mà cho giá trị phương sai lớn nhất là góc nghiêng. Bước thứ 3 là dựa trên phương thức base-point. Sau khi Base-point liên tiếp trong từng dòng văn bản trong khoảng thời gian thích hợp như một vùng đã được chọn làm mẫu cho khớp đường thẳng .Tỷ lệ trung bình của đường cơ bản được tính toán, tương ứng với mức độ nghiêng của toàn bộ văn bản hình ảnh. Chương trình được viết bằng ngôn ngữ Matlab trên bộ công cụ Image Processing Toolbox để xây dựng, mẫu nhận dạng được thu thập từ các văn bản in, viết tay và quét vào bằng máy quét ảnh với các kích cỡ và định dạng khác nhau, thiết kế chương trình theo thuật toán đã nghiên cứu. Chương 1 ĐẶT VẤN ĐỀ 1.1. Bài toán xử lý văn bản và các ứng dụng trong thực tế Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất. Con người sử dụng hệ thống thị giác để xem hoặc có được thông tin mà thị giác thu được, cảm nhận... xử lý và hiểu nó sau đó suy ra kết luận từ việc cảm nhận thông tin. Các lĩnh vực xử lý ảnh tập trung vào tự động hoá quá trình thu tập và xử lý thông tin thị giác. Quá trình tiếp nhận và phân tích thông tin thị giác của máy tính kỹ thuật số được gọi là xử lý ảnh kỹ thuật số. Một bức ảnh có thể được mô tả như là một hàm 2 chiểu I: 𝑰=𝒇(𝒙,𝒚) (1.1) Trong đó: x và y là toạ độ không gian. Biên độ f tại bất kỳ cặp toạ độ (x,y) được gọi là cường độ I hoặc giá trị màu xám của ảnh. Khi toạ độ không gian và giá trị biên độ, số lượng là hữu hạn rời rạc. Ảnh gọi là ảnh số. Xử lý ảnh số có thể được phân thành các nhánh con khác nhau dựa trên định nghĩa. Đầu vào và ra là ảnh Đầu vào có thể là hình ảnh mà kết quả đầu ra được trích chọn từ những thuộc tính hình ảnh. Sau đây là danh sách các chức năng xử lý khác nhau dựa trên hình ảnh ở trên hai lớp. Hình ảnh thu nhận được Nâng cao hình ảnh Hình ảnh phục hồi Xử lý màu hình ảnh Chế độ đa phân giải Nén Xử lý hình thái học Phân đoạn Đại diện và mô tả Đối tượng nhận dạng Đối với bảy chức năng đầu tiên của đầu vào và đầu ra là hình ảnh nơi mà phần còn lại 3 đầu ra là các thuộc tính từ những ảnh đầu vào. Ngoại trừ hình ảnh thu được và hiển thị hầu hết các chức năng xử lý hình ảnh là thực hiện trong một phần mềm. Xử lý hình ảnh được đặc trưng bởi các giải pháp cụ thể, do đó kỹ thuật hoạt động tốt trong một lĩnh vực có thể không đầy đủ trong một. Các giải pháp thực tế của một vấn để cụ thể vẫn còn đòi hỏi một nghiên cứu đáng kể và phát triển. 1.2. Vai trò của tiền xử lý trong nhận dạng văn bản. Có rất nhiều yếu tố ảnh hưởng đến kết quả của phương pháp nhận dạng văn bản như kích cỡ chữ, góc nghiêng, nhiễu, dấu, hay sự phức tạp của bố cục văn bản, … Những yếu tố này có thể được giải quyết trong giai đoạn tiền xử lý. Tuy nhiên, những kết quả trung gian trong giai đoạn tiền xử lý có ảnh hưởng quan trọng đến độ chính xác của kết quả cuối cùng của những hệ thống OCR. Một trong những bước tiền xử lý quan trọng là phân trang ảnh văn bản, nghĩa là, xác định cấu trúc vật lý của một văn bản là bao gồm nhiều khối, những khối này có thể là vùng văn bản (text), hình ảnh hay bảng biểu; ở đây chúng tôi chỉ quan tâm đến những vùng text Phương pháp được tạo ra và lưu trữ liên tục của văn bản đã tồn tại từ Lưỡng Hà dạng viên đất sét, các tác phẩm Trung Quốc về tre và tơ lụa cũng như Ai Cập viết trên giấy cói. Đối với việc tìm kiếm và phục hồi, phương pháp để lưu trữ có hệ thống tài liệu hoàn chỉnh trọng một thư viên được phát triển bởi các nhà sư, những người chuyên ghi chép sổ sách cho các vị vua, hoàng đế trong nhiều nền văn hoá. Lưu truyền theo thời gian nó không còn nguyên vẹn. Việc chỉnh sửa các văn bản gặp không ít vấn đề. Tuy nhiên, phần mền xử lý văn bản sẽ chỉ đối phó với một số hữu hạn các định dạng văn bản kỹ thuật số. Các chuyển đổi hình ảnh của một tài liệu giấy hiện có – mà không mất nội dung hoặc bố cục – thành một định dạng số mà nó có thể được xử lý nguyên vẹn là điều khó khăn và thường không thể. Người sử dụng của chúng tôi cố gắng phá vỡ các vấn đề bằng cách sử dụng một số phần mền đóng gói Nhận dạng ký tự quang học (optical character recognition - OCR). Hiện nay phần mềm đóng gói OCR sẽ làm công việc hợp lý giúp người sử dụng chuyển đổi hình ảnh sang một dạng tài liệu mà có thể được xử lý bởi hệ thống xử lý văn bản thường xuyên cung cấp cho nó có những điều kiện tối ưu với: Chất lượng hình ảnh Phân chia các văn bản từ hình nền của nó Sự hiện diện của các font ký tự Không có kịch bản viết tay được connected-cursive và bố cục trang đơn giản Mô hình quá trình xử lý ảnh được mô tả như sau: Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá trình xử lý ảnh. Ảnh đầu vào sẽ được thu nhận qua các thiết bị như camera, sensor, máy scanner,v.v… và sau đó các tín hiệu này sẽ được số hóa. Việc lựa chọn các thiết bị thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tượng cần xử lý. Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị. Tiền xử lý: Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử bóng, khử độ lệch,v.v… với mục đích làm cho chất lượng ảnh trở lên tốt hơn nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lý ảnh. Quá trình này thường được thực hiện bởi các bộ lọc. Phân đoạn ảnh: phân đoạn ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông. Tiêu chuẩn để xác định các vùng liên thông có thể là cùng màu, cùng mức xám v.v… Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô. Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó. Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu. Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó. Trong cả hai trường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết. Để chuyển đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó. Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trưng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn. Biểu diễn dạng vùng lại thích hợp cho những ứng dụng khai thác các tính chất bên trong của đối tượng, ví dụ như vân ảnh hoặc cấu trúc xương của nó. Sự chọn lựa cách biểu diễn thích hợp cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi dữ liệu ảnh thô sang một dạng thích hợp hơn cho các xử lý về sau. Chúng ta còn phải đưa ra một phương pháp mô tả dữ liệu đã được chuyển đổi đó sao cho những tính chất cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý chúng. Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình xử lý ảnh. Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh. Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh. Giải thích là công đoạn gán nghĩa cho một tập các đối tượng đã được nhận biết. Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý ảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý. Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v… Quả thực, trong mỗi trường hợp hạn chế nghiêm ngặt về nội dung, hình dạng ký tự và bố cụ hiện tại, phương pháp hiện tại thậm chí là công việc khá tốt trong việc chuyển đổi chính xác hình ảnh ký tự để các chuỗi tương ứng của các ký tự số trong bảng mã ASCII hay Unicode. Ví dụ về các ứng dụng như vậy là bưu điện đọc địa chỉ hoặc chữ số để xác nhận kiểm tra ngân hàng. Mặt khác, nếu người dùng muốn xử lý kỹ thuật số quyển nhật ký viết tay của ông bà hoặc một đoạn của tờ báo từ thế kỷ 18, cơ hội thành công vẫn còn chưa rõ ràng. Thư viện và nhà nghiên cứu nhân văn trên toàn thế giới vẫn thích loại văn bản cổ viết bằng tay vào máy tính của họ trong khi sao chép từ giấy hơn là uỷ thác tài liệu của họ lưu hành các thuật nhận dạng văn bản. Không chỉ là xử lý các hình ảnh văn bản tuỳ ý, nguồn gốc là một vấn đề đáng kể. Ngay cả khi mục tiêu có thể được giảm đến chỉ là tìm kiếm và phục hồi văn bản có liên quan từ một lượng lưu trữ số các văn bản hình ảnh có nhiều vật chướng ngại. Hơn nữa, đáng ngạc nhiên, không chỉ các văn bản cổ xưa đang đặt ra vấn đề. Ngay cả việc xử lý văn bản kỹ thuật số hiện đại tạo ra, trong các định dạng khác nhau như tổ hợp các trang web với nội dung văn bản của họ và mã hoá dựa trên hình ảnh sẽ yêu cầu kỹ thuật trước khi đảo ngược một tài liệu như kỹ thuật số có thể được nạp vào bộ xử lý từ. Trong những năm gần đây, thêm một thách thức thú vị trong nghiên cứu nhận dạng. Đọc văn bản từ nhừng hình ảnh tự nhiên ghi bằng máy ảnh, nhiều vấn đề được đặt ra, ta đang fải đối phó với một số hạn chế ứng dụng như: việc nhận dạng tự động của các chữ số trong bức ảnh chụp của tấm giấy phép ôtô trở thành một vấn để kỹ thuật đơn thuần, cách đọc dựa trên camera của văn bản ví dụ, trong hệ thống hỗ trợ cho người mù, chỉ bắt đầu hiển thị kết quả sơ bộ. 1.3. Bài toán phát hiện góc nghiêng văn bản. Xử lý văn bản hình ảnh có nhiều nhiệm vụ khác nhau và có các phương pháp để thực hiện các nhiệm vụ này. Trong khi quét văn bản, nghiêng là không tránh khỏi khi văn bản hình ảnh được đưa vào. Góc nghiêng là sự sai lệch bất kỳ của hình ảnh từ văn bản gốc, mà không song song với chiều ngang hoặc dọc. Góc nghiêng văn bản là một trong những nhiệm vụ quan trọng cần được sửa chữa trong xử lý văn bản. Góc nghiêng văn bản là một bài toán kinh điển trong xử lý ảnh văn bản. Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán phát hiện góc nghiêng như một bước đầu tiên và tất yếu. Chính vì vậy, cùng với sự phát triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán góc nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc độ khác nhau. Có rất nhiều hướng tiếp cận cho bài toán góc nghiêng văn bản từ trước tới nay. Các thuật toán phát hiện góc nghiêng thường được xây dựng cho các hệ thống phân tích ảnh văn bản khác nhau nên chỉ giải quyết cho những loại ảnh văn bản cụ thể. Có thể chia ra một số hướng tiếp cận cơ bản cho bài toán góc nghiêng văn bản như sau: - Các thuật toán dựa vào phương pháp Base - point - Các thuật toán dựa vào biến đổi Hough (Hough Transform) - Các thuật toán dựa vào biến đổi Fourier (Fourier Transform) - Các thuật toán phân tích láng giềng (Nearest Neighbour Clustering) - Các thuật toán dựa vào phương pháp scanline… Dựa vào tính chất mỗi đối tượng ảnh có duy nhất một chu tuyến ngoài và quan niệm con người nhận ra độ nghiêng của văn bản dựa vào cỡ chữ chiếm chủ đạo trong văn bản. Mục này đề cập đến việc tính toán kích thước chủ đạo của các đối tượng ảnh trong văn bản thông qua kỹ thuật tính biểu đồ tần xuất kích thước hình chữ nhật nhỏ nhất bao quanh đối tượng ảnh. Việc xác định góc nghiêng văn bản sẽ được xác định nhờ phép biến đổi Hough cho những điểm giữa đáy của hình chữ nhật nhỏ nhất bao quanh đối tượng ảnh cho các đối tượng ảnh có kích thước chủ đạo. Kết luận Nội dung chương 1 đã giới thiệu tổng quan các bước tiền xử lý văn bản, vai trò của nó trong việc nhận dạng văn bản. Bước đầu tiếp cận với bài toán phát hiện góc nghiêng văn bản. Qua nghiên cứu có rất nhiều cách tiếp cận khác nhau đối với bài toán phát hiện góc nghiêng văn bản. Một số thuật toán tiêu biểu sẽ được trình bày chi tiết hơn trong chương 2. Chương 2 CÁC THUẬT TOÁN PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN Có nhiều phương pháp khác nhau để phát hiện góc nghiêng hình ảnh văn bản quét. Trong chương này chúng tôi nghiêng cứu 3 thuật toán phát hiện góc nghiêng văn bản tiêu biêu nhất là: Phát hiện góc nghiêng dựa vào phương pháp Base-point, dựa vào biến đổi Fourier và phát hiện góc nghiêng dựa vào phương pháp Scanline. 2.1. Phát hiện góc nghiêng dựa vào phương pháp Base-point. Đầu tiên chúng ta sẽ thảo luận về các phương pháp pháp hiện góc nghiêng bằng cách sử dụng thuật toán staight line phù hợp. Các bước liên quan và cộng thêm tiêu chuẩn khác nhau mà nó tăng hiệu quả của các thuật toán đã được thảo luận. Cuối cùng đưa ra các ví dụ thích hợp. 2.1.1. Lựa chọn của một phân vùng và đối tượng 2.1.1.1. Lựa chọn phân vùng Dòng