Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009

Ngày nay, nhiều nước trên thế giới cũng nhưtrong khu vực đã áp dụng công nghệ quét, nhận dạng ký tựthông minh (ICR) trong việc xử lý số liệu điều tra thống kê nói chung và xử lý số liệu điều tra dân số nói riêng. Trong khi đó, ở nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉthực hiện bằng công nghệnhập tin truyền thống. Vì vậy, chúng ta không biết được công nghệnhận dạng ký tựthông minh là gì và có thểáp dụng trong xử lý điều tra thống kê ở nước ta hay không. Trong trường hợp áp dụng được thì những yếu tốnào ảnh hưởng đến sựthành công hay thất bại của việc áp dụng công nghệ này trong xử lý? v.v.

pdf134 trang | Chia sẻ: khactoan_hl | Lượt xem: 1952 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TỔNG CỤC THỐNG KÊ BÁO CÁO TỔNG HỢP KẾT QUẢ NGHIÊN CỨU KHOA HỌC ĐỀ TÀI CẤP TỔNG CỤC NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009 Đơn vị chủ trì: Trung tâm Tin học Thống kê Chủ nhiệm: TS. Thiều Văn Tiến Thư ký: CN. Nguyễn Thị Huyền Thanh 7873 21/4/2010 HÀ NỘI, NĂM 2008 Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 1 - LỜI NÓI ĐẦU Ngày nay, nhiều nước trên thế giới cũng như trong khu vực đã áp dụng công nghệ quét, nhận dạng ký tự thông minh (ICR) trong việc xử lý số liệu điều tra thống kê nói chung và xử lý số liệu điều tra dân số nói riêng. Trong khi đó, ở nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉ thực hiện bằng công nghệ nhập tin truyền thống. Vì vậy, chúng ta không biết được công nghệ nhận dạng ký tự thông minh là gì và có thể áp dụng trong xử lý điều tra thống kê ở nước ta hay không. Trong trường hợp áp dụng được thì những yếu tố nào ảnh hưởng đến sự thành công hay thất bại của việc áp dụng công nghệ này trong xử lý? v.v.. Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng ký tự thông minh trong các điều tra để chuẩn bị cho việc áp dụng công nghệ này trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 là rất cần thiết. Những kinh nghiệm có được trong quá trình nghiên cứu, thử nghiệm sẽ góp phần đảm bảo cho sự thành công của việc áp dụng công nghệ ICR trong xử lý điều tra thống kê nói chung và trong xử lý Tổng điều tra dân số và nhà ở nói riêng. Đề tài nghiên cứu khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh trong xử lý số liệu Tổng điều tra dân số và nhà ở năm 2009”, mã số 2.1.10-TC07-08 nhằm giải quyết những vấn đề nêu trên. Đề tài đã tiến hành nghiên cứu công nghệ nhận dạng ký tự thông minh, nghiên cứu phần mềm ReadSoft FORMS 5.2, thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) của công ty ReadSoft với các điều tra biến động dân số năm 2006, năm 2007 và điều tra thử nghiệm của Tổng điều tra dân số và nhà ở năm 2009. Báo cáo kết quả nghiên cứu của đề tài gồm 5 phần: Phần I. Nghiên cứu kinh nghiệm áp dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu điều tra thống kê của một số nước; Phần II. Nghiên cứu áp dụng công nghệ nhận dạng của công ty ReadSoft; Phần III. Nghiên cứu các vấn đề về thiết kế, in, ghi phiếu khi áp dụng công nghệ quét, nhận dạng trong xử lý điều tra; Phần IV. Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số các năm 2006, 2007, 2008; Phần V. Nghiên cứu, đề xuất quy trình xử lý, nguồn lực vật chất, nguồn nhân lực và mô hình tổ chức xử lý Tổng điều tra dân số và nhà ở 1/4/2009. Trong đó, nội dung Phần 4 “Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số các năm 2006, 2007, 2008” sẽ trình bày chi tiết kết quả thử nghiệm công nghệ ICR trong xử lý điều tra biến động dân số năm 2006, điều tra biến động dân số năm 2007, điều tra thử nghiệm của Tổng điều tra dân số và nhà ở. Trên cơ sở những kinh nghiệm có được từ các lần thử nghiệm, phần cuối của báo cáo kết quả nghiên cứu đưa ra những kết luận cũng như những kiến nghị cho xử lý Tổng điều tra dân số và nhà ở 1/4/2009. Để biết được việc áp dụng công nghệ ICR trong xử lý điều tra thống kê như thế nào, trước hết người ta phải hiểu được sự khác nhau giữa việc xử lý dữ liệu bằng phương pháp nhập tin truyền thống và việc xử lý áp dụng công nghệ ICR. Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 2 - Nói chung, trong xử lý số liệu điều tra thống kê người ta đều phải thực hiện công việc nhập dữ liệu từ phiếu điều tra (trên giấy) vào máy tính. Cho đến thời nay, công việc này thường được thực hiện với các giải pháp: nhập tin bằng bàn phím; nhập tin bằng công nghệ quét. Nhập tin bằng bàn phím là phương pháp đơn giản. Để nhập tin, người ta thường phát triển chương trình ứng dụng theo từng phiếu điều tra. Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra vào vị trí tương ứng trên màn hình máy tính. Chương trình ứng dụng sẽ ghi những thông tin đã nhập vào các tệp (file) hoặc cơ sở dữ liệu. Các bước xử lý tiếp theo như hiệu chỉnh, tổng hợp, phân tích số liệu sẽ đọc thông tin từ tệp hoặc cơ sở dữ liệu, nơi lưu giữ dữ liệu đã nhập. Phương pháp nhập tin bằng bàn phím là phương pháp thường được sử dụng từ trước đến nay và còn tiếp tục sử dụng sau này do sự đơn giản, chi phí đầu tư thấp. Tuy nhiên, nếu áp dụng phương pháp này trong xử lý số liệu điều tra có khối lượng lớn thường mất nhiều thời gian do tốc độ nhập tin của con người có hạn. Mặt khác chất lượng thông tin đã nhập phụ thuộc vào kỹ năng của người nhập tin. Nhập tin bằng quét (scanning) là một công nghệ mới được phát triển vào những năm 80 của thế kỷ trước. Để nhập tin bằng công nghệ quét người ta phải trang bị máy quét (Scanner) để quét phiếu điều tra và trang bị phần mềm nhận dạng để chuyển thông tin dạng ảnh (image) thành ký tự (chữ, số) để máy tính có thể tính toán được. Hiện nay công nghệ này đã được áp dụng ở nhiều nước trên thế giới. Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan, Lào... đều đã áp dụng công nghệ này trong xử lý dữ liệu điều tra thống kê. Việt Nam chưa áp dụng công nghệ quét để xử lý số liệu điều tra. Tuy nhiên, do những ưu việt của công nghệ quét như tốc độ xử lý nhanh, độ chính xác cao... nên Tổng cục Thống kê đang chuẩn bị áp dụng công nghệ này trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009. Trong thời gian qua, với sự giúp đỡ của Quỹ dân số Liên hợp quốc trong việc mua sắm trang thiết bị dùng cho thử nghiệm, Trung tâm Tin học thống kê đã kết hợp với Vụ thống kê Dân số và Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR. Kết quả nghiên cứu, thử nghiệm trong gần 2 năm qua là nội dung chính của Đề tài. Tham gia nghiên cứu đề tài có cán bộ của Trung tâm Tin học thống kê và Vụ thống kê Dân số và Lao động. Danh sách những người thực hiện như sau: 1. Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ nhiệm đề tài 2. Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê, thư ký đề tài 3. Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê 4. Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê 5. Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ Thống kê Dân số và Lao động Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 3 - 6. Cử nhân Cao Quang Thành, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 7. Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 8. Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 9. Cử nhân Nguyễn Thị Yến, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 10. Cử nhân Vũ Huy Thường, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 11. Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 12. Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ Thống kê Dân số và Lao động 13. Kỹ sư Nguyễn Hữu Hoàn, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 4 - PHẦN I. KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC 1. Công nghệ quét, nhận dạng Công nghệ nhận dạng đã được cơ quan thống kê nhiều nước áp dụng trong xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ bàn phím. Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận dạng ký tự quang học (OCR- Optical Character Recognition) và công nghệ nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition). 1.1. Công nghệ đọc đánh dấu quang học (OMR) Cách đây vài thập kỷ, rất nhiều nước tiên tiến đã sử dụng công nghệ nhận dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều tra. Đây là một bước tiến quan trọng trong việc xử lý phiếu tự động nhưng việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao như: phải có thiết bị đọc riêng, yêu cầu cao về chất lượng giấy và in phiếu, không nhận dạng được các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v. Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên phiếu hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form thông thường. Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đường cắt của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles” nhỏ. Để thiết kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ hình ô văng đó cho từng phương án trả lời một. Sau đó điều tra viên sẽ làm kín ô có phương án trả lời đúng thì máy Scan mới nhận dạng được. OMR không thể nhận dạng chữ viết tay và chữ in. Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR và ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ ICR và OCR. 1.2. Công nghệ nhận dạng ký tự quang học (OCR) Công nghệ OCR là một bước tiến mới so với công nghệ OMR bởi vì nó có thể nhận dạng ký tự in trên giấy. Tuy nhiên, tỷ lệ nhận dạng chính xác không bằng công nghệ OMR, nhưng nó đỡ tốn kém hơn công nghệ OMR. Công nghệ này chuyển hình ảnh chữ thành mã tương ứng mà máy tính có thể đọc được (ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ không thể nhận dạng được chữ viết tay. Đối với chữ in, nó cũng chỉ có thể nhận dạng một số loại fonts chuẩn như Times Roman và Arial Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 5 - 1.3. Công nghệ nhận dạng ký tự thông minh (ICR) Từ những năm 90 của thế kỷ trước, công nghệ nhận dạng ký tự thông minh (ICR) bắt đầu dần thay thế công nghệ OMR. Những loại ký tự có thể đọc và nhận dạng được bởi công nghệ này bao gồm: các chữ in, chữ viết tay, các ký tự đánh dấu hay được khoanh, mã vạch,... Các phiếu điều tra được nhập vào máy tính thay vì bằng cách nhập tin từ bàn phím nay được máy quét (scanner) chuyển thành hình ảnh và sau đó được nhận dạng chuyển đổi thành các chữ cái chữ số mà máy tính có thể xử lý được. So với OMR, công nghệ ICR là một bước tiến dài khi nó nhận dạng được không chỉ các ký tự đánh dấu, mã vạch,... mà còn nhận dạng chữ viết tay. Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR, OCR, ICR. Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lượng giấy, không đòi hỏi thiết bị chuyên biệt. Ngày nay ICR được sử dụng rộng rãi ở rất nhiều nước trong nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê, nhất là các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh và thay thế cách thức nhập tin truyền thống. Tuy tỷ lệ nhận dạng không cao bằng công nghệ OCR và OMR (thường đạt tỷ lệ lớn hơn 95%), nhưng nó gần với thực tế hơn, gần với form thiết kế nhập tin hơn, dễ sử dụng hơn. 2. Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử lý điều tra thống kê của một số nước 2.1. Kinh nghiệm của Thái Lan Trước năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) và lần đầu tiên áp dụng công nghệ này trong xử lý số liệu tổng điều tra dân số năm 2000. Sau khi xử lý tổng điều tra dân số năm 2000, Thái Lan tiếp tục sử dụng công nghệ này trong xử lý điều tra Lao động (Labour Force Survey), điều tra hộ sản xuất (The Household Manufacturing Survey), Tổng điều tra nông nghiệp năm 2003, v.v. Trong tổng điều tra dân số năm 2000, Thái Lan sử dụng hai loại phiếu là phiếu ngắn và phiếu dài. Tất cả nhân khẩu thường trú được ghi vào phiếu ngắn, trong đó có 20% nhân khẩu thường trú được ghi vào phiếu dài. Phiếu ngắn (gồm 16 chỉ tiêu) thu thập các chỉ tiêu cơ bản nhất như tuổi, giới tính, quan hệ với chủ hộ, tôn giáo, dân tộc, tình trạng đi học, biết đọc/viết, tình trạng hôn nhân, làm việc bao gồm nghề nghiệp, ngành kinh tế, vị thế việc làm (hỏi cho 12 tháng trước điều tra). Ngoài các chỉ tiêu ở phiếu ngắn, phiếu dài còn bao gồm các chỉ tiêu (thêm 10 chỉ tiêu): công việc làm trong tuần trước điều tra, tìm việc làm, lý do không làm việc, số con sinh và số con chết, số trẻ sinh trong năm qua, nơi sinh, độ dài thời gian cư trú, nơi ở trước, lý do di chuyển. Về nhà ở, bao gồm các chỉ tiêu sau: loại nhà, sở hữu đất, diện tích ở (tổng điều tra); nhiên Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 6 - liệu nấu ăn, phương tiện vệ sinh, nguồn nước dùng để ăn uống, nguồn nước, các thiết bị sử dụng lâu bền. Số lượng phiếu đã xử lý trong tổng điều tra dân số năm 2000 của Thái Lan là 16 triệu phiếu. Nếu nhập tin bằng bàn phím, thời gian nhập tin kéo dài 12 tháng, trong khi sử dụng công nghệ quét nhận dạng ký tự ICR chỉ mất 8 tháng (bằng 2/3 thời gian nhập tin bằng bàn phím). Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra dân số 2000 theo mô hình tập trung. Cơ quan Thống kê tỉnh có trách nhiệm tiến hành điều tra, kiểm tra phiếu, hiệu đính và ghi mã trước khi gửi về NSO tại Băng Cốc. Việc quét và xử lý tiến hành tập trung tại Băng Cốc. Hệ thống máy móc, thiết bị và phần mềm sử dụng công nghệ ICR gồm 2 hệ thống: - Hệ thống TELEform sử dụng phần mềm TELEform của TELEform Cardiff Software, inc. USA cho ICR. TELEform 6.2 Elite Enterprise Edition (gồm các Module: TELEform Designer; TELEform Reader; TELEform Verifier) Các thiết bị sử dụng trong hệ thống TELEform bao gồm: Tên thiết bị Số lượng (cái) Ghi chú NetServer for TELEform Server 1 NetServer for DataBase Server 1 Reader Modules Workstatons 21 Verifier Modules Workstations 30 Scanner Control Workstations 6 Sanner Fujitsu M4099D (*) 6 - Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang Nga cho ICR. Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module sau: Form Designer; Administration Station; Recognition Station; Correction Station). Các thiết bị sử dụng trong hệ thống ABBYY bao gồm: Tên thiết bị Số lượng (cái) Ghi chú IBM Server X Series 225 1 Correction Station 1 Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 7 - Verifier Modules Workstations 25 Scanner Control Workstations 4 Sanner Fujitsu M4099D (*) 4 Storage Flex LT707 1 (*): Máy quét khổ A3, 2 mặt (Duplex). Giá mỗi máy năm 2000 khoảng 20.000 USD Về phần mềm nhận dạng ICR: Thời gian đầu NSO Thái Lan đã mua phần mềm công nghệ ICR (gồm 3 môdule: thiết kế, đọc và hiệu chỉnh số liệu) của Công ty Phần mềm TELEform Cardiff của Mỹ. Trong thời gian sử dụng, có một vài trục trặc và nhận thấy nếu mua trọn gói thì đắt, NSO đã chuyển qua thuê phần mềm ABBYY của Nga có trụ sở tại Băng Cốc. Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử lý điều tra: - Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR. Tuy nhiên độ dai của giấy cần tốt hơn loại giấy thông thường; - Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trường hợp phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân biệt trang của các tập phiếu khác nhau. Khi có một tờ phiếu nào có vấn đề, máy tính kiểm soát máy quét đưa ra thông báo ngay. Người vận hành lấy tờ đó từ ngăn “đầu ra” cho lại vào ngăn “đầu vào” để quét lại, vì phần mềm quét đủ thông minh để có thể biết tờ phiếu nào quét được, tờ nào có trục trặc; - Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự động, nửa thủ công; - Tốc độ quét rất khác nhau, tùy thuộc vào số lượng ô trên một trang phải nhận dạng. Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của Thái Lan là 20 tờ/1 phút (2 mặt). Song với phiếu Tổng điều tra nông nghiệp năm 2003 của Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút); - Để nâng cao khả năng nhận dạng và thời gian hiệu chỉnh số liệu, tất cả các ký tự nhận dạng dùng để tổng hợp đều phải bằng số. Như vậy có nghĩa là, nếu câu trả lời nào đó không phải bằng số, cần ghi mã trước khi quét; - Để giảm khối lượng xác minh số liệu, điều tra viên/mã số viên phải viết tương đối chuẩn các số vào trong ô mã dành sẵn theo quy định. Không được viết một cách cẩu thả, tuỳ tiện; - Việc xác minh số liệu chỉ phải tiến hành đối với các ký tự mà phần mềm nhận dạng phân vân không khẳng định chắc chắn đó là ký tự gì, chứ không cần phải kiểm tra tất cả các ký tự. Vì vậy, việc ghi chép phiếu càng đúng và chuẩn mực, càng giảm công việc xác minh số liệu; Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 8 - - Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2. Các ô mã trên phiếu in màu xanh để dễ nhận dạng. Ghi phiếu bằng bút chì kim HB2 của Nhật Bản sản xuất. Khi viết sai có thể dùng tẩy, tẩy đi để viết lại; - Tập huấn cán bộ điều ra rất kỹ. Tập huấn 2 lần, mỗi lần một tuần; -Việc bảo quản phiếu để dùng cho ICR không quá phức tạp. Cụ thể là, phiếu khổ giấy A3 được gập đôi lại một cách bình thường (không cần gập theo một đường nào đó quy định trước). Một tập phiếu được cho vào trong một túi giấy như vỏ bao xi măng. Nhiều túi phiếu được cho vào trong một hộp cát tông (như loại hộp cát tông bình thường dùng đóng hàng hoá); 2.2. Kinh nghiệm của Philipin Trước năm 2000, việc xử lý các điều tra, tổng điều tra của Cơ quan thống kê Quốc gia Philipin (NSO) đều sử dụng công nghệ nhập tin bằng bàn phím. Từ năm 2000, NSO bắt đầu sử dụng công nghệ ICR trong việc xử lý tổng điều tra dân số và nhà ở và sau đó tiếp tục sử dụng công nghệ này trong xử lý tổng điều tra nông nghiệp và thủy sản 2002. Sau đây là một số kinh nghiệm của NSO trong việc áp dụng công nghệ ICR trong xử lý tổng điều tra dân số 2000. a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa +)Thiết kế phiếu điều tra Trong tổng điều tra dân số và nhà ở năm 2000, NSO thiết kế 4 phiếu điều tra: Phiếu danh sách hộ, phiếu hộ, phiếu hộ điều tra mẫu và phiếu tình trạng hộ. Để áp dụng công nghệ ICR, các thông tin cần nhập luôn được thiết kế trong ô hình tròn hoặc ô hình chữ nhật đủ để ghi các ký tự chữ số ( 0,..,9), chữ in (A, B, ..,Z, N ngã). Số định dạng của phiếu (ID phiếu) đầu tiên sử dụng mã vạch nhưng đã không cần sử dụng trong tổng điều tra nông nghiệp, thủy sản 2002. Kích thước phiếu: 11inch x 17 inch 11inch x 12 inch 11inch x 8,5 inch +) In phiếu điều tra Phiếu điều tra đầu tiên được in màu nhưng đã được cải tiến bằng cách in đen trắng để tránh lãng phí. Để tỷ lệ nhận dạng cao, phiếu được in trên giấy tốt, tiêu chuẩn tối thiểu 80gram/m2 +)Viết phiếu điều tra Phiếu điều tra được đánh dấu (mark) vào các ô khoanh tròn dùng trong các câu hỏi lựa chọn hoặc điền (fill) ký tự viết tay bằng bút chì chuẩn vào những ô hình chữ nhật. Lý do không dùng bút bi là không thể nhận dạng được ký tự đã bị gạch xóa. b) Xử lý điều tra sử dụng công nghệ ICR Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - 9 - +) Tổ chức xử lý NSO tổ chức xử lý tổng điều tra dân số và nhà ở tại 4 trung tâm (Data Capture Center – DCC). Số lượng phiếu xử lý phải xử lý là 15,5 triệu. Số lượng phiếu của từng Trung tâm như sau: -Trung tâm Pampanga: 3,5 triệu phiếu -Trung tâm Manila: 5 triệu phiếu -Trung tâm Cebu: 3,5 triệu phiếu -Trung tâm Davao: 3,5 triệu phiếu Thời gian xử lý thực hiện theo ca, 2 ca / ngày, 6 ngày/tuần. Thời gi
Luận văn liên quan