Ngày nay, nhiều nước trên thế giới cũng nhưtrong khu vực đã áp dụng công
nghệ quét, nhận dạng ký tựthông minh (ICR) trong việc xử lý số liệu điều tra
thống kê nói chung và xử lý số liệu điều tra dân số nói riêng. Trong khi đó, ở
nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉthực hiện bằng công
nghệnhập tin truyền thống. Vì vậy, chúng ta không biết được công nghệnhận
dạng ký tựthông minh là gì và có thểáp dụng trong xử lý điều tra thống kê ở
nước ta hay không. Trong trường hợp áp dụng được thì những yếu tốnào ảnh
hưởng đến sựthành công hay thất bại của việc áp dụng công nghệ này trong xử
lý? v.v.
134 trang |
Chia sẻ: khactoan_hl | Lượt xem: 2065 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TỔNG CỤC THỐNG KÊ
BÁO CÁO TỔNG HỢP
KẾT QUẢ NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI CẤP TỔNG CỤC
NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ
TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG
ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009
Đơn vị chủ trì: Trung tâm Tin học Thống kê
Chủ nhiệm: TS. Thiều Văn Tiến
Thư ký: CN. Nguyễn Thị Huyền Thanh
7873
21/4/2010
HÀ NỘI, NĂM 2008
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 1 -
LỜI NÓI ĐẦU
Ngày nay, nhiều nước trên thế giới cũng như trong khu vực đã áp dụng công
nghệ quét, nhận dạng ký tự thông minh (ICR) trong việc xử lý số liệu điều tra
thống kê nói chung và xử lý số liệu điều tra dân số nói riêng. Trong khi đó, ở
nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉ thực hiện bằng công
nghệ nhập tin truyền thống. Vì vậy, chúng ta không biết được công nghệ nhận
dạng ký tự thông minh là gì và có thể áp dụng trong xử lý điều tra thống kê ở
nước ta hay không. Trong trường hợp áp dụng được thì những yếu tố nào ảnh
hưởng đến sự thành công hay thất bại của việc áp dụng công nghệ này trong xử
lý? v.v.. Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng ký tự thông
minh trong các điều tra để chuẩn bị cho việc áp dụng công nghệ này trong xử lý
Tổng điều tra dân số và nhà ở 1/4/2009 là rất cần thiết. Những kinh nghiệm có
được trong quá trình nghiên cứu, thử nghiệm sẽ góp phần đảm bảo cho sự
thành công của việc áp dụng công nghệ ICR trong xử lý điều tra thống kê nói
chung và trong xử lý Tổng điều tra dân số và nhà ở nói riêng. Đề tài nghiên cứu
khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh trong
xử lý số liệu Tổng điều tra dân số và nhà ở năm 2009”, mã số 2.1.10-TC07-08
nhằm giải quyết những vấn đề nêu trên. Đề tài đã tiến hành nghiên cứu công
nghệ nhận dạng ký tự thông minh, nghiên cứu phần mềm ReadSoft FORMS
5.2, thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) của công ty
ReadSoft với các điều tra biến động dân số năm 2006, năm 2007 và điều tra thử
nghiệm của Tổng điều tra dân số và nhà ở năm 2009.
Báo cáo kết quả nghiên cứu của đề tài gồm 5 phần: Phần I. Nghiên cứu kinh
nghiệm áp dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu điều tra
thống kê của một số nước; Phần II. Nghiên cứu áp dụng công nghệ nhận dạng
của công ty ReadSoft; Phần III. Nghiên cứu các vấn đề về thiết kế, in, ghi phiếu
khi áp dụng công nghệ quét, nhận dạng trong xử lý điều tra; Phần IV. Thử
nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống
kê về dân số các năm 2006, 2007, 2008; Phần V. Nghiên cứu, đề xuất quy trình
xử lý, nguồn lực vật chất, nguồn nhân lực và mô hình tổ chức xử lý Tổng điều
tra dân số và nhà ở 1/4/2009. Trong đó, nội dung Phần 4 “Thử nghiệm công
nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số
các năm 2006, 2007, 2008” sẽ trình bày chi tiết kết quả thử nghiệm công nghệ
ICR trong xử lý điều tra biến động dân số năm 2006, điều tra biến động dân số
năm 2007, điều tra thử nghiệm của Tổng điều tra dân số và nhà ở. Trên cơ sở
những kinh nghiệm có được từ các lần thử nghiệm, phần cuối của báo cáo kết
quả nghiên cứu đưa ra những kết luận cũng như những kiến nghị cho xử lý
Tổng điều tra dân số và nhà ở 1/4/2009.
Để biết được việc áp dụng công nghệ ICR trong xử lý điều tra thống kê như
thế nào, trước hết người ta phải hiểu được sự khác nhau giữa việc xử lý dữ liệu
bằng phương pháp nhập tin truyền thống và việc xử lý áp dụng công nghệ ICR.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 2 -
Nói chung, trong xử lý số liệu điều tra thống kê người ta đều phải thực hiện
công việc nhập dữ liệu từ phiếu điều tra (trên giấy) vào máy tính. Cho đến thời
nay, công việc này thường được thực hiện với các giải pháp: nhập tin bằng bàn
phím; nhập tin bằng công nghệ quét. Nhập tin bằng bàn phím là phương pháp
đơn giản. Để nhập tin, người ta thường phát triển chương trình ứng dụng theo
từng phiếu điều tra. Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra
vào vị trí tương ứng trên màn hình máy tính. Chương trình ứng dụng sẽ ghi
những thông tin đã nhập vào các tệp (file) hoặc cơ sở dữ liệu. Các bước xử lý
tiếp theo như hiệu chỉnh, tổng hợp, phân tích số liệu sẽ đọc thông tin từ tệp
hoặc cơ sở dữ liệu, nơi lưu giữ dữ liệu đã nhập. Phương pháp nhập tin bằng bàn
phím là phương pháp thường được sử dụng từ trước đến nay và còn tiếp tục sử
dụng sau này do sự đơn giản, chi phí đầu tư thấp. Tuy nhiên, nếu áp dụng
phương pháp này trong xử lý số liệu điều tra có khối lượng lớn thường mất
nhiều thời gian do tốc độ nhập tin của con người có hạn. Mặt khác chất lượng
thông tin đã nhập phụ thuộc vào kỹ năng của người nhập tin.
Nhập tin bằng quét (scanning) là một công nghệ mới được phát triển vào
những năm 80 của thế kỷ trước. Để nhập tin bằng công nghệ quét người ta phải
trang bị máy quét (Scanner) để quét phiếu điều tra và trang bị phần mềm nhận
dạng để chuyển thông tin dạng ảnh (image) thành ký tự (chữ, số) để máy tính
có thể tính toán được. Hiện nay công nghệ này đã được áp dụng ở nhiều nước
trên thế giới. Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan,
Lào... đều đã áp dụng công nghệ này trong xử lý dữ liệu điều tra thống kê. Việt
Nam chưa áp dụng công nghệ quét để xử lý số liệu điều tra. Tuy nhiên, do
những ưu việt của công nghệ quét như tốc độ xử lý nhanh, độ chính xác cao...
nên Tổng cục Thống kê đang chuẩn bị áp dụng công nghệ này trong xử lý số
liệu tổng điều tra dân số và nhà ở năm 2009. Trong thời gian qua, với sự giúp
đỡ của Quỹ dân số Liên hợp quốc trong việc mua sắm trang thiết bị dùng cho
thử nghiệm, Trung tâm Tin học thống kê đã kết hợp với Vụ thống kê Dân số và
Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR. Kết quả nghiên cứu,
thử nghiệm trong gần 2 năm qua là nội dung chính của Đề tài.
Tham gia nghiên cứu đề tài có cán bộ của Trung tâm Tin học thống kê và
Vụ thống kê Dân số và Lao động. Danh sách những người thực hiện như sau:
1. Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ
nhiệm đề tài
2. Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng cơ sở dữ liệu
Trung tâm Tin học Thống kê, thư ký đề tài
3. Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê
4. Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê
5. Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ Thống kê Dân số và Lao
động
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 3 -
6. Cử nhân Cao Quang Thành, chuyên viên Phòng cơ sở dữ liệu Trung tâm
Tin học Thống kê
7. Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng cơ sở dữ liệu Trung
tâm Tin học Thống kê
8. Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng cơ sở dữ liệu Trung
tâm Tin học Thống kê
9. Cử nhân Nguyễn Thị Yến, chuyên viên Phòng cơ sở dữ liệu Trung tâm
Tin học Thống kê
10. Cử nhân Vũ Huy Thường, chuyên viên Phòng cơ sở dữ liệu Trung tâm
Tin học Thống kê
11. Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng cơ sở dữ liệu Trung
tâm Tin học Thống kê
12. Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ Thống kê Dân số và Lao
động
13. Kỹ sư Nguyễn Hữu Hoàn, chuyên viên Phòng cơ sở dữ liệu Trung tâm
Tin học Thống kê
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 4 -
PHẦN I. KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG
KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC
1. Công nghệ quét, nhận dạng
Công nghệ nhận dạng đã được cơ quan thống kê nhiều nước áp dụng trong
xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ
bàn phím. Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh dấu
quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận
dạng ký tự quang học (OCR- Optical Character Recognition) và công nghệ
nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition).
1.1. Công nghệ đọc đánh dấu quang học (OMR)
Cách đây vài thập kỷ, rất nhiều nước tiên tiến đã sử dụng công nghệ nhận
dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều tra.
Đây là một bước tiến quan trọng trong việc xử lý phiếu tự động nhưng việc áp
dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao như: phải có
thiết bị đọc riêng, yêu cầu cao về chất lượng giấy và in phiếu, không nhận dạng
được các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v.
Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên phiếu
hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form
thông thường. Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ
cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đường cắt của form
OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles” nhỏ. Để thiết
kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ hình ô văng đó
cho từng phương án trả lời một. Sau đó điều tra viên sẽ làm kín ô có phương án
trả lời đúng thì máy Scan mới nhận dạng được. OMR không thể nhận dạng chữ
viết tay và chữ in.
Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR và
ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ ICR
và OCR.
1.2. Công nghệ nhận dạng ký tự quang học (OCR)
Công nghệ OCR là một bước tiến mới so với công nghệ OMR bởi vì nó có
thể nhận dạng ký tự in trên giấy. Tuy nhiên, tỷ lệ nhận dạng chính xác không
bằng công nghệ OMR, nhưng nó đỡ tốn kém hơn công nghệ OMR. Công nghệ
này chuyển hình ảnh chữ thành mã tương ứng mà máy tính có thể đọc được
(ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ không thể
nhận dạng được chữ viết tay. Đối với chữ in, nó cũng chỉ có thể nhận dạng một
số loại fonts chuẩn như Times Roman và Arial
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 5 -
1.3. Công nghệ nhận dạng ký tự thông minh (ICR)
Từ những năm 90 của thế kỷ trước, công nghệ nhận dạng ký tự thông
minh (ICR) bắt đầu dần thay thế công nghệ OMR. Những loại ký tự có thể đọc
và nhận dạng được bởi công nghệ này bao gồm: các chữ in, chữ viết tay, các ký
tự đánh dấu hay được khoanh, mã vạch,... Các phiếu điều tra được nhập vào
máy tính thay vì bằng cách nhập tin từ bàn phím nay được máy quét (scanner)
chuyển thành hình ảnh và sau đó được nhận dạng chuyển đổi thành các chữ cái
chữ số mà máy tính có thể xử lý được.
So với OMR, công nghệ ICR là một bước tiến dài khi nó nhận dạng được
không chỉ các ký tự đánh dấu, mã vạch,... mà còn nhận dạng chữ viết tay.
Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR, OCR,
ICR. Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lượng giấy,
không đòi hỏi thiết bị chuyên biệt. Ngày nay ICR được sử dụng rộng rãi ở rất
nhiều nước trong nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê, nhất là
các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh và thay thế cách thức
nhập tin truyền thống. Tuy tỷ lệ nhận dạng không cao bằng công nghệ OCR và
OMR (thường đạt tỷ lệ lớn hơn 95%), nhưng nó gần với thực tế hơn, gần với
form thiết kế nhập tin hơn, dễ sử dụng hơn.
2. Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử lý điều tra
thống kê của một số nước
2.1. Kinh nghiệm của Thái Lan
Trước năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng ký tự
thông minh (ICR) và lần đầu tiên áp dụng công nghệ này trong xử lý số liệu
tổng điều tra dân số năm 2000. Sau khi xử lý tổng điều tra dân số năm 2000,
Thái Lan tiếp tục sử dụng công nghệ này trong xử lý điều tra Lao động (Labour
Force Survey), điều tra hộ sản xuất (The Household Manufacturing Survey),
Tổng điều tra nông nghiệp năm 2003, v.v.
Trong tổng điều tra dân số năm 2000, Thái Lan sử dụng hai loại phiếu là
phiếu ngắn và phiếu dài. Tất cả nhân khẩu thường trú được ghi vào phiếu ngắn,
trong đó có 20% nhân khẩu thường trú được ghi vào phiếu dài. Phiếu ngắn
(gồm 16 chỉ tiêu) thu thập các chỉ tiêu cơ bản nhất như tuổi, giới tính, quan hệ
với chủ hộ, tôn giáo, dân tộc, tình trạng đi học, biết đọc/viết, tình trạng hôn
nhân, làm việc bao gồm nghề nghiệp, ngành kinh tế, vị thế việc làm (hỏi cho 12
tháng trước điều tra). Ngoài các chỉ tiêu ở phiếu ngắn, phiếu dài còn bao gồm
các chỉ tiêu (thêm 10 chỉ tiêu): công việc làm trong tuần trước điều tra, tìm việc
làm, lý do không làm việc, số con sinh và số con chết, số trẻ sinh trong năm
qua, nơi sinh, độ dài thời gian cư trú, nơi ở trước, lý do di chuyển. Về nhà ở,
bao gồm các chỉ tiêu sau: loại nhà, sở hữu đất, diện tích ở (tổng điều tra); nhiên
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 6 -
liệu nấu ăn, phương tiện vệ sinh, nguồn nước dùng để ăn uống, nguồn nước,
các thiết bị sử dụng lâu bền.
Số lượng phiếu đã xử lý trong tổng điều tra dân số năm 2000 của Thái Lan
là 16 triệu phiếu. Nếu nhập tin bằng bàn phím, thời gian nhập tin kéo dài 12
tháng, trong khi sử dụng công nghệ quét nhận dạng ký tự ICR chỉ mất 8 tháng
(bằng 2/3 thời gian nhập tin bằng bàn phím).
Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra
dân số 2000 theo mô hình tập trung. Cơ quan Thống kê tỉnh có trách nhiệm tiến
hành điều tra, kiểm tra phiếu, hiệu đính và ghi mã trước khi gửi về NSO tại
Băng Cốc. Việc quét và xử lý tiến hành tập trung tại Băng Cốc.
Hệ thống máy móc, thiết bị và phần mềm sử dụng công nghệ ICR gồm 2
hệ thống:
- Hệ thống TELEform sử dụng phần mềm TELEform của TELEform Cardiff
Software, inc. USA cho ICR. TELEform 6.2 Elite Enterprise Edition (gồm các
Module: TELEform Designer; TELEform Reader; TELEform Verifier)
Các thiết bị sử dụng trong hệ thống TELEform bao gồm:
Tên thiết bị Số lượng (cái) Ghi chú
NetServer for TELEform Server 1
NetServer for DataBase Server 1
Reader Modules Workstatons 21
Verifier Modules Workstations 30
Scanner Control Workstations 6
Sanner Fujitsu M4099D (*) 6
- Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang Nga
cho ICR. Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module sau:
Form Designer; Administration Station; Recognition Station; Correction
Station).
Các thiết bị sử dụng trong hệ thống ABBYY bao gồm:
Tên thiết bị Số lượng
(cái)
Ghi chú
IBM Server X Series 225 1
Correction Station 1
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 7 -
Verifier Modules Workstations 25
Scanner Control Workstations 4
Sanner Fujitsu M4099D (*) 4
Storage Flex LT707 1
(*): Máy quét khổ A3, 2 mặt (Duplex). Giá mỗi máy năm 2000 khoảng 20.000
USD
Về phần mềm nhận dạng ICR: Thời gian đầu NSO Thái Lan đã mua phần
mềm công nghệ ICR (gồm 3 môdule: thiết kế, đọc và hiệu chỉnh số liệu) của
Công ty Phần mềm TELEform Cardiff của Mỹ. Trong thời gian sử dụng, có
một vài trục trặc và nhận thấy nếu mua trọn gói thì đắt, NSO đã chuyển qua
thuê phần mềm ABBYY của Nga có trụ sở tại Băng Cốc.
Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử lý điều tra:
- Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR. Tuy nhiên
độ dai của giấy cần tốt hơn loại giấy thông thường;
- Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trường hợp
phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân biệt
trang của các tập phiếu khác nhau. Khi có một tờ phiếu nào có vấn đề, máy tính
kiểm soát máy quét đưa ra thông báo ngay. Người vận hành lấy tờ đó từ ngăn
“đầu ra” cho lại vào ngăn “đầu vào” để quét lại, vì phần mềm quét đủ thông
minh để có thể biết tờ phiếu nào quét được, tờ nào có trục trặc;
- Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự động,
nửa thủ công;
- Tốc độ quét rất khác nhau, tùy thuộc vào số lượng ô trên một trang phải nhận
dạng. Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của Thái Lan là
20 tờ/1 phút (2 mặt). Song với phiếu Tổng điều tra nông nghiệp năm 2003 của
Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút);
- Để nâng cao khả năng nhận dạng và thời gian hiệu chỉnh số liệu, tất cả các ký
tự nhận dạng dùng để tổng hợp đều phải bằng số. Như vậy có nghĩa là, nếu câu
trả lời nào đó không phải bằng số, cần ghi mã trước khi quét;
- Để giảm khối lượng xác minh số liệu, điều tra viên/mã số viên phải viết tương
đối chuẩn các số vào trong ô mã dành sẵn theo quy định. Không được viết một
cách cẩu thả, tuỳ tiện;
- Việc xác minh số liệu chỉ phải tiến hành đối với các ký tự mà phần mềm nhận
dạng phân vân không khẳng định chắc chắn đó là ký tự gì, chứ không cần phải
kiểm tra tất cả các ký tự. Vì vậy, việc ghi chép phiếu càng đúng và chuẩn mực,
càng giảm công việc xác minh số liệu;
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 8 -
- Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2. Các ô mã trên
phiếu in màu xanh để dễ nhận dạng. Ghi phiếu bằng bút chì kim HB2 của Nhật
Bản sản xuất. Khi viết sai có thể dùng tẩy, tẩy đi để viết lại;
- Tập huấn cán bộ điều ra rất kỹ. Tập huấn 2 lần, mỗi lần một tuần;
-Việc bảo quản phiếu để dùng cho ICR không quá phức tạp. Cụ thể là, phiếu
khổ giấy A3 được gập đôi lại một cách bình thường (không cần gập theo một
đường nào đó quy định trước). Một tập phiếu được cho vào trong một túi giấy
như vỏ bao xi măng. Nhiều túi phiếu được cho vào trong một hộp cát tông (như
loại hộp cát tông bình thường dùng đóng hàng hoá);
2.2. Kinh nghiệm của Philipin
Trước năm 2000, việc xử lý các điều tra, tổng điều tra của Cơ quan thống
kê Quốc gia Philipin (NSO) đều sử dụng công nghệ nhập tin bằng bàn phím.
Từ năm 2000, NSO bắt đầu sử dụng công nghệ ICR trong việc xử lý tổng điều
tra dân số và nhà ở và sau đó tiếp tục sử dụng công nghệ này trong xử lý tổng
điều tra nông nghiệp và thủy sản 2002. Sau đây là một số kinh nghiệm của
NSO trong việc áp dụng công nghệ ICR trong xử lý tổng điều tra dân số 2000.
a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa
+)Thiết kế phiếu điều tra
Trong tổng điều tra dân số và nhà ở năm 2000, NSO thiết kế 4 phiếu điều
tra: Phiếu danh sách hộ, phiếu hộ, phiếu hộ điều tra mẫu và phiếu tình trạng hộ.
Để áp dụng công nghệ ICR, các thông tin cần nhập luôn được thiết kế trong ô
hình tròn hoặc ô hình chữ nhật đủ để ghi các ký tự chữ số ( 0,..,9), chữ in (A, B,
..,Z, N ngã). Số định dạng của phiếu (ID phiếu) đầu tiên sử dụng mã vạch
nhưng đã không cần sử dụng trong tổng điều tra nông nghiệp, thủy sản 2002.
Kích thước phiếu: 11inch x 17 inch
11inch x 12 inch
11inch x 8,5 inch
+) In phiếu điều tra
Phiếu điều tra đầu tiên được in màu nhưng đã được cải tiến bằng cách in
đen trắng để tránh lãng phí. Để tỷ lệ nhận dạng cao, phiếu được in trên giấy tốt,
tiêu chuẩn tối thiểu 80gram/m2
+)Viết phiếu điều tra
Phiếu điều tra được đánh dấu (mark) vào các ô khoanh tròn dùng trong các
câu hỏi lựa chọn hoặc điền (fill) ký tự viết tay bằng bút chì chuẩn vào những ô
hình chữ nhật. Lý do không dùng bút bi là không thể nhận dạng được ký tự đã
bị gạch xóa.
b) Xử lý điều tra sử dụng công nghệ ICR
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 9 -
+) Tổ chức xử lý
NSO tổ chức xử lý tổng điều tra dân số và nhà ở tại 4 trung tâm (Data
Capture Center – DCC). Số lượng phiếu xử lý phải xử lý là 15,5 triệu. Số lượng
phiếu của từng Trung tâm như sau:
-Trung tâm Pampanga: 3,5 triệu phiếu
-Trung tâm Manila: 5 triệu phiếu
-Trung tâm Cebu: 3,5 triệu phiếu
-Trung tâm Davao: 3,5 triệu phiếu
Thời gian xử lý thực hiện theo ca, 2 ca / ngày, 6 ngày/tuần. Thời gi