Baker (1997) đã tiến hành một nghiên cứu về giá máy tính xách tay ở Hoa
Kỳ sử dụng các phương pháp định giá bằng mô hình Hedonic và cho kết quả về các
yếu tố có ảnh hưởng đến giá máy tính xách tay là RAM, RAM tối đa, dung lượng
đĩa cứng, kích thước màn hình, hệ điều hành, trọng lượng, kích thước và thương
hiệu của máy tính xách tay. Kế thừa nghiên cứu của Baker (1997), Chwelos (2003)
cũng đã sử dụng phương pháp mô hình Hedonic để định giá máy tính xách tay ở
Hoa Kỳ. Trong nghiên cứu của mình, ngoài các đặc tính tương tự với nghiên cứu
của Baker (1997) như RAM, đĩa cứng, kích thước màn hình, hệ điều hành, trọng
lượng và thương hiệu, kết quả còn chỉ ra rằng loại màn hình, tốc độ modem, loại
pin và chiết khấu cũng có tác động đến giá máy tính xách tay.
Konijn và cộng sự (2003) đã thực hiện một nghiên cứu để so sánh mô hình
hồi quy Hedonic cho máy tính xách tay tại các nước ở Châu Âu. Nhóm tác giả nhận
định phương pháp sử dụng mô hình Hedonic là phương pháp thích hợp để xây
dựng chỉ số giá cho các mặt hàng thay đổi chất lượng nhanh như máy tính cá nhân
và ngày càng được chấp nhận ở các nước trên thế giới. Ngoài Hoa Kỳ, đã sử dụng
các phương pháp này trong nhiều năm nay, cũng có ít nhất Canada, Pháp, Anh,
Thụy Điển và Đức đã áp dụng các phương pháp sử dụng mô hình Hedonic trong
việc tính toán các chỉ số giá. Nhóm tác giả nhận thấy hệ số tương quan rất mạnh
đối với tốc độ bộ xử lý, giá trị tương tự ở Đức và Pháp nhưng thấp hơn khá nhiều ở
Anh. Biến quan trọng thứ hai có lẽ là dung lượng ổ đĩa cứng, kích thước của hệ số
tương ứng tương tự ở Đức và Anh nhưng thấp hơn nhiều ở Pháp. Kết quả tương tự
cho các đặc tính còn lại. Nhóm tác giả đi đến kết luận sự lựa chọn các biến và dạng
hàm của mô hình hồi quy Hedonic khá giống nhau giữa các quốc gia được khảo
sát, nhưng các hệ số riêng lẻ có thể khác nhau đáng kể. Vì vậy, chắc chắn có một số
điểm tương đồng trong thị trường máy tính cá nhân và sở thích của người tiêu dùng
giữa các quốc gia, nhưng cũng có sự khác biệt đáng kể.
Shkolnyi (2021) đã thực hiện một nghiên cứu nhằm tìm ra các đặc điểm ảnh
hưởng nhiều nhất đến giá máy tính xách tay. Để ước tính mô hình, tác giả đã sử
dụng tập dữ liệu bao gồm 1.956 mẫu máy tính xách tay riêng biệt. Dữ liệu được lấy
trên web từ nhà bán lẻ thương mại điện tử Ukraine “Rozetka”. Bộ dữ liệu chứa 11
biến: giá laptop, tốc độ làm tươi màn hình, loại CPU, RAM, card đồ họa tích hợp
hay không, kích thước GPU, trọng lượng, thương hiệu laptop, dung lượng pin, hệ
điều hành có trả phí hay không, dung lượng lưu trữ. Để ước tính mô hình, tác giả
sử dụng hồi quy giá Hedonic với dạng hàm log-level. Tác giả đã xây dựng bốn mô
hình cho các loại máy tính xách tay khác nhau để giải thích những đặc điểm nào
ảnh hưởng đến giá máy tính xách tay và ước tính tác động biên của những tính
năng đó đến giá máy tính xách tay. Với mô hình định giá Hedonic, tác giả nhận
định các đặc điểm chính ảnh hưởng đến giá máy tính xách tay trong các nhóm
Ultrabook, đa phương tiện, trò chơi. Các tính năng như thương hiệu máy tính xách
tay, CPU, dung lượng pin, loại bộ nhớ, hệ điều hành trả phí hay không nằm trong
số những tính năng chính cho tất cả các nhóm. Tăng kích thước RAM dẫn đến tăng
giá ở tất cả các loại máy tính xách tay. Máy tính xách tay của Apple đã bị loại khỏi
danh mục Ultrabook do vấn đề cộng tuyến hoàn hảo. Do đó, thương hiệu đắt nhất
trong phân khúc Ultrabook là Dell, đắt hơn 11,3% và đắt hơn 21,6% so với HP và
Lenovo. Thương hiệu rẻ nhất là Xiaomi, hãng này có giá thấp hơn 48,2% so với
HP. Ultrabook với Intel Core i5 nằm cùng mức giá Ultrabook với AMD Ryzen 7.
Ultrabook càng nhẹ thì giá càng cao, giảm trọng lượng 100 gram dẫn đến giá tăng
6,4%. Việc tăng dung lượng pin thêm 10 W*h khiến giá Ultrabook tăng 10%.
282 trang |
Chia sẻ: Đào Thiềm | Ngày: 07/01/2025 | Lượt xem: 42 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp Thành phố Hồ Chí Minh), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
7BỘ GIÁO DỤC ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
-----------------------------
NGUYỄN THANH BÌNH
KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH CHỈ SỐ GIÁ TIÊU DÙNG
Ở VIỆT NAM
(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)
LUẬN ÁN TIẾN SĨ KINH TẾ
TP Hồ Chí Minh, năm 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
--------------------------
NG N THANH BÌNH
KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH
CHỈ SỐ GIÁ TIÊU DÙ G Ở VIỆT NAM
(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)
LUẬN ÁN TIẾN SĨ KINH TẾ
Tp. Hồ Chí Minh - Năm 2023
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ
MINH
--------------------------
NGUYỄN THANH BÌNH
KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH
CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM
(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)
LUẬN ÁN TIẾN SĨ KINH TẾ
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
--------------------------
NGUYỄN THANH BÌNH
KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH
CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM
(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)
Chuyên ngành: THỐNG KÊ
Mã số: 9460201
LUẬN ÁN TIẾN SĨ KINH TẾ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Hà Văn Sơn
2. TS. Lê Thị Thanh Loan
Tp. Hồ Chí Minh - Năm 2023
LỜI CAM ĐOAN
Tôi cam đoan về sự trung thực và chuẩn mực đạo đức của toàn bộ nghiên cứu này.
Thành phố Hồ Chí Minh, tháng 12 năm 2023
Tác giả
Nguyễn Thanh Bình
i
MỤC LỤC
Trang
Trang phụ bìa
Lời cam đoan
Mục lục i
Danh mục các chữ viết tắt v
Danh mục bảng vii
Danh mục hình ix
Danh mục phụ lục x
Tóm tắt xi
Abstract xii
Chương 1. Giới thiệu đề tài nghiên cứu 1
1.1. Lý do chọn đề tài 1
1.2. Mục tiêu nghiên cứu 5
1.3. Câu hỏi nghiên cứu 6
1.4. Đối tượng và phạm vi nghiên cứu 7
1.5. Phương pháp nghiên cứu 7
1.6. Nguồn dữ liệu 9
1.7. Những đóng góp mới của luận án 9
1.8. Kết cấu của nghiên cứu 10
Chương 2. Cơ sở lý thuyết và tổng quan các nghiên cứu trước có 11
ii
Trang
liên quan
2.1. Cơ sở lý thuyết về giá và chỉ số giá 11
2.1.1. Khái niệm về giá và chỉ số giá 11
2.1.2. Chỉ số giá tiêu dùng 14
2.1.3. Ứng dụng của chỉ số giá tiêu dùng 15
2.1.4. Phương pháp tính chỉ số giá tiêu dùng truyền thống tại
một số quốc gia trên thế giới
16
2.1.5. Phương pháp tính chỉ số giá tiêu dùng truyền thống tại
Việt Nam
21
2.2. Cơ sở lý thuyết về dữ liệu lớn 23
2.2.1. Định nghĩa về dữ liệu lớn 23
2.2.2. Các ứng dụng dữ liệu lớn 25
2.2.3. Các loại dữ liệu lớn 29
2.2.4. Các công nghệ thu thập dữ liệu lớn 30
2.2.5. Lợi ích, hạn chế của dữ liệu lớn 36
2.2.6. Sự khác biệt giữa dữ liệu truyền thống và dữ liệu lớn 40
2.3. Cơ sở lý thuyết mô hình hồi quy Hedonic 43
2.3.1. Điều chỉnh chất lượng hàng hóa trong chỉ số giá tiêu
dùng
43
2.3.2. Mô hình hồi quy Hedonic 45
2.4. Tổng quan các nghiên cứu trước có liên quan đến đề tài 49
iii
Trang
2.4.1. Nghiên cứu quốc tế sử dụng dữ liệu lớn tính chỉ số giá
tiêu dùng
49
2.4.2. Nghiên cứu trong nước có liên quan đến chỉ số giá 61
2.4.3. Nghiên cứu quốc tế về điều chỉnh chất lượng máy tính
trong chỉ số giá tiêu dùng
67
2.5. Khoảng trống trong nghiên cứu 77
Tóm tắt chương 2 80
Chương 3. Phương pháp nghiên cứu và quy trình nghiên cứu 81
3.1. Quy trình nghiên cứu 81
3.2. Nghiên cứu định tính 82
3.2.1.Thu thập ý kiến chuyên gia qua phiếu khảo sát 85
3.2.2. Phỏng vấn trực diện 86
3.2.3. Hội thảo chuyên gia 88
3.3. Phương pháp khai thác dữ liệu lớn 88
3.4. Phương pháp tính chỉ số giá tiêu dùng từ dữ liệu lớn 98
3.5. Xây dựng mô hình Hedonic: Trường hợp giá máy tính xách tay 103
3.5.1. Tổng hợp các yếu tố tác động đến giá máy tính xách tay
từ các nghiên cứu trước
106
3.5.2. Đề xuất mô hình hồi quy Hedonic cho sản phẩm máy
tính xách tay
109
Tóm tắt chương 3 117
iv
Trang
Chương 4. Kết quả và thảo luận 118
4.1. Tổng quan về Thành phố Hồ Chí Minh 118
4.2. Tình hình hoạt động thương mại điện tử tại Thành phố Hồ Chí
Minh
124
4.3. Số lượng trang web và số lượng mặt hàng thu thập 129
4.4. Kết quả mô hình hồi quy Hedonic cho sản phẩm máy tính xách
tay
131
4.5. Ứng dụng kết quả mô hình hồi quy Hedonic cho sản phẩm máy
tính xách tay vào việc tính chỉ số giá tiêu dùng
142
4.6. Kết quả tính toán chỉ số giá tiêu dùng 145
4.7. Thảo luận kết quả nghiên cứu 153
4.8. Phân tích những thách thức khi triển khai tính chỉ số giá tiêu dùng
từ khai thác dữ liệu lớn
162
Tóm tắt chương 4 172
Chương 5. Kết luận và hàm ý chính sách 173
5.1. Kết luận 173
5.2. Hàm ý chính sách 176
5.3. Hạn chế của đề tài 184
5.4. Hướng nghiên cứu mở rộng đề tài 184
Danh mục các công trình khoa học đã công bố
Danh mục tài liệu tham khảo
v
DANH MỤC CÁC CHỮ VIẾT TẮT
ABS Cơ quan Thống kê quốc gia Úc
ARIMA Phương pháp trung bình trượt kết hợp tự hồi quy (Autoregressive
Integrated Moving Average)
Big data Dữ liệu lớn
BLS Cục Thống kê lao động Hoa Kỳ (Bureau of labor statistics)
CAPI Phỏng vấn cá nhân với sự trợ giúp của máy tính (Computer Assisted
Personal Interviewing)
CNTT Công nghệ thông tin
COICOP Phân loại hàng hóa tiêu dùng cá nhân theo mục đích sử dụng
CIS STAT Ủy ban Thống kê liên bang của Cộng đồng các Quốc gia Độc lập
CTK Cục Thống kê
CTY Công ty
CPI Chỉ số giá tiêu dùng (Consumer Price index)
CPU Bộ xử lý trung tâm (Central Processing Unit)
ĐTV Điều tra viên
EC Ủy Ban Châu Âu (European Commission)
Eurostat Cơ quan Thống kê của Cộng đồng Châu Âu (Statistical
Office of the European Communities)
GDP Tổng sản phẩm trong nước (Gross Domestic Product)
GRDP Tổng sản phẩm trên địa bàn (Gross Regional Domestic Product)
vi
HDD Ổ cứng máy tính (Hard Disk Drive)
ICLS Hội nghị quốc tế về các nhà thống kê lao động
ILO Tổ chức Lao động Quốc tế
IMF Quỹ Tiền tệ Quốc tế (International Monetary Fund)
KHTK Khoa học Thống kê
NXB Nhà xuất bản
OECD Tổ chức Hợp tác và Phát triển Kinh tế (Organization for
Economic Co-operation and Development)
OLS Bình phương bé nhất thông thường (Ordinary Least Squares)
PPCĐ Phương pháp chế độ
RAM Bộ nhớ truy cập ngẫu nhiên (Random Access Memory)
RPI Chỉ số giá bán lẻ (Retail price index)
TCTK Tổng cục Thống kê
TMĐT Thương mại điện tử
TNHH Trách nhiệm hữu hạn
TP.HCM Thành phố Hồ Chí Minh
UN Liên Hợp Quốc (United Nations)
UNECE Liên Hiệp Quốc ủy ban kinh tế châu Âu (United Nations Economic
Commission for Europe)
WB Ngân hàng Thế giới (The World Bank)
WLS Bình phương nhỏ nhất có trọng số (Weighted Least Squares)
vii
DANH MỤC BẢNG
Bảng Tên bảng Trang
Bảng 2.1 Tổng hợp đánh giá chỉ số giá tiêu dùng ở các nước 17
Bảng 2.2 Tổng quan về số liệu thống kê dựa trên dữ liệu lớn 26
Bảng 2.3 So sánh các phần mềm web scraping 35
Bảng 2.4
Cơ hội, thách thức và rủi ro của dữ liệu lớn cho thống
kê chính thức
36
Bảng 2.5 So sánh dữ liệu lớn và dữ liệu nhỏ 41
Bảng 2.6
Ưu và khuyết điểm của các loại dữ liệu dùng để tính
CPI
42
Bảng 2.7
Sử dụng mô hình Hedonic để điều chỉnh sự thay đổi về
chất lượng sản phẩm ở các nước
48
Bảng 2.8
Tổng hợp nghiên cứu ngoài nước liên quan đến CPI và
dữ liệu lớn
58
Bảng 2.9
Tổng hợp nghiên cứu Việt Nam liên quan đến CPI và
dữ liệu lớn
66
Bảng 2.10
Bảng tóm tắt các yếu tố từ các nghiên cứu trước được
chọn
72
Bảng 2.11
Tổng hợp nghiên cứu ngoài nước liên quan đến mô
hình hồi quy Hedonic
74
Bảng 3.1 Quy trình nghiên cứu định tính 84
Bảng 3.2 Tổng hợp chuyên gia tham gia khảo sát 85
viii
Bảng Tên bảng Trang
Bảng 3.3 Danh sách các trang web chia theo nhóm ngành 92
Bảng 3.4
Bảng tóm tắt các yếu tố từ các nghiên cứu trước được
chọn
108
Bảng 3.5 Mô tả biến và kỳ vọng dấu 114
Bảng 4.1
Tổng sản phẩm trên địa bàn theo giá so sánh 2010 phân
theo khu vực kinh tế
119
Bảng 4.2
Tổng mức bán lẻ hàng hóa và doanh thu dịch vụ tiêu
dùng theo giá hiện hành phân theo ngành kinh tế
122
Bảng 4.3 Chỉ số giá tiêu dùng các tháng trong năm 123
Bảng 4.4
Một số kết quả chủ yếu về hoạt động TMĐT tại
TP.HCM
125
Bảng 4.5 Số lượng trang web và số lượng mặt hàng thu thập 129
Bảng 4.6 Kết quả thống kê mô tả giá trị các biến của mô hình 132
Bảng 4.7 Các nhân tố tác động đến giá máy tính xách tay 134
Bảng 4.8
Các nhân tố tác động đến giá máy tính xách tay (sau khi
xử lý hiện tượng phương sai thay đổi)
137
Bảng 4.9 Chỉ số giá sản phẩm máy tính xách tay chia theo tháng 144
Bảng 4.10 Chỉ số giá nhóm thiết bị và đồ dùng gia đình 145
Bảng 4.11 Chỉ số giá tiêu dùng so tháng trước chia theo tháng 151
Bảng 4.12 Bảng so sánh các yếu tố từ các nghiên cứu trước 154
ix
DANH MỤC HÌNH
Hình Tên hình Trang
Hình 3.1 Quy trình nghiên cứu 82
Hình 3.2 Quy trình thu thập thông tin từ khai thác dữ liệu lớn 91
Hình 3.3 Quy trình sử dụng dữ liệu lớn trong tính toán CPI 98
Hình 4.1 Cơ cấu tổng sản phẩm trên địa bàn của TP.HCM
năm 2018-2022
120
Hình 4.2 Hình thức đặt hàng và đối tượng bán hàng 128
Hình 4.3 Sơ đồ cấu trúc của mặt hàng máy tính xách tay trong
CPI
143
Hình 4.4 Chỉ số giá tiêu dùng truyền thống và chỉ số giá được
tính từ dữ liệu lớn so tháng trước
152
Hình 4.5 Chỉ số giá tiêu dùng truyền thống và chỉ số giá được
tính từ dữ liệu lớn so tháng 9 năm 2017
153
x
DANH MỤC PHỤ LỤC
Phụ lục 1. Kết quả mô hình hồi quy Hedonic cho máy tính xách tay
Phụ lục 2. Danh sách chuyên gia
Phụ lục 3. Phiếu khảo sát chuyên gia
Phụ lục 4. Kết quả tổng hợp các ý kiến của chuyên gia
Phụ lục 5. Biên bản hội thảo
Phụ lục 6. Một số hình ảnh và các đoạn chương trình khai thác dữ liệu giá
Phụ lục 7. Kết quả tính chỉ số giá tiêu dùng khai thác từ dữ liệu lớn (27 biểu)
xi
TÓM TẮT
Luận án khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng (CPI) sử
dụng nguồn thông tin giá thu thập được từ các trang web trực tuyến để tính toán chỉ
số giá tiêu dùng cho Thành phố Hồ Chí Minh. Nguồn dữ liệu này không những giải
quyết được một số thách thức trong phương pháp thu thập giá truyền thống (như độ
trễ trong việc công bố số liệu, khó khăn trong việc thu thập thông tin tại địa bàn, sai
số phi chọn mẫu, chi phí thu thập) mà còn cho phép chúng ta mở rộng cỡ mẫu, tần
suất thu thập cao hơn, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thế
của người tiêu dùng, thông tin thu thập kịp thời hơn. Kết quả tính toán chỉ số giá
tiêu dùng dựa trên dữ liệu lớn thu thập được từ các trang web trực tuyến so với chỉ
số giá tiêu dùng được tính theo phương pháp truyền thống cũng khá tương đồng, thể
hiện đúng xu hướng. Từ nguồn dữ liệu lớn thu thập được, luận án cũng đã xây dựng
được mô hình hồi quy Hedonic (tính cho trường hợp máy tính xách tay) nhằm điều
chỉnh sự thay đổi của chất lượng, quy cách hàng hóa trong rỗ hàng hóa tính chỉ số
giá tiêu dùng, đảm bảo tính so sánh của chỉ số giá. Qua đó cho thấy mô hình hồi quy
Hedonic phù hợp trong việc điều chỉnh sự thay đổi của chất lượng hàng hóa, là một
nội dung quan trọng trong kỹ thuật tính toán chỉ số giá tiêu dùng. Nghiên cứu này
đã bổ sung phương pháp mới trong việc thu thập dữ liệu phục vụ công tác thống kê,
đặc biệt là thống kê nhà nước cũng như xây dựng được phương pháp tính chỉ số giá
tiêu dùng từ nguồn dữ liệu lớn.
Từ khóa: Dữ liệu lớn, chỉ số giá tiêu dùng, mô hình hồi quy Hedonic
xii
ABSTRACT
The thesis exploits big data in calculating the consumer price index for Ho Chi
Minh City using price information collected from online websites. This data source
not only solves some challenges in traditional price collection methods (such as
delay in data publication, difficulty in collecting data at sampling zone/ difficulty in
offline data collection, non-sampling error, collection costs) but also allows us to
expand sample sizes and frequency which helps better reflect consumer substitution
patterns and get real-time data. The consumer price index calculated based on large
online data is showing similar trend compared with the consumer price index
calculated by the traditional method. From the big data collected, the thesis has also
built a Hedonic regression model (applied for the case of laptop category) to adjust
the change in quality and specifications of goods in the basket to calculate the
consumer price index and ensure the comparability. Thereby, it shows that the
Hedonic regression model is approriate in adjusting the change of goods quality,
which is an important content in consumer price index calculating technique. This
study has added a new method of collecting data for statistics, especially official
statistics, as well as developing a method to calculate the consumer price index
from abig data source.
Keyword: Big data, consumer price index, Hedonic regression model.
.
1
CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI NGHIÊN CỨU
Trong chương 1, tác giả luận án trình bày tầm quan trọng của chỉ số giá tiêu
dùng và đưa ra những lý do mà tác giả luận án lựa chọn vấn đề nghiên cứu. Trong
chương này, tác giả cũng trình bày được mục tiêu nghiên cứu tổng quát, qua đó tác
giả luận án đưa ra từng mục tiêu cụ thể cần đạt được trong nghiên cứu. Chương
này còn trình bày các nội dung gồm đối tượng, phạm vi nghiên cứu, phương pháp
nghiên cứu, ý nghĩa khoa học và thực tiễn, những đóng góp chính của nghiên cứu.
Ngoài ra, ở phần cuối chương, tác giả trình bày cấu trúc từng chương trong luận
án.
1.1. Lý do chọn đề tài
Chỉ số giá và các thông tin về giá cả thị trường có một vị trí, vai trò rất quan
trọng trong công tác quản lý và điều hành các chính sách vĩ mô của nhà nước như
các chính sách về quản lý tài chính tiền tệ, kiềm chế lạm phát, điều chỉnh lãi suất
ngân hàng, điều chỉnh tỷ giá, ban hành các chính sách phát triển kinh tế xã hội theo
vùng miền, các chính sách tiền lương, qua đó góp phần phát triển hoạt động sản
xuất kinh doanh và trao đổi thương mại quốc tế. Trong đó chỉ số giá tiêu dùng được
xem là một trong những chỉ số kinh tế quan trọng nhất do các cơ quan thống kê
quốc gia công bố (Berry et al., 2019). Chỉ số giá tiêu dùng có lịch sử rất lâu đời,
được thu thập và tính toán ở phần lớn các quốc gia trên thế giới. Phương pháp tính
chỉ số giá tiêu dùng hiện nay cũng khác biệt nhiều so với trước đây, hàng hóa đã
được mở rộng phạm vi thu thập, nguồn dữ liệu được sử dụng để xác định quyền số
cũng có nhiều bước phát triển. Mặc dù vậy, tính toán chỉ số giá tiêu dùng vẫn dựa
trên mẫu chứ không phải tất cả mọi mức giá của từng loại hàng hóa hoặc dịch vụ
mà người dân chi tiêu dùng cuối cùng đều được thu thập. Các cơ quan thống kê
quốc gia thường chọn mẫu các hàng hóa và dịch vụ đại diện mà người dân tiêu dùng
nhiều nhất. Ngoài ra, do không thể quan sát giá của hàng hóa và dịch vụ được lựa
chọn tại tất cả các cửa hàng bán lẻ bán trên toàn quốc, nên một lần nữa, các cơ quan
2
thống kê quốc gia lại sử dụng phương pháp chọn mẫu chọn đại diện các cửa hàng
để thu thập giá. Điều này dẫn đến khả năng phát sinh sai số chọn mẫu cao. Việc thu
thập thông tin giá theo phương pháp truyền thống thông qua các cuộc điều tra như
hiện nay cũng có một số bất cập như chi phí thực hiện điều tra và việc tiến hành
ngày càng trở lên khó khăn hơn, việc gia tăng số lượng chuỗi cửa hàng làm cho thời
gian thu thập kéo dài hơn, tỷ lệ trả lời ngày càng giảm (Crystal et al., 2019). Ngoài
ra việc tính toán chỉ số giá tiêu dùng theo phương pháp truyền thống cũng phát sinh
thêm một số bất cập như có độ trễ trong việc công bố số liệu, còn tồn tại sai số phi
chọn mẫu, khó khăn trong việc xử lý các mặt hàng thay thế của người tiêu dùng, các
mặt hàng mới xuất hiện, các mặt hàng có vòng đời sản phẩm ngắn.
Ngành thống kê Việt Nam tiến hành điều tra, thu thập thông tin, tính chỉ số
giá tiêu dùng và công bố hàng tháng vào các ngày cuối tháng. Thông tin thống kê về
chỉ số giá tiêu dùng được thu thập từ cuộc điều tra giá tiêu dùng do Tổng cục Thống
kê triển khai và được thực hiện ở cả 63 tỉnh, thành phố. Hệ thống thông tin thống kê
về giá tiêu dùng của ngành Thống kê đã được xây dựng và ngày càng hoàn thiện với
một số các nghiên cứu điển hình như nghiên cứu về phương pháp xác định hệ thống
quyền số tính chỉ số giá tiêu dùng (Văn Thị Loan, 1998); Chỉ số giá tiêu dùng Việt
Nam và các yếu tố tác động phương pháp tiếp cận định lượng (Trương Văn Phước
và Chu Hoàng Long, 2005); Hoàn thiện phương pháp tính chỉ số giá nhóm nhà ở
trong chỉ số giá tiêu dùng ở Việt Nam (Đỗ Thị Ngọc, 2014a); Giới thiệu về phương
pháp tính chỉ số giá tiêu dùng mới và một số khuyến nghị (Đỗ Thị Ngọc, 2014b);
Hệ thống thông tin giá và các cuộc điều tra thống kê giá (Vũ Thị Thu Thủy, 2015);
Nghiên cứu và đề xuất mô hình dự báo chỉ số giá tiêu dùng áp dụng cho Tổng cục
Thống kê (Vũ Thị Thu Thủy, 2018). Tuy nhiên, cũng tương tự như thực trạng tính
chỉ số giá tiêu dùng trên thế giới, phương pháp tính chỉ số giá tiêu dùng ở Việt Nam
cũng còn một số bất cập như công tác thu thập tại địa bàn ngày một khó khăn hơn;
sai số phi chọn mẫu vẫn còn cao do chất lượng thông tin thu thập được phụ thuộc
vào kỹ năng thu thập thông tin cũng như tính trung thực của điều tra viên; chi phí
cho cuộc điều tra cao vì phải huy động lực lượng lớn điều tra viên lớn.
3
Cùng với xu hướng ngày càng phát triển của nền kinh tế số trên thế giới, các
giao dịch mua bán, giới thiệu sản phẩm trực tiếp trên internet ở Việt Nam ngày càng
phổ biến. Theo sách trắng thương mại điện tử Việt Nam năm 2022, thị trường
thương mại điện tử Việt Nam đạt nhiều kết quả ấn tượng. Nếu như năm 2017,
thương mại điện tử bán lẻ Việt Nam mới chỉ đạt 6,2 tỷ USD, thì đến năm 2022 đã
đạt mức 16,4 tỷ USD (Cục Thương mại điện tử và Kinh tế số (Bộ Công Thương),
2022). Việc người dân quan tâm và phát triển mua bán trên mạng ngày càng nhiều
sẽ tạo ra nguồn dữ liệu vô cùng lớn. Nghiên cứu về dữ liệu lớn ở Việt Nam được
phát triển trong thời gian gần đây trong một số lĩnh vực như kinh tế, thông tin - thư
viện, kiểm toán báo cáo tài chính, ngân hàng, bất động sản, giáo dục và đào tạo.
Tuy nhiên, các nghiên cứu về dữ liệu lớn ứng dụng trong thống kê chính thức ở Việt
Nam còn hạn chế, phần lớn đang trong giai đoạn nghiên cứu tổng quan. Năm 2018,
Tổng cục Thống kê thực hiện một nghiên cứu thí điểm việc lồng ghép các dữ liệu
thu thập trực tuyến trong việc sản xuất chỉ số giá tiêu dùng. Kết quả không được
công bố và nguồn dữ liệu chưa được tích hợp vào quy trình nghiệp vụ thống kê
(Thuy Nguyen Van and Hoan Nguyen Cong, 2018).
Hơn hai mươi năm trước, cuộc cách mạng công nghệ thông tin và truyền
thông tại các quốc gia phát triển đã làm thay đổi hành vi tiêu dùng của người dân
cũng như hành vi phân phối hàng hóa của doanh nghiệp. Sự phát triển vượt bậc này
giúp tạo ra một nguồn dữ liệu lớn chưa từng có ở những khu vực mà các kỹ thuật
thu thập dữ liệu truyền thống không thể tiếp cận được. Ngoài ra, cùng với sự gia
tăng của các hình thức cửa hàng hiện đại là sự gia tăng của các nền tảng bán hàng
trực tuyến, điều này tạo điều kiện cho việc thu thập giá trực tuyến trong rất nhiều
lĩnh vực khác nhau. Xuất phát từ thực tế trên, cơ quan thống kê của các quốc gia đã
xác định nguồn dữ liệu mới này là cơ hội tốt giúp họ giải quyết nhiều thách thức mà
điều tra giá tiêu dùng đang gặp phải. Nguồn dữ liệu giá thu thập từ các trang web
bán hàng trực tuyến có thể đo lường chính xác hơn sự thay đổi giá, giúp mở rộng cở
mẫu, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thế của người tiêu
dùng, giảm hoặc loại bỏ áp lực của người cung cấp thông tin và trong một số trường
4
hợp sẽ giúp giảm chi phí thu thập thông tin. Ngoài ra nguồn dữ liệu lớn này có thể
giúp thu thập thông tin giá kịp thời hơn, mặt hàng đa dạng hơn, tần số thu thập cao
hơn (Crystal et al., 2019).
Một trong những dự án đi đầu và tiêu biểu cho việc sử dụng tính năng thu
thập dữ liệu giá trực tuyến trên web để tính toán và dự báo chỉ số giá tiêu dùng là dự
án tỷ giá do Viện Công nghệ Massachusetts nghiên cứu và phát triển. Kết quả
nghi