Tiểu luận Phân tích mô hình và dự báo giá bán nhà tại quận Cam bang California với biến phụ thuộc là SALEPRIC và 4 biến độc lập SQFT, GARAGE, CITY, AGE

Kinh tế lượng là một môn khoa học ra đời trong những năm 30 của thế kỷ 20. Sự ra đời của kinh tế lượng liên quan đến việc phát triển rộng rãi những phép toán và thống kê trong các lĩnh vực đa ngành như: sinh vật học, tâm lý học, xã hội học, đặc biệt việc toán học hóa đã có chú trọng nhiều đến lĩnh vực kinh tế. Kinh tế lượng là tập hợp các công cụ nhằm mục đích dự báo các biến số kinh tế. Và Eviews là một công cụ có ưu điểm chính là có thể cho chúng ta kết quả nhanh chóng khi tiến hành ước lượng, phân tích và hàm hồi quy cho các mô hình kinh tế. Do đó khi thực hiện đề tài tiểu luân số 17 liên quan tới phân tích mô hình và dự báo giá bán nhà tại quận Cam bang California với biến phụ thuộc là SALEPRIC và 4 biến độc lập SQFT, GARAGE, CITY, AGE, em đã sử dụng phần mềm Eviews 6 cho đề tài tiểu luận này. Qua các bước đặt ra các giả thiết liên quan, thiết lập mô hình, ước lượng tham số của mô hình, phân tích kết quả mô hình xem có phù hợp hay không và đi tới quyết định có sử dụng nó vào trong dự báo.

doc29 trang | Chia sẻ: tuandn | Lượt xem: 4692 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Tiểu luận Phân tích mô hình và dự báo giá bán nhà tại quận Cam bang California với biến phụ thuộc là SALEPRIC và 4 biến độc lập SQFT, GARAGE, CITY, AGE, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành tới: Ban Giám Hiệu và các thầy cô đang công tác tại trường Đại học Công Nghiệp Thành phố Hồ Chí Minh đã tạo điều kiện về thời gian, cơ sở vật chất giúp chúng em có được thuận lợi trong suốt quá trình học tập tại trường. Th.S Đinh Kiệm đã tận tình hướng dẫn chỉ bảo để chúng em hoàn thành đúng và đủ nội dung của bài tiểu luận qua đó chúng em có thể học tốt môn Kinh tế lượng và dự báo, một trong những điều kiện để trở thành một nhà kinh tế tài giỏi trong tương lai. TP Hồ Chí Minh, ngày 20 tháng 11 năm 2011 NHẬN XÉT CỦA GIẢNG VIÊN LỜI MỞ ĐẦU Kinh tế lượng là một môn khoa học ra đời trong những năm 30 của thế kỷ 20. Sự ra đời của kinh tế lượng liên quan đến việc phát triển rộng rãi những phép toán và thống kê trong các lĩnh vực đa ngành như: sinh vật học, tâm lý học, xã hội học, đặc biệt việc toán học hóa đã có chú trọng nhiều đến lĩnh vực kinh tế. Kinh tế lượng là tập hợp các công cụ nhằm mục đích dự báo các biến số kinh tế. Và Eviews là một công cụ có ưu điểm chính là có thể cho chúng ta kết quả nhanh chóng khi tiến hành ước lượng, phân tích và hàm hồi quy cho các mô hình kinh tế. Do đó khi thực hiện đề tài tiểu luân số 17 liên quan tới phân tích mô hình và dự báo giá bán nhà tại quận Cam bang California với biến phụ thuộc là SALEPRIC và 4 biến độc lập SQFT, GARAGE, CITY, AGE, em đã sử dụng phần mềm Eviews 6 cho đề tài tiểu luận này. Qua các bước đặt ra các giả thiết liên quan, thiết lập mô hình, ước lượng tham số của mô hình, phân tích kết quả mô hình xem có phù hợp hay không và đi tới quyết định có sử dụng nó vào trong dự báo. ĐỀ TL SỐ 17 Phần I : trên Excel Sử dụng dữ liệu Data BT 11 trên Excel, dùng Regression trên Data Analysis để ước lượng hàm hồi quy mẫu có dạng sau : SALEPRIC = B1 + B2*SQFT + B3*GARAGE +B4*CITY + B5*AGE SALEPRIC : giá bán nhà tại quận Cam,bang California (nghìn USD) SQFT : diện tích nhà tính bằng feet vuông GARAGE : số chỗ đậu xe hơi trong garage CITY : = 1 đối với nhà ở Coto de Caza, = 0 nếu ở Dove Canyon AGE : tuổi thọ căn nhà tinh theo năm Phần II : trên Eviews a/ Hãy chuyển dữ liệu từ file Excel ở phần 1 sang thành dữ liệu dưới dạng workfile của Eviews và lưu lại dưới tên : Data TL 17. Sau đó dùng công cụ Eviews để: Lập bảng các tham số thống kê của các biến độc lập, vẽ đồ thị các biến độc lập trên cùng một bảng. Lập ma trận Correlation Matrix gồm cả biến phụ thuộc và tất cả các biền độc lập. Ước lượng phương trình hồi quy dưới dạng như ở câu phần I b/ Hãy kiểm định Wald ( biến thừa ) cho 4 biến độc lập nêu trên c/ Từ mô hinh câu a phần II hãy kiểm định White và BG cho mô hình này d/ Hãy dự báo giá trị trung bình và giá trị cá biệt của giá bán nhà theo mô hình sau: SALEPRIC = C1 + C2*SQFT + C3*GARAGE +C4*CITY + C5*AGE Cho biết: SQFT = 7400, GARAGE = 4 ,CITY = 0, AGE = 10 Và độ tin cậy 1-  = 95% . Biểu diễn trực quan đồ thị dự báo bằng cách vẽ đồ thị khoảng dự báo trung bình, dự báo cá biệt, tương ứng với các cận trên và cận dưới theo số quan sát làm biến trên trục hoành chung cho các đại lượng khác. BẢNG SỐ LIỆU Số liệu được cho như sau: SALEPRIC: Giá bán tính bằng nghìn USD SQFT: Diện tích nhà tính bằng feet vuông GARAGE: Số chỗ đậu xe hơi CITY: =1 nếu nhà ở city Côt de Caza, = 0 nếu ở Dove Canyon AGE: Tuổi thọ của nhà tính bằng năm obs  SALEPRIC  SQFT  GARAGE  CITY  AGE   1  350  2583  3  0  5   2  360  3308  3  0  3   3  365  2926  3  0  2   4  372  3050  3  0  8   5  373  3528  3  0  3   6  373  2830  3  0  4   7  375  3521  3  0  7   8  349  3003  3  0  4   9  380  3230  3  0  8   10  380  3230  3  0  7   11  380  3230  3  0  7   12  380  2900  3  0  7   13  380  3080  3  0  3   14  370  3080  3  0  3   15  380  3525  3  0  4   16  385  3050  3  0  7   17  385  3050  3  0  8   18  389  3528  3  0  4   19  390  2680  3  0  3   20  390  3500  3  0  8   21  390  3521  3  0  7   22  390  2700  3  0  2   23  392  2662  3  0  4   24  392  3371  3  0  3   25  392  3371  3  0  4   26  393  3371  3  0  3   27  395  2900  3  0  4   28  395  3275  3  0  8   29  399  3080  3  0  2   30  400  3155  3  0  3   31  400  3155  3  0  3   32  400  3308  3  0  7   33  399.9  3371  3  0  2   34  400  3050  3  0  7   35  401  2789  3  0  4   36  402.5  3275  3  0  7   37  405  3180  3  0  8   38  405  3512  3  0  8   39  407  3275  3  0  6   40  410  3512  3  0  8   41  410  2789  3  0  4   42  412  3371  3  0  3   43  412  3275  3  0  6   44  415.984  3155  3  0  3   45  416  3757  3  0  2   46  418  3275  3  0  7   47  419.95  3879  3  0  2   48  425  3275  3  0  5   49  425  3515  3  0  2   50  426  3700  3  0  5   51  430  3110  3  0  9   52  430  3770  3  0  9   53  432  3512  3  0  7   54  432  3371  3  0  2   55  434  3367  3  0  8   56  435  3700  3  0  5   57  439.402  3515  3  0  2   58  440  3770  3  0  7   59  440  3413  3  0  2   60  565  3500  3  0  3   61  605  3757  3  0  2   62  609.9  3757  3  0  7   63  620  3879  3  0  3   64  653  4035  3  0  2   65  670  4035  3  0  2   66  440  3525  3  0  4   67  445  3308  3  0  6   68  459.9  3528  3  0  4   69  449.96  3515  3  0  2   70  450  3371  3  0  4   71  450  3528  3  0  4   72  459.5  3757  3  0  2   73  460  2600  2  0  3   74  549.95  2879  3  0  3   75  460  4000  3  0  5   76  462  3757  3  0  2   77  449.9  3500  4  0  3   78  464.82  3515  3  0  2   79  464.9  3308  3  0  6   80  465  3100  3  0  8   81  457.325  3879  3  0  2   82  449.95  3515  3  0  3   83  475  3929  3  0  5   84  475  4000  3  0  6   85  419.95  3879  3  0  2   86  479.95  4136  3  0  2   87  480  3512  3  0  9   88  482.75  3879  3  0  2   89  489.95  3879  3  0  2   90  490  4035  3  0  2   91  495  3500  4  0  4   92  497.5  3770  3  0  8   93  499.9  4035  3  0  2   94  500  3800  3  0  8   95  510  4035  3  0  2   96  510  3500  4  0  4   97  514.9  4018  3  0  8   98  514.9  3308  3  0  8   99  527.5  3757  3  0  2   100  535  4035  3  0  2   101  535  3879  3  0  3   102  539  3854  3  0  3   103  539  3500  3  0  4   104  547  4035  3  0  2   105  552  4136  3  0  3   106  556.7  3700  4  0  3   107  480  2865  3  1  11   108  485  3384  3  1  5   109  485  3568  3  1  8   110  487  3384  3  1  4   111  490  3305  3  1  9   112  492  3227  3  1  4   113  495  3295  3  1  8   114  504  3259  3  1  5   115  505  3668  3  1  7   116  517  3685  3  1  9   117  520  3350  3  1  3   118  525  2800  3  1  11   119  526  3170  3  1  8   120  529  3300  3  1  9   121  530  3475  3  1  11   122  530  3380  3  1  9   123  531.05  3620  3  1  1   124  532.5  3305  3  1  9   125  535  3475  2  1  19   126  535  3305  3  1  8   127  535  3900  3  1  8   128  540  4389  3  1  8   129  540  3305  3  1  9   130  545  3500  3  1  11   131  547.5  3369  3  1  10   132  571  3485  3  1  11   133  550  3920  3  1  6   134  555  3475  3  1  10   135  555  3781  3  1  8   136  560  2735  3  1  11   137  560  3390  3  1  8   138  560  3700  3  1  9   139  562  3668  3  1  7   140  565  4089  2  1  8   141  565  4170  3  1  1   142  570  2812  3  1  10   143  570  4010  3  1  9   144  570  3379  3  1  9   145  575  3920  3  1  5   146  575  3865  3  1  12   147  575  4579  3  1  8   148  580  3968  4  1  2   149  580  3750  4  1  8   150  583  4000  3  1  8   151  585  3457  3  1  9   152  589  3400  3  1  9   153  590  3427  3  1  2   154  591  4500  3  1  8   155  597.5  3970  3  1  9   156  600  4818  3  1  10   157  600  4600  3  1  6   158  600  3685  3  1  8   159  600  3457  3  1  11   160  610  3700  3  1  8   161  620  4100  3  1  1   162  625  4300  3  1  2   163  625  3820  3  1  5   164  627.5  4160  3  1  1   165  629.9  3712  3  1  1   166  640  4200  3  1  7   167  645  4000  3  1  7   168  651  4500  3  1  9   169  657  3818  3  1  13   170  663  3885  4  1  2   171  675  3968  3  1  2   172  690  4839  3  1  9   173  695  3637  3  1  2   174  700  4335  3  1  2   175  700  4300  3  1  3   176  710  4870  3  1  7   177  712.95  4459  4  1  0   178  720  3741  3  1  10   179  730  4400  3  1  8   180  730  4500  3  1  2   181  740  4579  3  1  8   182  749  3450  3  1  8   183  750  4402  3  1  9   184  750  4350  3  1  6   185  760  4400  3  1  8   186  765  4600  3  1  2   187  774.95  4024  4  1  0   188  780  3900  3  1  2   189  795  3900  3  1  4   190  814  4000  3  1  7   191  842  4569  3  1  7   192  880  4581  3  1  2   193  885  5000  3  1  6   194  920  5000  5  1  8   195  925  4650  4  1  2   196  925  4300  3  1  9   197  925  4400  3  1  7   198  944  4387  4  1  1   199  981  4970  4  1  1   200  985  5126  3  1  9   201  994  5076  4  1  1   202  2600  8685  5  1  16   203  2900  11000  3  1  9   204  1010  5517  4  1  1   205  1100  5500  3  1  2   206  1100  4900  3  1  2   207  1112  5800  3  1  2   208  1120  8300  3  1  7   209  1135  5506  4  1  1   210  1235  6000  5  1  5   211  1350  5475  4  1  2   212  1380  6649  3  1  5   213  1395  5400  4  1  9   214  1400  10000  4  1  3   215  1400  5862  4  1  2   216  1425  7000  3  1  9   217  1475  6338  4  1  8   218  1520  6593  5  1  2   219  1600  7000  5  1  5   220  1625  8300  4  1  8   221  1750  7338  4  1  1   222  1775  9500  4  1  8   223  1800  7948  5  1  1   224  2500.5  9000  7  1  11   Phần 1: Trên Excel Để ước lượng hàm hồi quy trên Excel ta vào Tools → Data Analysis → Regression → OK ta có bảng kết quả như sau:  Dựa vào bảng trên ta có : B1 = -752.9956 ; B2 = 0.220565 B3 = 135.4504 ; B4 = 87.24892 B5 = 6.214612 Vậy hàm hồi quy mẫu là: SALEPRIC = -752.9956+ 0.220565*SQFT + 135.4504*GARAGE +87.24892*CITY + 6.214612*AGE Ý nghĩa của hàm hồi quy: Trong điều kiện các yếu tố khác không đổi, khi diện tích căn nhà tăng lên 1 feet vuông thì giá bán nhà tại quận Cam bang California tăng lên 0,220565 nghìn USD. Trong điều kiện các yếu tố khác không đổi nếu số chỗ đậu xe tăng lên 1 thì giá bán nhà tại quận Cam bang California tăng lên 135,45 nghìn USD. Trong điều kiện các yếu tố khác không đổi nếu nhà ở Coto de Caza thì giá bán nhà tại quận Cam bang California tăng lên 87,25 nghìn USD. Trong điều kiện các yếu tố khác không đổi nếu độ tuổi của căn nhà tăng lên 1 thì giá bán của căn nhà tăng lên 6, 215 nghìn USD. Phần 2 : Trên Eviews Chuyển dữ liệu từ file Excel sang dữ liệu dữ liệu Workfile của Eviews và lưu lại dưới tên: Data DL 17.  Bảng các tham số thống kê của các biến độc lập  Mean : Giá trị trung bình. Median : Trung vị. Maximum : Giá trị lớn nhất. Minimum : Giá trị nhỏ nhất. Std.Dev. (Standard Deviation) : Độ lệch chuẩn. Skenewness : Độ bất cân xứng. Kurtosis : Độ nhọn. Jarque-Bera : giá trị phân phối Jarque-Bera dùng để kiểm định phân phối chuẩn. Probability : Giá trị xác suất tới hạn. Sum : Tổng các giá trị. Sum Sq.Dev. (Sum Square Deviation) : Tổng bình phương các sai số chuẩn. Observations : Số quan sát. Nhận xét: Độ lệch chuẩn của biến SQFT là lớn (1275.312), cho thấy độ phân tán của nó xung quanh giá trị trung bình cao, từ giá trị nhỏ nhất là 2583 đến giá trị lớn nhất là 11000. Do đó biến SQFT trong các quan sát không có mức độ tương đồng cao, mà rải rác ở rất nhiều giá trị rất khác nhau. Độ lệch chuẩn của biến GARAGE = 0.519634, CITY = 0.500400 và AGE = 3.254414 thì tương đối nhỏ cho thấy độ phân tán của các biến xung quanh giá trị trung bình thấp. Dựa vào giá trị Min, Max là thấy rằng các biến này trong các quan sát có mức độ tương đồng. Đồ thị các biến độc lập:  Ma trận Correlation Matrix gồm cả biến phụ thuộc và tất cả biến độc lập  Nhận xét: Quan sát ta thấy biến độc lập SQFT giải thích rất tốt cho biến SALEPRIC, 91.93%. Biến độc lập GARAGE giải thích tương đối tốt cho biến SALEPRIC, 65.36%.Biến độc lập CITY giải thích tương đói tốt cho biến SALEPRIC,50.33%. Biến AGE giải thích không tốt lắm cho biến SALEPRIC, 8.999%. Mức tương quan giữa biến SQFT và các biến GARAGE và CITY tương đối khá lớn lần lượt là 58.18% và 42.75%. Ước lượng phương trình hồi quy:  Mô hình hồi quy là: SALEPRIC = -752.9956 + 0.220565 * SQFT + 135.4504 * GARAGE + 87.24892 * CITY + 6.214612 * AGE Nhận xét bảng hồi quy: Hệ số xác định R2 là 0.884225 tức là các biến độc lập giải thích được cho biến phụ thuộc tới 88.44225%. Độ phù hợp của mô hình này là khá cao. Giá trị kiểm định Fisher là 418.1480 tương đối lớn nên ta có thể kết luận mô hình có tính hợp lý và bền vững cao. P-value của tất cả các biến độc lập đều nhỏ hơn 0.05 nên ta có thể nói độ phù hợp (có mặt) của các biến độc lập là rất tốt. Vậy đây là mô hình tốt và bền vững. Kiểm định Wald (biến thừa) cho 4 biến độc lập:  Nhận xét: Dựa vào bảng kết quả trên, ta thấy giá trị p-value = 0.0000 < 0.05 (mức ý nghĩa α=5%) nên ta bác bỏ giả thiết. Nghĩa là cả 4 biến độc lập SQFT, GARAGE, CITY, AGE đều đồng thời ảnh hưởng đến biến phụ thuộc SALEPRIC, điều đó có nghĩa hàm hồi quy mẫu phù hợp. Kiểm định Wald (biến thừa) cho biến độc lập: SQFT  Nhận xét: Từ bảng kết quả trên, ta thấy P-value = 0.0000 Biến SQFT thực sự là một biến cần thiết cho mô hình. Kiểm định Wald (biến thừa) cho biến độc lập: GARAGE  Nhận xét: Từ bảng kết quả trên cho thấy: giá trị P-value = 0.0000 < 0.05 (mức ý nghĩa α = 5%) nên ta bác bỏ giả thiết. Biến GARAGE thực sự là một biến cần thiết cho mô hình. Kiểm định Wald (biến thừa) cho biến độc lập: CITY  Nhận xét: Từ bảng kết quả trên cho thấy: giá trị P-value = 0.0000 < 0.05 (mức ý nghĩa α = 5%) nên ta bác bỏ giả thiết. Biến CITY thực sự là một biến cần thiết cho mô hình. Kiểm định Wald (biến thừa) cho biến độc lập: AGE  Nhận xét: Từ bảng kết quả trên cho thấy: giá trị P-value = 0.0270 < 0.05 (mức ý nghĩa α = 5%) nên ta bác bỏ giả thiết. Biến AGE thực sự là một biến cần thiết cho mô hình. Qua việc thực hiên kiểm định Wald cho 4 biến rồi lần lượt cho từng biến, ta nhận thấy cả 4 biến SQFT, GARAGE, CITY, AGE đều cần thiết cho mô hình, không thừa và không gây ảnh hưởng không tốt cho mô hình. Kiểm định White  Từ bảng kết quả trên ta thấy: Obs*R-squared =nR2 = 165.7949 > Xα2(df) = X20.05(13)= 22.3620324948  ta bác bỏ giả thiết Ho, tức là mô hình hồi quy xảy ra hiện tượng phương sai thay đổi. Do đó ta khắc phục hiện tượng phương sai thay đổi, ta dùng phương pháp FGL để hồi quy lại phần dư sau đó kiểm định lại phương sai để giảm tối đa phương sai thay đổi. Kiểm định BG Từ bảng ước lượng ta chọn View / Residual Tests/ Serial Correlation LM Test. Và trong cửa sổ Lag Speciffication, ở mục Lags to includeta chọn p=1 (p là bậc tương quan hay còn gọi là độ trễ trong tương quan). Chọn OK ta có bảng kết quả sau đây.  Theo bảng kết quả trên (n-p)R2 = 1.844992 có xác suất (p-value) là 0.1744 lớn hơn mức ý nghĩa α = 0.05, nên ta chấp nhận giả thiết Ho, tức là không có tự tương quan bậc nhất. Dự báo giá trị trung bình và giá trị cá biệt của giá bán nhà theo mô hình SALEPRIC = C1 + C2*SQFT + C3*GARAGE +C4*CITY + C5*AGE B1: Ta ước lượng mô hình hồi quy  B2: Tạo thêm biến quan sát thứ (n+1) điền các giá trị của các biến độc lập  B3: Ta lần lượt đặt tên biến dự báo cho biến phụ thuộc (SALEPRIC) là Salepricf, cho biến sai số dự báo (sai số dự báo SE(Yo)) là Se_1dubao, và với SE (Yo^) là Se_2dubao, tiếp đến tính trị số tra bảng tα/2(n-k) được đặt tên là Tinv. Cụ thể trên cửa sổ Equation có chứa phương trình hồi quy, chọn Forecast   Lập biến Se_2dubao thông qua Se_1dubao và Sigma ước lượng   Để tính giá trị tα/2(n-k) với n-k=224-5=219, α/2= 2.5%.Ta vào dòng trắng dùng để thao tác lệnh trên Workfile chính, gõ Scalar Tinv=@qtdist(0.975,219).  B4: Thiết lập các cận trên (Upper) và cận dưới (Lower) cho các khoảng dự báo trung bình(TB) và cá biệt (CB) Ta vào dòng trắng dùng để thao tác lệnh trên Workfile chính, lần lượt tạo các lệnh Genr UpperTB=salepricf + tinv*Se_2dubao Genr LowerTB=salepricf - tinv*Se_2dubao Genr UpperCB=salepricf + tinv*Se_1dubao Genr LowerCB=salepricf - tinv*Se_1dubao  Từ bảng giá trị các biến trên đây cho ta biết : Giá trị của khoảng dự báo giá trị trung bình của giá bán nhà tại quận Cam California tương ứng với diện tích nhà SQFT = 7400 feet vuông, số chỗ đậu xe hơi GARAGE = 4, nhà ở Dove Canyon CITY =0, tuổi thọ AGE = 10 năm là: [ 1410.144; 1556.127 ] Và khoảng dự báo cá biệt tương ứng là: [ 1221.441; 1744.830 ] B5: Vẽ đồ thị Dự báo giá trị trung bình  Đồ thị biểu diễn khoảng dự báo giá trị trung bình  Nhận xét: Đồ thị biểu diễn khá trực quan, ta có thể nhìn thấy các giá trị trung bình rất gần với giá trị thực của nó => dự báo rất đáng tin cầy. Đồ thị giá trị trung bình này có khoảng cách giữa cận trên và cận dưới