Đề tài Phân tích tương quan và hồi quy

Sơđồ phân tán thể hiện mối quan hệ giửa hai biến Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng hành giửa hai biến.  Hệ số tương quan không thể hiện mối quan hệ nhân quả

pdf53 trang | Chia sẻ: oanh_nt | Lượt xem: 5357 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Đề tài Phân tích tương quan và hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHÂN TÍCH TƯƠNG QUAN VÀ HOI QUY MỤC TIÊU Sau khi hoàn thành phần nầy, học viên sẽ co khả năng:  Tính toán và phân tích hệ số tương quan giàn đơn giữa hai biến  Xác định mức độ tin cậy thống kê của hệ số tương quan.  Tính toán và giải thích được hàm tương quan tuyến tính đơn biến  Thông hiểu được các giả thuyết khi xây dựng hàm tương quan  Biết được cách kiểm định trong hàm tương quan Sơ đồ phân tán và hệ số tương quan  Sơ đồ phân tán thể hiện mối quan hệ giửa hai biến  Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng hành giửa hai biến.  Hệ số tương quan không thể hiện mối quan hệ nhân quả. Sơ đồ phân tán (scatter plot) Quan hệ tuyến tính Quan hệ phi tuyến y y x x y y x x Sơ đồ phân tán (scatter plot) (continued) Strong relationships Weak relationships y y x x y y x x Sơ đồ phân tán (scatter plot) (continued) X và y không có quan hệ y x y x Hệ số tương quan (continued)  Hệ số tương quan của đám đông ký hiệu là ρ (rho) thể hiện sự đồng hành của hai biến.  Hệ số tương quan của mẩu r dùng ước lượng cho rho và nó thể hiện tương quan tuyến tính dựa trên các phần tử quan sát được từ mẩu. Đặc điểm của ρ and r  Không có đơn vị đo lường  Biến động trong phạm vi -1 và1  Càng gần -1, mối quan hệ nghịch biến càng cao  Càng gần +1, mối quan hệ đồng biến càng cao  Càng gần 0, mối quan hệ tuyến tính càng yếu Một số ví dụ về các giá trị của r y y y x x x r = -1 r = -.6 r = 0 y y x x r = +.3 r = +1 Cách tính hệ số tương quan (x  x)(y  y) r   [(x  x)2 ][(y  y)2 ] Cách tính tương đương n xy  x y r     [n(x2 )  (x)2 ][n( y2 )  ( y)2 ] Các ký hiệu: r = Hệ số tương quan của mẩu n = Cở mẩu x = các giá trị của biến độc lập y = Các giá trị của biến phụ thuộc Ví dụ Ñoä cao Ñöôøng cuûa caây kính thaân caây y x xy y2 x2 35 8 280 1225 64 49 9 441 2401 81 27 7 189 729 49 33 6 198 1089 36 60 13 780 3600 169 21 7 147 441 49 45 11 495 2025 121 51 12 612 2601 144 =321 =73 =3142 =14111 =713 Ví dụ về cách tính r (continued) Độ cao n xy   x y y r  [n( x 2 ) ( x)2 ][n( y 2 )  ( y)2 ] 70     60 8(3142)(73)(321) 50  2 2 40 [8(713) (73) ][8(14111) (321) ] 30  0.886 20 10 0 r = 0.886 → relatively strong positive 0 2 4 6 8 10 12 14 linear association between x and y Đường kính x Excel Output Excel Correlation Output Tools / data analysis / correlation… Tree Height Trunk Diameter Tree Height 1 Trunk Diameter 0.886231 1 Correlation between Tree Height and Trunk Diameter Kiểm định mức ý nghĩa của hệ số tương quan  Giả thuyết H0: ρ = 0 (Không có quan hệ tương quan) HA: ρ ≠ 0 (Có quan hệ tương quan)  Công thức tính  r (with n – 2 degrees of freedom) t  1 r2 n  2 Ví dụ Có mối quan hệ tương quan giửa chiều cao và đường kính của cây với mức ý nghĩa 5% ? H0: ρ = 0 (No correlation) H1: ρ ≠ 0 (correlation exists) a =.05 , df = 8 - 2 = 6 r .886 t    4.68 1 r 2 1.8862 n  2 8  2 Example: Test Solution r .886 t    4.68 Quyết định : 1 r 2 1.8862 Từ chối H0 n  2 8  2 Kết luận: Có mối quan hệ tương d.f. = 8-2 = 6 quan giử chiều cao và đường a/2=.025 a/2=.025 kính của cây o mức ý nghĩa 5% Reject H0 -t Do not reject H0 t Reject H0 α/2 0 α/2 -2.4469 2.4469 4.68 Mô hình hồi quy tuyến tính giản đơn  Chỉ có một biến đôc lập: x  Mối quan hệ giửa x và y là quan hệ tuyến tính  Sự thay đổi của y được giả định là do sự thay đổi của x. Các mô hình thể hiện mối quan hệ Quan hệ đồng biến Quan hệ phi tuyến Quan hệ nghịch biến Khong có quan hệ Hàm tương quan của đám đông Hệ số góc Hằng số Biến độc lập Hệ số sai lệch/phần dư Biến phụ thuộc y  β0  β1x  ε Bộ phận dự đoán tương quan Sai lệch ngẩu nhiên Các giả thuyết của hàm tương quan  Các sai lệch ngẩu nhiên hoàn toàn độc lập với nhau về phương diện thống kê.  Các sai lệch ngẩu nhiên có phân phối chuẩn  Phân phối xác suất của các sai lệch ngẩu nhiên có phương sai không đổi  Quan hệ giửa x và y là quan hệ tuyến tính Hàm tương quan tuyến tính của đám đông (continued) y y  β0  β1x  ε Giá trị quan sát của y tương ứng với x. εi Slope = β1 Giá trị dự đoán Sai lệch ngẩu của y ứng với x nhiên của biến xi Hằng số = β0 xi x Hàm tương quan ước lượng của mẩu Hằng số ước lượng của hàm Giá trị ước Hệ số góc ước tương quan lượng/dự đoán lượng Biến độc lập yˆ i  b0  b1x Sai lệch ngẩu nhiên có giá trị trung bình bằng 0 Tiêu chuẩn bình phương bé nhất (Least Squares Criterion)  b0 và b1 được tính toán theo tiêu chuẩn tổng bình phương bé nhất của phần dư (residuals) e2  (y yˆ)2 2  (y  (b0  b1x)) Hệ số của hàm tương quan theo tiêu chuẩn tổng bình phương bé nhất  Công thức tính b1 và b0: (x  x)(y  y) b   1 (x  x)2 Hoặc:  x y và  xy  b  n b  y b x 1 ( x)2 0 1 x2    n Yù nghĩa của hệ số góc và hằng số của hàm tương quan  b0 là giá trị trung bình của y khi x nhận giá trị bằng 0  b1 là sự thay đổi theo ước lượng của giá trị trung bình của y mổi khi x thay đổi một đơn vị. Ví dụ về hàm tươg quan giản đơn  Một nhà buôn bất động sản tiến hành khảo sát mối quan hệ giửa giá bán căn hộ và diện tích căn hộ (đo lường bằng m2.  Một mẩu gồm 10 căn hộ được chọn ra  Biến phụ thuộc (y): Giá bán căn hộ (1000USD)  Biến độc lập (x): Diện tích Giá trị các quan sát Giaù baùn ($1000) Dieän tích (y) (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 1700 Sử dụng excel để xây dựng hàm tương quan  Tools / Data Analysis / Regression Kết quả phân tích trên Excel Regression Statistics Multiple R 0.76211 The regression equation is: R Square 0.58082 Adjusted R Square 0.52842 house price  98.24833  0.10977 (square feet) Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 Graphical Presentation  House price model: scatter plot and regression line 450 400 350 Slope 300 = 0.10977 250 200 150 100 House Price ($1000s) 50 Intercept 0 = 98.248 0 500 1000 1500 2000 2500 3000 Square Feet house price  98.24833  0.10977 (square meter) Giải thích ý nghĩa của hằng số b0 house price  98.24833  0.10977*square meter)  b0 là giá trị trung bình ước lượng của giá nhà khi giá trị x (số m2) bằng 0.  Trong trường hợp nầy, không có giá tri x nào nhận giá trị 0, cho nên b0 = 98.24833 thể hiện giá nhà không được giải thích bởi số lượng met vuông. Giải thích ý nghĩa của hệ số góc b1 house price  98.24833  0.10977 (square feet)  Trong trường hợp nầy b1 = .10977 chỉ ra rằng giá trung bình của can hộ sẽ gia tăng 0.10977 đơn vị ($1000) khi số met vuông tăng 1 đơn vị Các đặc trưng của hàm tưoơng quan theo phương pháp bình phương bé nhất  Tổng giá trị của phần dư (residual) phải bằng 0.  (y yˆ)  0  Tổng bình phương của phần dư phải cực tiểu (y yˆ)2  Đường thể hiện hàm tương quan phải đi qua diểm thể hiện giá trị trung bình của x và y.  Hệ số của hàm tương quan phải ước lượng không chệch cho β0 và β1 Biến thiên giải thích được và không giải thích được  Tổng biến thiên bao gồm hai bộ phận TSS  ESS  RSS Tổng biến Tổng biến thiên Tổng biến thiên thiên có thể giải thích của sai lệch/phần dư TSS  ( y  y)2 ESS  (y  yˆ)2 RSS  (yˆ  y)2 Biến thiên giải thích được và không giải thích được (continued) y  y y i _  ESS = (y - y )2  TSS = (y - y)2 i i y i _ _ _ RSS = (y - y)2 y i y x Xi Hệ số xác định R2 (coefficient of determination)  Hệ số xác định thể hiện tỷ trọng của tổng biến thiên của biến phụ thuộc có thể giải thích được bởi biến thiên của biến độc lập.  Hệ số xác định được gọi là R bình phương (R2) ESS 2 R2  where 0  R  1 TSS Hệ số xác định R2 (continued) Chú ý: Trong trường hợp của hàm tương quan 1 biến , hệ số xác định nầy bằng bình phương của hệ số tương quan R2  r2 Ví dụ về các tình huống đặc biệt của R2 y R2 = 1 Quan hệ tuyến tính hoàn hão giửa x và y : 100% tổng biến x R2 = 1 thiên của y được giải thích y bằng biến thiên của x. x R2 = +1 Ví dụ về các tình huống đặc biệt của R2 y 0 < R2 < 1 Mối quan hệ tuyến tính yếu: Một bộ phận biến thiên của y x được giải thích bằng biến thiên của x y x Ví dụ về các tình huống đặc biệt của R2 R2 = 0 y Không có mối quan hệ tuyến tính giửa x và y R2 = 0 x Kết quả trên Excel ESS 18934.9348 Regression Statistics R2    0.58082 Multiple R 0.76211 TSS 32600.5000 R Square 0.58082 Adjusted R Square 0.52842 58.08% of the variation in Standard Error 41.33032 house prices is explained by Observations 10 variation in square feet ANOVA df SS MS F Significance F Regression 1 18934.9348 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 Độ lệch tiêu chuẩn của ước lượng  Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc xoay quanh đường tương quan được ước lượng bởi côg thức RSS s   n  k 1 Các ký hiệu RSS = Tổng biến thiên của các sai lệch (phần dư) n = Cở mẩu k = Số lượng các biến độc lập Độ lệch chuẩn của hệ số góc của hàm tương quan  Độ lệch chuẩn của hệ số góc của hàm tương quan (b1) được tính theo công thức sau: sε sε sb   1 (x  x)2 ( x)2  x2    n where: s = sai lệch tiêu chuẩn của hệ số góc của hàm tương quan b1 RSS s  = Sai lệch chuẩn của ước lượng ε n  2 Kết quả trên Excel Regression Statistics sε  41.33032 Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 s  0.03297 Observations 10 b1 ANOVA df SS MS F Significance F Regression 1 18934.9348 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 So sánh sai lệch chuẩn của ước lượng và của hệ số góc của hàm tương quan Biến thiên của giá trị quan sát y Biến thiên của hệ số góc của đường y khỏi đường tương quan y tương quan từ các mẩu khác nhau small s x small s x  b1 y y large s x large s x  b1 Kiểm định t cho hệ số góc với hàm tương quan một biến  Kiểm định t  Có mối quan hệ tuyến tính giửa x và y hay không?  Thiết lập giả thuyết  H0: β1 = 0  H1: β1 0  Test statistic d.f.  n  2 b1  β1  t  s b1  Inference about the Slope: t Test (continued) House Price Estimated Regression Equation: Square meter in $1000s (x) (y) house price  98.25  0.1098 (m2) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 1700 Kiểm định t cho hệ số góc Test Statistic: t = 3.329 s b1 b1 t H0: β1 = 0 From Excel output: HA: β1  0 Coefficients Standard Error t Stat P-value Intercept 98.24833 58.03348 1.69296 0.12892 Square Feet 0.10977 0.03297 3.32938 0.01039 d.f. = 10-2 = 8 Decision: Từ chối Ho a/2=.025 a/2=.025 Reject H0 Kết luận Có đủ bằng chứng cho thấy Reject H0-t Do not reject H0 t Reject H0 α/2 0 α/2 diện tích căn hộ tác động đến -2.3060 2.3060 3.329 giá bán. affects house price Phân tích mô tả với hàm tương quan Khoảng ước lượng của hệ số góc b  t s d.f. = n - 2 1 a/2 b1 Excel Printout for House Prices: Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 At 95% level of confidence, the confidence interval for the slope is (0.0337, 0.1858) Phân tích mô tả với hàm tương quan Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 Since the units of the house price variable is $1000s, we are 95% confident that the average impact on sales price is between $33.70 and $185.80 per square meter of house size This 95% confidence interval does not include 0. Conclusion: There is a significant relationship between house price and square feet at the .05 level of significance Residual Analysis  Purposes  Examine for linearity assumption  Examine for constant variance for all levels of x  Evaluate normal distribution assumption  Graphical Analysis of Residuals  Can plot residuals vs. x  Can create histogram of residuals to check for normality Residual Analysis for Linearity y y x x x x residuals residuals Not Linear  Linear Residual Analysis for Constant Variance y y x x ls x x residua residuals Non-constant variance Constant variance
Luận văn liên quan