Sơđồ phân tán thể hiện mối quan hệ giửa hai
biến
Phân tích hệ số tương quan dùng để đo lường mối
quan hệ đồng hành giửa hai biến.
Hệ số tương quan không thể hiện mối quan hệ
nhân quả
53 trang |
Chia sẻ: oanh_nt | Lượt xem: 5357 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đề tài Phân tích tương quan và hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHÂN TÍCH TƯƠNG QUAN VÀ
HOI QUY
MỤC TIÊU
Sau khi hoàn thành phần nầy, học viên sẽ co khả
năng:
Tính toán và phân tích hệ số tương quan giàn đơn giữa hai
biến
Xác định mức độ tin cậy thống kê của hệ số tương quan.
Tính toán và giải thích được hàm tương quan tuyến tính đơn
biến
Thông hiểu được các giả thuyết khi xây dựng hàm tương
quan
Biết được cách kiểm định trong hàm tương quan
Sơ đồ phân tán và hệ số tương quan
Sơ đồ phân tán thể hiện mối quan hệ giửa hai
biến
Phân tích hệ số tương quan dùng để đo lường mối
quan hệ đồng hành giửa hai biến.
Hệ số tương quan không thể hiện mối quan hệ
nhân quả.
Sơ đồ phân tán (scatter plot)
Quan hệ tuyến tính Quan hệ phi tuyến
y y
x x
y y
x x
Sơ đồ phân tán (scatter plot)
(continued)
Strong relationships Weak relationships
y y
x x
y y
x x
Sơ đồ phân tán (scatter plot)
(continued)
X và y không có
quan hệ
y
x
y
x
Hệ số tương quan
(continued)
Hệ số tương quan của đám đông ký hiệu là ρ
(rho) thể hiện sự đồng hành của hai biến.
Hệ số tương quan của mẩu r dùng ước lượng cho
rho và nó thể hiện tương quan tuyến tính dựa trên
các phần tử quan sát được từ mẩu.
Đặc điểm của ρ and r
Không có đơn vị đo lường
Biến động trong phạm vi -1 và1
Càng gần -1, mối quan hệ nghịch biến càng cao
Càng gần +1, mối quan hệ đồng biến càng cao
Càng gần 0, mối quan hệ tuyến tính càng yếu
Một số ví dụ về các giá trị của r
y y y
x x x
r = -1 r = -.6 r = 0
y y
x x
r = +.3 r = +1
Cách tính hệ số tương quan
(x x)(y y)
r
[(x x)2 ][(y y)2 ]
Cách tính tương đương
n xy x y
r
[n(x2 ) (x)2 ][n( y2 ) ( y)2 ]
Các ký hiệu:
r = Hệ số tương quan của mẩu
n = Cở mẩu
x = các giá trị của biến độc lập
y = Các giá trị của biến phụ thuộc
Ví dụ
Ñoä cao Ñöôøng
cuûa caây kính thaân
caây
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713
Ví dụ về cách tính r
(continued)
Độ cao n xy x y
y r
[n( x 2 ) ( x)2 ][n( y 2 ) ( y)2 ]
70
60
8(3142)(73)(321)
50
2 2
40 [8(713) (73) ][8(14111) (321) ]
30 0.886
20
10
0 r = 0.886 → relatively strong positive
0 2 4 6 8 10 12 14 linear association between x and y
Đường kính x
Excel Output
Excel Correlation Output
Tools / data analysis / correlation…
Tree Height Trunk Diameter
Tree Height 1
Trunk Diameter 0.886231 1
Correlation between
Tree Height and Trunk Diameter
Kiểm định mức ý nghĩa của hệ số tương
quan
Giả thuyết
H0: ρ = 0 (Không có quan hệ tương quan)
HA: ρ ≠ 0 (Có quan hệ tương quan)
Công thức tính
r (with n – 2 degrees of freedom)
t
1 r2
n 2
Ví dụ
Có mối quan hệ tương quan giửa chiều cao và
đường kính của cây với mức ý nghĩa 5% ?
H0: ρ = 0 (No correlation)
H1: ρ ≠ 0 (correlation exists)
a =.05 , df = 8 - 2 = 6
r .886
t 4.68
1 r 2 1.8862
n 2 8 2
Example: Test Solution
r .886
t 4.68 Quyết định :
1 r 2 1.8862 Từ chối H0
n 2 8 2 Kết luận: Có mối
quan hệ tương
d.f. = 8-2 = 6 quan giử chiều
cao và đường
a/2=.025 a/2=.025 kính của cây o
mức ý nghĩa 5%
Reject H0 -t Do not reject H0 t Reject H0
α/2 0 α/2
-2.4469 2.4469
4.68
Mô hình hồi quy tuyến tính giản đơn
Chỉ có một biến đôc lập: x
Mối quan hệ giửa x và y là quan hệ tuyến tính
Sự thay đổi của y được giả định là do sự thay
đổi của x.
Các mô hình thể hiện mối quan hệ
Quan hệ đồng biến Quan hệ phi tuyến
Quan hệ nghịch biến Khong có quan hệ
Hàm tương quan của đám đông
Hệ số góc
Hằng số Biến độc lập Hệ số sai
lệch/phần dư
Biến phụ thuộc
y β0 β1x ε
Bộ phận dự đoán tương quan Sai lệch ngẩu nhiên
Các giả thuyết của hàm tương quan
Các sai lệch ngẩu nhiên hoàn toàn độc lập với nhau
về phương diện thống kê.
Các sai lệch ngẩu nhiên có phân phối chuẩn
Phân phối xác suất của các sai lệch ngẩu nhiên có
phương sai không đổi
Quan hệ giửa x và y là quan hệ tuyến tính
Hàm tương quan tuyến tính của đám
đông
(continued)
y y β0 β1x ε
Giá trị quan sát
của y tương ứng
với x.
εi Slope = β1
Giá trị dự đoán Sai lệch ngẩu
của y ứng với x
nhiên của biến xi
Hằng số = β0
xi x
Hàm tương quan ước lượng của mẩu
Hằng số ước
lượng của hàm
Giá trị ước Hệ số góc ước
tương quan
lượng/dự đoán lượng
Biến độc lập
yˆ i b0 b1x
Sai lệch ngẩu nhiên có giá trị trung bình bằng 0
Tiêu chuẩn bình phương bé nhất (Least
Squares Criterion)
b0 và b1 được tính toán theo tiêu chuẩn tổng bình
phương bé nhất của phần dư (residuals)
e2 (y yˆ)2
2
(y (b0 b1x))
Hệ số của hàm tương quan theo tiêu
chuẩn tổng bình phương bé nhất
Công thức tính b1 và b0:
(x x)(y y)
b
1 (x x)2
Hoặc:
x y và
xy
b n b y b x
1 ( x)2 0 1
x2
n
Yù nghĩa của hệ số góc và hằng số
của hàm tương quan
b0 là giá trị trung bình của y khi x nhận giá
trị bằng 0
b1 là sự thay đổi theo ước lượng của giá trị
trung bình của y mổi khi x thay đổi một đơn
vị.
Ví dụ về hàm tươg quan giản đơn
Một nhà buôn bất động sản tiến hành khảo sát mối
quan hệ giửa giá bán căn hộ và diện tích căn hộ (đo
lường bằng m2.
Một mẩu gồm 10 căn hộ được chọn ra
Biến phụ thuộc (y): Giá bán căn hộ (1000USD)
Biến độc lập (x): Diện tích
Giá trị các quan sát
Giaù baùn ($1000) Dieän tích
(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Sử dụng excel để xây dựng hàm tương
quan
Tools / Data Analysis / Regression
Kết quả phân tích trên Excel
Regression Statistics
Multiple R 0.76211 The regression equation is:
R Square 0.58082
Adjusted R Square 0.52842 house price 98.24833 0.10977 (square feet)
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Graphical Presentation
House price model: scatter plot and
regression line
450
400
350 Slope
300 = 0.10977
250
200
150
100
House Price ($1000s) 50
Intercept 0
= 98.248 0 500 1000 1500 2000 2500 3000
Square Feet
house price 98.24833 0.10977 (square meter)
Giải thích ý nghĩa của hằng số b0
house price 98.24833 0.10977*square meter)
b0 là giá trị trung bình ước lượng của giá nhà khi giá
trị x (số m2) bằng 0.
Trong trường hợp nầy, không có giá tri x nào nhận
giá trị 0, cho nên b0 = 98.24833 thể hiện giá nhà
không được giải thích bởi số lượng met vuông.
Giải thích ý nghĩa của hệ số góc b1
house price 98.24833 0.10977 (square feet)
Trong trường hợp nầy b1 = .10977 chỉ ra
rằng giá trung bình của can hộ sẽ gia tăng
0.10977 đơn vị ($1000) khi số met vuông
tăng 1 đơn vị
Các đặc trưng của hàm tưoơng quan
theo phương pháp bình phương bé
nhất
Tổng giá trị của phần dư (residual) phải bằng 0. (y yˆ) 0
Tổng bình phương của phần dư phải cực tiểu (y yˆ)2
Đường thể hiện hàm tương quan phải đi qua diểm thể hiện
giá trị trung bình của x và y.
Hệ số của hàm tương quan phải ước lượng không chệch
cho β0 và β1
Biến thiên giải thích được và không giải
thích được
Tổng biến thiên bao gồm hai bộ phận
TSS ESS RSS
Tổng biến Tổng biến thiên Tổng biến thiên
thiên có thể giải thích của sai
lệch/phần dư
TSS ( y y)2 ESS (y yˆ)2 RSS (yˆ y)2
Biến thiên giải thích được và không giải
thích được
(continued)
y
y
y
i _
ESS = (y - y )2
TSS = (y - y)2 i i
y i _ _
_ RSS = (y - y)2
y i y
x
Xi
Hệ số xác định R2 (coefficient of
determination)
Hệ số xác định thể hiện tỷ trọng của tổng biến thiên
của biến phụ thuộc có thể giải thích được bởi biến
thiên của biến độc lập.
Hệ số xác định được gọi là R bình phương (R2)
ESS 2
R2 where 0 R 1
TSS
Hệ số xác định R2
(continued)
Chú ý: Trong trường hợp của hàm tương quan 1 biến , hệ số xác định
nầy bằng bình phương của hệ số tương quan
R2 r2
Ví dụ về các tình huống đặc biệt của
R2
y
R2 = 1
Quan hệ tuyến tính hoàn hão
giửa x và y : 100% tổng biến
x
R2 = 1 thiên của y được giải thích
y bằng biến thiên của x.
x
R2 = +1
Ví dụ về các tình huống đặc biệt của
R2
y
0 < R2 < 1
Mối quan hệ tuyến tính yếu:
Một bộ phận biến thiên của y
x được giải thích bằng biến
thiên của x
y
x
Ví dụ về các tình huống đặc biệt của
R2
R2 = 0
y
Không có mối quan hệ tuyến
tính giửa x và y
R2 = 0 x
Kết quả trên Excel
ESS 18934.9348
Regression Statistics R2 0.58082
Multiple R 0.76211 TSS 32600.5000
R Square 0.58082
Adjusted R Square 0.52842 58.08% of the variation in
Standard Error 41.33032 house prices is explained by
Observations 10 variation in square feet
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Độ lệch tiêu chuẩn của ước lượng
Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc
xoay quanh đường tương quan được ước lượng bởi
côg thức
RSS
s
n k 1
Các ký hiệu
RSS = Tổng biến thiên của các sai lệch (phần dư)
n = Cở mẩu
k = Số lượng các biến độc lập
Độ lệch chuẩn của hệ số góc của
hàm tương quan
Độ lệch chuẩn của hệ số góc của hàm tương quan
(b1) được tính theo công thức sau:
sε sε
sb
1 (x x)2 ( x)2
x2
n
where:
s = sai lệch tiêu chuẩn của hệ số góc của hàm tương quan
b1
RSS
s = Sai lệch chuẩn của ước lượng
ε n 2
Kết quả trên Excel
Regression Statistics
sε 41.33032
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032 s 0.03297
Observations 10 b1
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
So sánh sai lệch chuẩn của ước lượng
và của hệ số góc của hàm tương quan
Biến thiên của giá trị quan sát y Biến thiên của hệ số góc của đường
y khỏi đường tương quan y tương quan từ các mẩu khác nhau
small s x small s x
b1
y y
large s x large s x
b1
Kiểm định t cho hệ số góc với hàm
tương quan một biến
Kiểm định t
Có mối quan hệ tuyến tính giửa x và y hay không?
Thiết lập giả thuyết
H0: β1 = 0
H1: β1 0
Test statistic
d.f. n 2
b1 β1
t
s
b1
Inference about the Slope:
t Test
(continued)
House Price Estimated Regression Equation:
Square meter
in $1000s
(x)
(y) house price 98.25 0.1098 (m2)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Kiểm định t cho hệ số góc
Test Statistic: t = 3.329
s
b1 b1 t
H0: β1 = 0 From Excel output:
HA: β1 0 Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039
d.f. = 10-2 = 8
Decision: Từ chối Ho
a/2=.025 a/2=.025 Reject H0
Kết luận
Có đủ bằng chứng cho thấy
Reject H0-t Do not reject H0 t Reject H0
α/2 0 α/2 diện tích căn hộ tác động đến
-2.3060 2.3060 3.329 giá bán. affects house price
Phân tích mô tả với hàm tương quan
Khoảng ước lượng của hệ số góc
b t s d.f. = n - 2
1 a/2 b1
Excel Printout for House Prices:
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
At 95% level of confidence, the confidence interval for
the slope is (0.0337, 0.1858)
Phân tích mô tả với hàm tương quan
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Since the units of the house price variable is
$1000s, we are 95% confident that the average
impact on sales price is between $33.70 and
$185.80 per square meter of house size
This 95% confidence interval does not include 0.
Conclusion: There is a significant relationship between
house price and square feet at the .05 level of significance
Residual Analysis
Purposes
Examine for linearity assumption
Examine for constant variance for all
levels of x
Evaluate normal distribution assumption
Graphical Analysis of Residuals
Can plot residuals vs. x
Can create histogram of residuals to
check for normality
Residual Analysis for Linearity
y y
x x
x x
residuals residuals
Not Linear Linear
Residual Analysis for
Constant Variance
y y
x x
ls
x x
residua residuals
Non-constant variance Constant variance