Bài giảng Chương 7- Phân tích dữ liệu - Luận văn, đồ án, đề tài tốt nghiệp

Mục đích Đúng thủ tục/đối tượng phỏng vấn (legibility) Xử lý các phỏng vấn/trả lời không hoàn chỉnh (completeness) Tính nhất quán của các trả lời (consistency) Sự chính xác của các trả lời (accuracy) Sự rõ ràng của các trả lời (clarification)

83 trang | Chia sẻ: oanh_nt | Lượt xem: 3200 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Bài giảng Chương 7- Phân tích dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

PHÂN TÍCH DỮ LIỆU Mục đích Đúng thủ tục/đối tượng phỏng vấn (legibility) Xử lý các phỏng vấn/trả lời không hoàn chỉnh (completeness) Tính nhất quán của các trả lời (consistency) Sự chính xác của các trả lời (accuracy) Sự rõ ràng của các trả lời (clarification) Quá trình Xử lý khi phát hiện lỗi Liên lạc trở lại để bổ sung hoặc làm rõ Hiệu chỉnh, làm rõ hoặc bổ sung theo trí nhớ hoặc các cứ liệu/suy luận khác Hủy bỏ một số câu trả lời (missing value) Hủy hoàn toàn cuộc phỏng vấn/questionnaire Các bước mã hoá Đặt tên biến cho các câu hỏi Câu hỏi 1 chọn lựa Câu hỏi nhiều chọn lựa Chuyển tập các chọn lựa trả lời của mỗi câu hỏi thành tập các số/nhãn phù hợp, có ý nghĩa. Câu hỏi đóng Câu hỏi mở Câu hỏi có chọn lựa: “Khác” Hai trường hợp “Không biết” Thí dụ: Thông tin cá nhân hoặc doanh nghiệp. Tuổi 30 ?? Thí dụ: quốc doanh, tư nhân, TNHH, cổ phần ?? Nhập dữ liệu vào file (SPSS) Cải biến tập dữ liệu Tạo biến mới, biến trung gian, v.v. Xử lý missing value Thí dụ về data file Chọn phương pháp phân tích đơn biến nào? Tùy vào: Có bao nhiêu biến được phân tích đồng thời? Mục tiêu phân tích chỉ là mô tả mẫu hay suy đoán cho tổng thể Các biến được đo bởi thang đo gì? Chỉ danh, thứ tự, khoảng, tỉ lệ. 2 biến 1 biến Trên 2 biến Thứ tự Chỉ danh Khoảng MÔ TẢ SUY ĐOÁN Biến chỉ danh, thứ tự Ví dụ Lợi ích của biến chỉ danh, thứ tự: Trình bày phân phối dữ liệu của một biến có thang đo nominal hoặc ordinal. Phát hiện một số dạng sai sót khi mã hoá. So sánh với các phân phối/ dữ liệu có liên quan. Đề nghị những phương pháp biến đổi các biến Kiểm tra sampling. Biến khoảng Ví dụ Biến đo bằng thang khoảng (interval) Có thể dùng t Test hoặc Z Test để test giá trị trung bình của tổng thể khi biết giá trị trung bình của mẫu Thí dụ (tiếp theo thí dụ trên) Bình quân tuổi của 100 SV trong mẫu là Ā = 24 (s=5). Nhà NC muốn kiểm chứng cho tổng thể: Null hypothesis Ho: µ = 23 Alternative hypothesis H1: µ ≠ 23 Do n = 100 > 30 nên dùng Z test Chọn mức ý nghĩa α = 0.05 (two tailed)  Zc = 1.96 Tính Z khi chưa biết σ : Z = (Ā - µ) n1/2/s = (24 - 23) x 1001/2/5 = 2 Z = 2 > Zc = 1.96  loại Ho  Không thể kết luận (với significant 5%) là µ = 23 Lưu ý: Nếu biến tỉ lệ thì Z = (p - π)/ (pq/ n)1/2 Biến đo bằng thang thứ tự (ordinal) Dùng chi-square test để so sánh phân phối các loại (categories) của mẫu và kỳ vọng của tổng thể Các bước tiến hành B1. Phát biểu giả thuyết H0, H1 B2. Xác định mức ý nghĩa  và bậc tự do df B5. Bác bỏ/chấp nhận H0 dựa trên tiêu chuẩn “Bác bỏ H0 nếu (tính được) > (tới hạn)”. B3. Tra bảng Chi-Square chuẩn  B4. Tính giá trị kiểm nghiệm theo công thức df = k – 1 (k là số loại danh định có thể chọn trong biến thứ tự) Oi: Số lần xuất hiện loại i trong mẫu Ei: Giá trị kỳ vọng của số lần xuất hiện Biến đo bằng thang thứ tự (ordinal) Dùng chi-square test để so sánh phân phối các loại (categories) của mẫu và kỳ vọng của tổng thể Các bước tiến hành Nghĩa là có sự khác biệt giữa phân phối của mẫu và phân phối của tổng thể. Kiểm định Chi-Square không có ý nghĩa khi số lần xuất hiện kỳ vọng cho mỗi lựa chọn = 6.25  loại bỏ H0 Bảng 2 chiều (Two – way Tabulation) Khảo sát mức độ và các mối liên hệ (có thể có) giữa các cặp biến. Thích hợp cho các trường hợp số loại trong mỗi biến không lớn, thang đo nominal hoặc ordinal. Chỉ định hướng, không kết luận về mối quan hệ nhân quả giữa các biến. Kết quả có thể bị lệch nếu các ô có giá trị nhỏ. Chi – Square contingency test Mục đích: Xác định sự tồn tại mối quan hệ giữa 2 biến danh định. Yêu cầu: Không có ô nào có số lần xuất hiện kỳ vọng = 13.3  loại Ho  Có sự khác biệt đáng kể giữa phân phối của mẫu và kỳ vọng (tổng thể) Hệ số tương quan Spearman và Pearson Spearman: tương quan giữa 2 biến thứ tự (ordinal) Pearson: tương quan giữa các biến khoảng/ tỉ lệ. Hệ số tương quan r = 0  1 (không kể dấu +/-) r > 0.8 rất mạnh r = 0.6 – 0.8 mạnh r = 0.4 – 0.6 có tương quan r = 0.2 – 0.4 tương quan yếu r within-group variance” ANCOVA: có xét đến các ảnh hưởng của một hay nhiều biến ngoại lai (gọi là control variable hoặc covariates - thang đo metric) và sẽ loại ra khỏi tập biến phụ thuộc trước khi phân tích ANOVA. MANOVA nếu có nhiều biến phụ thuộc MANCOVA có nhiều biến phụ thuộc và biến kiểm soát Thí dụ: Khảo sát 200 doanh nghiệp thuộc 3 ngành May mặc, Mỹ phẩm và Nhựa gia dụng về chi phí dành cho khuyến mãi hằng năm. Mục đích phân tích nhằm tìm xem có sự khác nhau đáng kể/ có ý nghĩa thống kê giữa 3 ngành này về chi phí khuyến mãi không? Biến độc lập: ngành (chỉ danh) (3 treatments) Biến phụ thuộc: chi phí khuyến mãi (ratio) Bài toán này có thể so sánh giá trị trung bình của chi phí khuyến mãi theo từng cặp ngành (dùng t – test). Tuy nhiên, khi số treatment lớn  số lượng so sánh sẽ rất lớn. Khi đó nên dùng ANOVA: H0 : 1 = 2 = ... = k =  Ha : có ít nhất 1 giá trị i khác những giá trị kia. Với  là trung bình của tổng thể DISCRIMINANT ANALYSIS Nhận ra những thuộc tính (các biến độc lập) để phân biệt các nhóm định trước của biến phụ thuộc Biến độc lập có thang metric, biến phụ thuộc có thang nonmetric. Hàm phân biệt có dạng: Y = v1.X1 + v2.X2 + v3.X3 + … Sau khi tính được Y, so sánh với giá trị chuẩn Yc để biết đối tượng thuộc nhóm nào. Thí dụ: Công ty máy tính muốn biết xem thu nhập gia đình (X1) và số năm học ở trường của chủ hộ (X2) có phải là hữu ích trong việc phân biệt hộ có mua máy tính PC hay không. Khảo sát X1 và X2 của 2 nhóm mẫu ngẫu nhiên (có và không có PC). Biến độc lập: X1 – thu nhập, X2 – số năm học : metric Biến phụ thuộc: Có PC, Không có PC: category. Kết quả sẽ là hàm phân biệt: Y= v1X1 + v2X2 v1, v2 : trọng số phân biệt (hằng số) Y: điểm phân biệt So sánh Yi và Yc  Phần tử i sẽ thuộc nhóm nào trong 2 nhóm mẫu trên. CONJOINT ANALYSIS CONJOINT ANALYSIS Phân tích ảnh hưởng tổng hợp (joint effects) của 2 hay nhiều biến độc lập (thang nominal) lên một biến phụ thuộc (utility score - thang đo ordinal) CONJOINT ANALYSIS Thường dùng trong test sản phẩm với nhiều yếu tố khác nhau (chất lượng, kiểu dáng, giá bán, nhãn hiệu, v.v.). Mỗi yếu tố có vài phương án khác nhau. Tìm xem tổ hợp nào được ưa thích nhất. CONJOINT ANALYSIS – ÁP DỤNG Nhà NC tạo ra một tập các phương án sản phẩm. Mỗi phương án là 1 tổ hợp của các yếu tố. Tập các phương án này được đưa cho đối tượng chọn/ xếp hạng (hoặc cho điểm thể hiện mức ưa thích). Conjoint analysis sẽ đánh giá ảnh hưởng của các utility score thành phần (hay part-worths, tượng trưng cho mức độ quan trọng của mỗi yếu tố) lên sự ưa thích tổng hợp (utility) đối với một sản phẩm. CONJOINT ANALYSIS – ÁP DỤNG Có thể dùng kết quả để Thí dụ: Thiết kế sản phẩm mới có 3 thuộc tính: Giá : (cao, trung bình, thấp) Kiểu dáng : (cao, trung bình, thấp) Chức năng : (đơn giản, phức tạp) ...  Chỉ cần đánh giá 1 nhóm khoảng 8 tổ hợp (thay vì 18 tổ hợp) về tính hấp dẫn của sản phẩm đối với khách hàng. Thí dụ: Nhà nghiên cứu FACTOR ANALYSIS (PHÂN TÍCH NHÂN TỐ) Thí dụ: Factor analysis: gom m biến thành k factor Factor 1 gồm X1 X6 X9 Xm 2 gồm X2 X3 X10 Xm - 1 3 gồm X4 X5 X7 X8 ... Tùy mục đích bài toán, có thể dùng: Exploratory factor analysis (EFA) hoặc Confirmatory factor analysis (CFA) CLUSTER ANALYSIS (PHÂN TÍCH NHÓM) Mục tiêu Phân chia các đối tượng/ người thành các nhóm với các thành viên trong nhóm có các đặc trưng tương tự. Thí dụ: Bài toán phân khúc thị trường (Segmentation) Phân loại hành vi mua (Typology) CLUSTER ANALYSIS (PHÂN TÍCH NHÓM) Quá trình thực hiện Thí dụ: Cluster analysis để phân khúc thị trường Yêu cầu thang đo: metric Công ty TICO: Xác định các Nhóm Khách Hàng khác nhau căn cứ trên hành vi mua. “Hãy đánh giá mức độ quan trọng của các yếu tố sau đây trong quyết định mua hàng của Ông/ Bà” X1 – Chất lượng sản phẩm X2 – Giá bánX3 – Thời gian giao hàng X4 – Uy tín nhà sản xuất X5 – Các dịch vụ đi kèm Thí dụ: Cluster analysis để phân khúc thị trường Hơn 300 khách hàng được khảo sát Nhận dạng ra các nhóm khác nhau. Trong mỗi nhóm có sự tương tự nhau về tầm quan trọng của các yếu tố (X1  X5) ảnh hưởng đến quyết định mua. Nhóm 1: X1, X4, X5 là quan trọng trong quyết định mua Nhóm 2: X1, X2, X3 là quan trọng.  TICO sẽ có chiến lược tiếp thị đối với từng nhóm khách hàng khác nhau. MULTIDIMENTIONAL SCALING (perceptual mapping) Mục đích: Xác định số lượng và bản chất của các thứ nguyên (dimensions) đặc trưng cho nhận thức/ đánh giá của khách hàng về các đối tượng. Thang đo: Cả hai loại thang metric/nonmetric Trong MR: Thường được sử dụng trong bài toán xác định vị trí tương đối (relative position) của các nhãn hiệu cạnh tranh nhau do phản hồi từ phía khách hàng. Xác định những yếu tố đặc trưng cho việc đánh giá của khách hàng. Là phương pháp ngược với Cluster KỸ THUẬT ĐO VÀ THU THẬP DỮ LIỆU