Phân Tích Tương Quan Pearson (r): Ứng Dụng, Giải Thích và Hướng Dẫn SPSS

Phân tích tương quan Pearson, ký hiệu là r, là một công cụ thống kê mạnh mẽ để đo lường mức độ liên kết tuyến tính giữa hai biến số. Hệ số tương quan Pearson (r) cho biết mức độ phù hợp của các điểm dữ liệu so với đường hồi quy tuyến tính.

1. Khi Nào Nên Sử Dụng Tương Quan Pearson?

Tương quan Pearson (r) có thể được sử dụng để ước tính tương quan tổng thể, ký hiệu là ρ (rho). Đây là một chỉ số không thứ nguyên, thể hiện mối quan hệ tuyến tính giữa hai biến ngẫu nhiên. Giá trị 0 cho thấy không có mối quan hệ tuyến tính, trong khi giá trị 1 biểu thị mối quan hệ tuyến tính hoàn hảo. Nếu tương quan âm, giá trị của một biến tăng lên khi giá trị của biến kia giảm xuống. Giá trị của r dao động từ -1 đến +1, bất kể đơn vị đo của hai biến.

Khi muốn định lượng mức độ quan hệ tuyến tính giữa các biến, tương quan Pearson (r) là một thống kê mô tả hữu ích. Nó phù hợp khi:

  • Các phép đo định lượng được thực hiện đồng thời trên hai biến trở lên.
  • Mối quan hệ giữa hai biến là tuyến tính.
  • Cả hai biến đều tuân theo phân phối chuẩn.

Tương quan Pearson (r) nên được tính toán trước khi thực hiện các phân tích đa biến phức tạp như phân tích nhân tố hoặc phân tích thành phần chính. Đôi khi, việc đánh giá mức độ của mối quan hệ tuyến tính giữa hai biến số trở nên khó khăn khi chỉ dựa vào biểu đồ phân tán. Do đó, hệ số tương quan cung cấp một bản tóm tắt ngắn gọn và dễ hiểu hơn. Tuy nhiên, nếu biểu đồ phân tán cho thấy một mối quan hệ phi tuyến tính rõ ràng, việc tính toán tương quan là không phù hợp.

Công thức tính hệ số tương quan Pearson (r) giữa hai biến x và y từ n mẫu:

Công thức tính hệ số tương quan PearsonCông thức tính hệ số tương quan Pearson

2. Giả Thuyết Vô Hiệu và Suy Luận Thống Kê

Khi ước lượng độ lớn của tương quan tổng thể, cần kiểm tra xem nó có ý nghĩa thống kê hay không. Giả thuyết vô hiệu là H0: ρ = 0, nghĩa là không có mối quan hệ tuyến tính giữa biến X và biến Y. Giả thuyết thay thế là H1: ρ ≠ 0. Nói cách khác, giả thuyết vô hiệu kiểm tra xem mối quan hệ giữa X và Y có thể xảy ra ngẫu nhiên hay không.

Phân phối mẫu của r không tuân theo phân phối chuẩn khi tương quan tổng thể khác 0 hoặc khi cỡ mẫu nhỏ (n < 30). Trong trường hợp này, các kiểm định ý nghĩa của r được thay thế bằng thống kê Fisher’s z.

3. Các Giả Định Thống Kê Quan Trọng

Một số tài liệu thống kê cho rằng cả hai biến phải tuân theo phân phối chuẩn để sử dụng tương quan Pearson. Tuy nhiên, các tài liệu khác lại nói rằng phân phối của cả hai biến chỉ cần đối xứng và đơn mode, không nhất thiết phải chuẩn. Điều này có thể gây nhầm lẫn cho các nhà nghiên cứu.

Nếu thống kê tương quan chỉ được sử dụng cho mục đích mô tả, không cần thiết phải tuân thủ các giả định về hình thức của phân phối dữ liệu. Các giả định duy nhất cần đáp ứng là:

  • Các phép đo định lượng (ở mức khoảng hoặc tỷ lệ) được thực hiện đồng thời trên hai hoặc nhiều biến ngẫu nhiên.
  • Các phép đo được ghép cặp cho mỗi đối tượng là độc lập.

Ví dụ, bạn thu thập thời gian ôn tập (tính bằng giờ) và kết quả thi (đo từ 0 đến 100) của 100 sinh viên được chọn ngẫu nhiên. Mỗi sinh viên sẽ có một giá trị thời gian ôn tập (ví dụ: 23 giờ) và một điểm thi (ví dụ: 81/100). Do đó, bạn sẽ có 100 cặp giá trị. Kết quả thu được sẽ mô tả mức độ mà mối quan hệ tuyến tính áp dụng cho dữ liệu mẫu.

Tuy nhiên, cần thận trọng khi sử dụng r trong một số trường hợp:

  • Phương sai khác nhau: Khi phương sai của hai thước đo khác nhau đáng kể, thường liên quan đến các phạm vi khác nhau hoặc một phạm vi giới hạn cho một biến, tương quan mẫu sẽ bị ảnh hưởng. Phạm vi bị hạn chế sẽ làm giảm tương quan giữa hai biến.
  • Giá trị ngoại lệ: Giá trị ngoại lệ có thể ảnh hưởng lớn đến hệ số tương quan, do đó cần được xem xét cẩn thận.
  • Nhóm không đồng nhất: Dữ liệu nên đồng nhất (homoscedasticity), nghĩa là phương sai dọc theo đường hồi quy là tương tự nhau. Phương sai thay đổi được gọi là heteroscedasticity.

Đồ thị minh họa Homoscedasticity (Đồng nhất) và Heteroscedasticity (Phương sai thay đổi)Đồ thị minh họa Homoscedasticity (Đồng nhất) và Heteroscedasticity (Phương sai thay đổi)

  • Dữ liệu thưa thớt: Khi có quá ít dữ liệu, không thể xác định liệu mối quan hệ giữa hai biến có tuyến tính hay không. Tương quan Pearson r phù hợp nhất cho các mẫu lớn hơn (n > 30).
  • Giá trị cố định trước: Không nên sử dụng tương quan r khi các giá trị trên một trong các biến đã được cố định trước.

4. Phân Tích Tương Quan Pearson r trên SPSS

Ví dụ, một nhà nghiên cứu muốn tìm hiểu xem liệu điểm thi viết cuối kỳ môn Toán có liên quan đến thời gian ôn tập của sinh viên hay không. 20 sinh viên được yêu cầu ghi lại tổng số giờ ôn tập cho môn Toán từ khi kết thúc bài học đến ngày thi cuối kỳ. Sau kỳ thi, nhà nghiên cứu thu thập điểm số của 20 sinh viên (thang điểm 100).

Hai câu hỏi nghiên cứu đặt ra là:

  1. Điểm thi viết cuối kỳ môn Toán có liên quan tuyến tính đến số giờ ôn tập của sinh viên hay không?
  2. Số giờ ôn tập của sinh viên có liên quan tuyến tính đến điểm thi viết cuối kỳ môn Toán hay không?

Dưới đây là các bước thực hiện phân tích tương quan Pearson r trong SPSS:

Bước 1: Vẽ biểu đồ phân tán để mô tả mối quan hệ giữa hai biến.

Biểu đồ phân tán giữa điểm thi và thời gian ôn tậpBiểu đồ phân tán giữa điểm thi và thời gian ôn tập

Nhận xét: Biểu đồ cho thấy xu hướng tuyến tính gần đúng, nhưng cỡ mẫu nhỏ (n = 20) khiến việc quan sát rõ ràng đường tuyến tính trở nên khó khăn. Biểu đồ cũng cho thấy một giá trị ngoại lệ (điểm gần giá trị 4 trên trục hoành).

Bước 2: Nếu biểu đồ phân tán cho thấy mối quan hệ tuyến tính, tiến hành phân tích tương quan Pearson r. Chọn Analyze -> Correlate -> Bivariate…

Chọn Bivariate Correlations trong SPSSChọn Bivariate Correlations trong SPSS

Bước 3: Trong hộp thoại Bivariate Correlations, chuyển các biến cần kiểm tra vào hộp Variables. Đảm bảo chọn Pearson trong vùng Correlation Coefficients. Nhấp OK để chạy phân tích.

Hộp thoại Bivariate Correlations trong SPSSHộp thoại Bivariate Correlations trong SPSS

Phân tích kết quả:

Bảng Correlations hiển thị hệ số tương quan Pearson r, giá trị p và kích thước mẫu. Trong ví dụ này, r = 0.78 và p = 0.000.

Bảng Correlations trong SPSSBảng Correlations trong SPSS

Báo cáo kết quả: “Một tương quan Pearson đã được thực hiện để xác định mối quan hệ tuyến tính giữa điểm thi viết cuối kỳ môn Toán và số giờ ôn tập của sinh viên. Kết quả cho thấy có một mối tương quan thuận đáng kể (r = 0.780, n = 20, p = 0.000).”

Bước 4: Kiểm tra ý nghĩa của hệ số tương quan r.

Để đánh giá ý nghĩa thống kê của hệ số tương quan, r được chuyển đổi và so sánh với phân phối t (t-distribution) với n – 2 bậc tự do. Công thức tính thống kê t:

Công thức tính thống kê tCông thức tính thống kê t

Giả thuyết vô hiệu là H0: ρ = 0 (hai biến độc lập). Giả thuyết thay thế là H1: ρ ≠ 0.

Trong ví dụ này, để kiểm tra xem có mối tương quan đáng kể ở mức 5% giữa điểm thi và số giờ ôn tập hay không, t được tính như sau:

Ví dụ tính thống kê tVí dụ tính thống kê t

Tra bảng giá trị tới hạn của t với 18 bậc tự do (20 – 2) ở mức ý nghĩa 0.05, ta được giá trị tới hạn là 2.101. Vì giá trị t tính toán (5.433) lớn hơn giá trị tới hạn (2.101), chúng ta bác bỏ giả thuyết vô hiệu và kết luận rằng mối tương quan là có ý nghĩa thống kê ở mức 5%.

Bước 5: Kiểm tra khoảng tin cậy của hệ số tương quan r.

Khoảng tin cậy dựa trên phép chuyển đổi Fisher’s z. Điểm Fisher’s z phải được chuyển đổi trở lại hệ số tương quan để diễn giải.

Công thức tính khoảng tin cậy 95%:

Công thức tính khoảng tin cậy 95%Công thức tính khoảng tin cậy 95%

Công thức chuyển đổi Fisher’s Z:

Áp dụng vào ví dụ (r = 0.78):

Ví dụ tính Fisher's ZVí dụ tính Fisher's Z

Khoảng tin cậy 95%:

= 0.57 đến 1.52

Chuyển đổi trở lại hệ số tương quan:

Chuyển đổi Fisher's Z về rChuyển đổi Fisher's Z về r

Kết luận: Chúng ta có thể chắc chắn 95% rằng tương quan tổng thể là dương và nằm trong khoảng 0.515 đến 0.909. Khoảng tin cậy này không bao gồm giá trị 0, cho thấy mối tương quan có ý nghĩa thống kê ở mức 5%.

Tài Liệu Tham Khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.