Tự tương quan, hay còn gọi là Autocorrelation, là hiện tượng xảy ra khi sai số (hạng nhiễu) tại một thời điểm t có mối tương quan với sai số ở thời điểm trước đó (t-1) hoặc với bất kỳ sai số nào trong quá khứ. Điều này đặc biệt quan trọng trong phân tích dữ liệu chuỗi thời gian và dữ liệu bảng.
Ví dụ, nếu hôm nay trời mưa, khả năng cao ngày mai trời cũng sẽ mưa. Trong đầu tư, nếu một cổ phiếu tăng giá hôm nay, tự tương quan dương mạnh mẽ có thể báo hiệu khả năng nó tiếp tục tăng vào ngày mai. Tự tương quan là một công cụ hữu ích cho các nhà giao dịch, đặc biệt là các nhà phân tích kỹ thuật.
Mục Lục
1. Định Nghĩa và Nguyên Nhân Xuất Hiện Tự Tương Quan
Trong dữ liệu chuỗi thời gian (time-series), hiện tượng này được gọi là Autocorrelation, còn trong dữ liệu bảng (panel-data), nó được gọi là Serial Correlation. Công thức tổng quát có dạng:
*Uit = β Uit-1 + εit**
Trong đó, U là hạng nhiễu tại thời điểm t và t-1. Nếu hệ số β ≠ 0, thì có tự tương quan và ngược lại. (i = 0 khi là time-series)
Nguyên nhân dẫn đến tự tương quan
Có nhiều nguyên nhân gây ra hiện tượng tự tương quan, bao gồm:
- Quán tính: Các chuỗi thời gian kinh tế thường có quán tính mang tính chu kỳ.
- Hiện tượng mạng nhện: Sự điều chỉnh chậm trễ giữa cung và cầu có thể tạo ra các chu kỳ và tự tương quan.
- Độ trễ: Trong phân tích chuỗi thời gian, biến phụ thuộc ở thời kỳ t có thể phụ thuộc vào chính biến đó ở thời kỳ t-1 và các biến khác.
- Xử lý số liệu: Việc xử lý số liệu thô (ví dụ: lấy trung bình các số liệu tháng để có số liệu quý) có thể làm trơn dữ liệu và gây ra tự tương quan.
- Sai lệch do lập mô hình: Lựa chọn mô hình không phù hợp hoặc bỏ sót các biến quan trọng có thể dẫn đến tự tương quan.
Mở rộng khái niệm về tự tương quan
Ngoài định nghĩa cơ bản, tự tương quan còn có nhiều khía cạnh khác:
- Hàm tự tương quan (ACF): Thể hiện mức độ tương quan giữa một chuỗi thời gian và các phiên bản trễ của chính nó.
- Tương quan trễ (Lagged Correlation) / Tương quan nối tiếp (Serial Correlation): Đo lường mối quan hệ giữa giá trị hiện tại của một biến và các giá trị trong quá khứ của nó.
- Phân tích tự tương quan: Được sử dụng trong quang phổ tương quan huỳnh quang để nghiên cứu sự khuếch tán ở cấp độ phân tử và các phản ứng hóa học.
- Tự tương quan tín hiệu: Xác định tín hiệu thời gian liên tục.
- Ma trận tự tương quan: Ma trận Hermitian cho các vectơ ngẫu nhiên phức tạp và ma trận đối xứng cho các vectơ ngẫu nhiên thực.
- Hiệp phương sai chéo: Nền tảng của công thức kinh tế lượng về tự tương quan.
Funfact: Tự tương quan thường xảy ra với dữ liệu chuỗi thời gian vì dữ liệu được sắp xếp theo thời gian (t = 1 -> N), tạo điều kiện cho các sai số có tương quan với nhau trong quá khứ và hiện tại.
Ý nghĩa của hiện tượng tự tương quan
- Phân tích chuỗi thời gian: Giúp tìm ra các mẫu chu kỳ lặp lại, có thể được sử dụng như một công cụ phân tích kỹ thuật trên thị trường vốn.
- Đo lường mức độ tương quan: Thể hiện mức độ giống nhau giữa một chuỗi thời gian và một phiên bản trễ của chính nó.
- Phân tích kỹ thuật: Giúp các nhà phân tích kỹ thuật đo lường mức độ ảnh hưởng của giá trong quá khứ đến giá tương lai của chứng khoán.
- Mức độ tương quan: Tự tương quan +1 thể hiện mối tương quan dương hoàn hảo, trong khi tự tương quan -1 thể hiện mối tương quan âm hoàn hảo.
2. Hậu Quả của Tự Tương Quan
Mặc dù các ước lượng mô hình OLS (Ordinary Least Squares) vẫn không chệch và nhất quán theo phân phối chuẩn khi có tự tương quan, nhưng:
- Mất hiệu quả: Các ước lượng không còn là ước lượng tuyến tính không chệch tốt nhất (BLUE) nữa.
- Sai số chuẩn bị ước lượng thấp: Các giá trị sai số chuẩn của mô hình OLS bị ước lượng thấp, dẫn đến các giá trị t ước lượng bị thổi phồng cao hơn mức bình thường.
- Kiểm định giả thuyết không đáng tin cậy: Các kiểm định giả thuyết trở nên đáng nghi vì các sai số ước lượng không còn đáng tin cậy. Kiểm định t và F có thể không còn hiệu lực.
- Hồi quy giả mạo (Spurious Regression): Tự tương quan có thể dẫn đến mô hình bị hồi quy giả mạo, cho thấy mối quan hệ giữa các biến trong khi thực tế không có.
3. Kiểm Định Tự Tương Quan và Cách Phát Hiện Bằng Stata
Có nhiều kiểm định tự tương quan, nhưng dưới đây là một vài phương pháp phổ biến:
3.1. Phương pháp vẽ đồ thị
Vẽ đồ thị phần dư từ mô hình là một bước quan trọng để đánh giá kết quả hồi quy.
Dạng đồ thị phần dư và nhận dạng loại tự tương quan
- Tự tương quan dương: Các phần dư có xu hướng nhóm lại với nhau (cùng dấu).
- Tự tương quan âm: Các phần dư có xu hướng xen kẽ giữa dấu dương và dấu âm.
- Không có tự tương quan: Các phần dư phân tán ngẫu nhiên.
3.2. Kiểm định Durbin-Watson (dữ liệu chuỗi thời gian)
-
Khai báo dữ liệu chuỗi thời gian: Sử dụng lệnh
tset timevar(trong đótimevarlà biến thời gian) để Stata nhận diện dữ liệu. -
Giả thuyết:
- H0: Mô hình không xảy ra tự tương quan
- H1: Mô hình xảy ra tự tương quan
Cách 1: Kiểm định bằng phương pháp Durbin-Watson
Lệnh: dwstat
Giá trị Durbin-Watson nằm trong khoảng từ 0 đến 4. Giá trị gần 0 cho thấy tương quan dương lớn, giá trị gần 4 cho thấy tương quan âm lớn, và giá trị gần 2 cho thấy ít tự tương quan.
Cách 2: Sử dụng Durbin’s alternative
Lệnh: estat durbinalt
Hiển thị mức ý nghĩa (p-value) cho kiểm định Durbin-Watson.
Cách 3: Kiểm định Breusch-Godfrey
Lệnh: bgodfrey
Kiểm định này có thể áp dụng cho các bậc tự tương quan cao hơn và khi mô hình hồi quy bao gồm độ trễ của biến phụ thuộc.
3.3. Kiểm định xtserial (dữ liệu bảng)
-
Thiết lập dữ liệu bảng: Sử dụng lệnh
xtset bank YEARđể Stata hiểu dữ liệu bảng. -
Kiểm định: Sau khi hồi quy mô hình, dùng lệnh:
xtserial [BPT] [BĐL]
4. Cách Khắc Phục Tự Tương Quan trong Stata
Tương tự như phương sai thay đổi, việc khắc phục tự tương quan đòi hỏi ước đoán dựa trên kinh nghiệm hoặc chuyển hóa mô hình hồi quy gốc.
4.1. Chuyển hóa sai phân bậc 1
Đưa toàn bộ dữ liệu về dạng sai phân bậc 1 (lấy hiệu số giữa hai kỳ quan sát liên tiếp). Trong Stata, sử dụng lệnh D. phía trước các biến:
reg D.Y D.X1 D.X2 D.X3
4.2. Chuyển hóa tổng quát (FGLS)
Ước lượng bình phương bé nhất tổng quát khả thi (FGLS) có thể được sử dụng. Trong Stata, với dữ liệu bảng, sử dụng lệnh:
xtgls [BPT] [BĐL], corr(ar1)
4.3. Phương pháp Newey-West (điều chỉnh sai số chuẩn)
Nếu cỡ mẫu lớn, có thể ước lượng hồi quy OLS thông thường, nhưng điều chỉnh sai số chuẩn bằng phương pháp Newey-West. Các sai số chuẩn được điều chỉnh này được gọi là sai số chuẩn HAC (heteroscedasticity and autocorrelation consistent).
Thực hiện bằng một trong hai cách sau:
reg Y X1 X2 X3, vce(robust) hoặc newey Y X1 X2 X3 , lag(n)
4.4. Thêm biến trễ vào biến phụ thuộc
Thêm biến trễ cho biến phụ thuộc nếu biến này bị tương quan giữa hai giai đoạn t và t-1:
reg Y L.Y X1 X2 X3 (độ trễ 1)
reg Y L(1/2).Y X1 X2 X3 (độ trễ 1 và 2)
Sau khi thêm biến trễ, cần kiểm định lại mô hình.
5. Kết luận
Bài viết này đã trình bày về hiện tượng tự tương quan, bao gồm định nghĩa, nguyên nhân, hậu quả, cách phát hiện và cách khắc phục trong Stata. Hy vọng bạn đọc sẽ nắm vững kiến thức này và áp dụng hiệu quả vào công việc.
