VietLOD - Learning On Demand

Mô hình dữ liệu bảng: fixed effects vs random effects

Tham khảo chính từ:
  1. Giới thiệu dữ liệu bảng - Panel data,
  2. Mô hình tác động cố định - Fixed effects model,
  3. Mô hình tác động ngẫu nhiên - Random effects model,
  4. Lựa chọn mô hình Pooled OLS, Fixed effect hay Random effects 
1. GIỚI THIỆU
Mục đích của đa số các nghiên cứu thực nghiệm trong kinh tế là giải thích mối quan hệ giữa một biến phụ thuộc Y, theo một hay nhiều biến giải thích (X\(_1\), X\(_2\), …, X\(_k\)). Để làm điều này, chúng ta muốn biết sự tác động của Xi lên Y như thế nào, cả chiều hướng lẫn độ lớn của tác động. Trả lời câu hỏi này, chúng ta phải thu thập mẫu để có được kết quả ước lượng không chệch tác động của X lên Y. Để kết quả ước lượng là không thiên chệch đòi hỏi chúng ta phải kiểm soát các biến nhiễu, cả các biến quan sát được lẫn các biến không quan sát được. Đối với các biến nhiễu quan sát được, chúng ta có thể sử dụng mô hình hồi quy tuyến tính đa biến cổ điển (MCLR). Đối với các biến nhiễu không quan sát được, tuỳ vào đặc điểm khác nhau giữa các đối tượng và thời gian mà chúng ta lựa chọn mô hình hồi quy tác động cố định hay tác động ngẫu nhiên. Cả hai mô hình hồi quy này đòi hỏi chúng ta phải sử dụng dữ liệu bảng.


Bài viết này tập trung trình bày nguyên tắc của các phương pháp ước lượng dữ liệu bảng chứ không đi sâu vào các vấn đề về thủ tục kiểm định liên quan.
2. DỮ LIỆU BẢNG
  • Mô hình hồi tác động cố định (Fixed-effects) và tác động ngẫu nhiên (random-effects) được sử dụng trong phân tích dữ liệu bảng (đôi khi còn được gọi là dữ liệu dài: longitudinal data). Dữ liệu bảng là sự kết hợp của dữ liệu chéo (cross-section) và dữ liệu thời gian (time series). Để thu thập dữ liệu bảng, chúng ta phải thu thập nhiều đối tượng (units) giống nhau trong cùng một hoặc nhiều thời điểm. Chẳng hạn, chúng ta có thể thu thập các dữ liệu của cùng các cá nhân, công ty, trường học, thành phố, quốc gia… trong giai đoạn từ năm 2000 đến 2014.
  • Sử dụng dữ liệu bảng có hai ưu điểm lớn như: i) Dữ liệu bảng cho các kết quả ước lượng các của tham số trong mô hình tin cậy hơn; ii) Dữ liệu bảng cho phép chúng ta xác định và đo lường tác động mà những tác động này không thể được xác định và đo lường khi sử dụng sử dụng chéo hoặc dữ liệu thời gian.

3. MÔ HÌNH  TÁC ĐỘNG CỐ ĐỊNH (FIXED EFFECTS MODEL) 
Xét một mối quan hệ kinh tế, với biến phụ thuộc, Y, và hai biến giải thích quan sát được, X\(_1\) và X\(_2\), và một hoặc nhiều biến không quan sát được. Chúng ta có dữ liệu bảng cho Y, X\(_1\), và X\(_2\). Dữ liệu bảng bao gồm N-đối tượng và T-thời điểm, và vì vậy chúng ta có NxT quan sát. Mô hình hồi quy tuyến tính cổ điển không có hệ số cắt được xác định bởi: 
Y\(_{it}\) = β\(_1\)X\(_{it1}\) + β\(_2\)X\(_{it2}\) + μ\(_{it}\) với i = 1, 2, …, Nt = 1, 2, …, T
trong đó Y\(_{it}\) là giá trị của Y cho đối tượng i ở thời điểm t; X\(_{it1}\) là giá trị của X\(_1\) cho đối tượng i ở thời điểm t, X\(_{it2}\) là giá trị của X\(_2\) cho đối tượng i ở thời điểm t, và μ\(_{it}\) là sai số của đối tượng i ở thời điểm t.
Mô hình hồi quy tác động cố định, là một dạng mở rộng của mô hình hồi quy tuyến tính cổ điển, được cho bởi: 
Y\(_{it}\) = β\(_1\)X\(_{it1}\) + β\(_2\)X\(_{it2}\) + ν\(_i\) + ε\(_{it}\)
trong đó μ\(_{it}\) = ν\(_i\) + ε\(_{it}\). Sai số của mô hình hồi quy tuyến tính cổ điển được tách làm hai thành phần. Thành phần ν\(_i\) đại diện cho các yếu tố không quan sát được khác nhau giữa các đối tượng nhưng không thay đổi theo thời gian. Thành phần ε\(_{it}\) đại diện cho những yếu tố không quan sát được khác nhau giữa các đối tượng và thay đổi theo thời gian.

Ví dụ
Đối với mô hình xác định mức lương lao động, Y\(_{it}\) là mức lương của người lao động i tại thời điểm t; Xit1 là trình độ giáo dục của lao động i tại thời điểm t, X\(_{it2}\) là kinh nghiệm của người lao động i tại thời điểm t, và α\(_i\) là tác động của kỹ năng bẩm sinh lên mức lương của người lao động i, giả định rằng kỹ năng bẩm sinh là yếu tố không quan sát được duy nhất tác động lên mức lương (và không thay đổi theo thời gian). Với cở mẫu là 1000 người lao động (N = 1.000) được khảo sát trong thời gian 3 năm (T = 3). Vì vậy, ta có, NxT = 3,000 quan sát. Mô hình tác động cố định này sẽ có 1.002 hệ số hồi quy (1.000 hệ số α\(_i\), 1 hệ số của biến trình độ giáo dục và 1 hệ số của biến kinh nghiệm) và có bậc tự do là 1998 (3.000 – 1.002 = 1.998).

Phương pháp ước lượng
Có hai phương pháp ước lượng được sử dụng để ước lượng các tham số của mô hình tác động cố định. i) Ước lượng hồi quy biến giả tối thiểu LSDV với mỗi biến giả là đại diện cho mỗi đối tượng quan sát của mẫu. ii) Ước lượng tác động cố định (Fixed effects estimator).
  • Khi N lớn, việc sử dụng ước lượng LSDV sẽ rất cồng kềnh hoặc không khả thi. Chẳng hạn, giả sử chúng ta muốn ước lượng mô hình xác định lương. Chúng ta có mẫu N = 1000 người lao động. Để sử dụng ước lượng LSDV, chúng ta sẽ cần tạo ra 1000 biến giả và chạy hồi quy OLS cho hơn 1000 biến. Trong trường hợp như vậy, ước lượng tác động cố định sẽ thích hợp hơn.
  • Nguyên tắc của ước lương tác động cố định được hiểu như sau. Để đánh giá tác động nhân quả của các biến độc lập X\(_1\) và X\(_2\) lên biến phụ thuộc Y, ước lượng tác động cố định sử dụng sự thay đổi trong X\(_1\), X\(_2\), và Y theo thời gian. Gọi Z\(_i\) kí hiệu cho một biến không quan sát được khác nhau giữa các đối tượng nhưng không đổi theo thời gian và vì vậy bao gồm cả phần sai số trong đó. Bởi vì Z\(_i\) không thay đổi theo thời gian nên nó không thể gây ra bất kì sự thay đổi nào trong \(Y_{it}\); Sở dĩ như vậy là vì không thay đổi theo thời gian, Z\(_i\) không thể giải thích bất kì sự thay đổi nào trong \(Y_{it}\) theo thời gian. Vì vậy, loại trừ tác động cố định của Z\(_i\) lên \(Y_{it}\)bằng cách sử dụng dữ liệu sự thay đổi trong \(Y_{it}\) theo thời gian.
Ví dụ
Chúng ta không thể đưa thêm các biến như giới tính, sắc tộc như là biến giải thích trong mô hình tác động cố định để xác định mức lương, bởi vì những biến này khác nhau giữa những người lao động nhưng không thay đổi theo thời gian. Nếu mẫu khảo sát của chúng ta chỉ bao gồm những người lao động đã kết thúc việc học, thì trình độ học vấn sẽ khác nhau giữa những người lao động nhưng lại không thay đổi theo thời gian. Trong trường hợp này, chúng ta không thể sử dụng mô hình tác động cố định để ước lượng tác động của giáo dục lên mức lương.

4. MÔ HÌNH TÁC ĐỘNG NGẪU NHIÊN (RANDOM EFFECTS MODEL)
Xét một mối quan hệ kinh tế bao gồm một biến phụ thuộc, Y, và hai biến giải thích quan sát được, X\(_1\) và X\(_2\). Chúng ta có dữ liệu bảng cho Y, X\(_1\), và X\(_2\). Dữ liệu bảng gồm có N đối tượng và T thời điểm, và vì vậy chúng ta có NxT quan sát.
Mô hình tác động ngẫu nhiên được viết dưới dạng:
                        \(Y_{it}\) = β\(_1\)\(X_{it1}\) + β\(_2\)\(X_{it2}\) + ν\(_i\) + \(ε_{it}\) với i = 1, 2, …, Nt = 1, 2, …, T
Trong đó, sai số cổ điển được chia làm 2 thành phần. Thành phần ν\(_i\) đại diện cho tất các các yếu tố không quan sát được mà thay đổi giữa các đối tượng nhưng không thay đổi theo thời gian. Thành phần εit đại diện cho tất cả các yếu tố không quan sát được mà thay đổi giữa các đối tượng và thời gian. Giả sử rằng v\(_i\) được cho bởi: 
v\(_i\) = α\(_0\) + ω\(_i\), với i = 1, 2, …, N
Trong đó, v\(_i\) lại được phân chia làm hai thành phần: i) thành phần bất định a\(_0\), ii) thành phần ngẫu nhiên ω\(_i\).
Giả định rằng, ωi cho mỗi đối tượng được rút ra từ một phân phối xác suất độc lập với giá trị trung bình bằng 0 và phương sai không đổi, đó là, E(ω\(_i\)) = 0 Var(ω\(_i\)) = sω2 Cov(ωis) = 0
N biến ngẫu nhiên ωi được gọi tác động ngẫu nhiên (random effects).

Mô hình tác động ngẫu nhiên có thể được viết lại: 
  \(Y_{it}\) = α\(_0\)\(X_{it1}\) + β\(_2\)\(X_{it2}\) + μ\(_{it}\) 
Trong đó
μ\(_{it}\) = ω\(_i\) + ε\(_{it}\). Một giả định quan trọng trong mô hình tác động ngẫu nhiên là thành phần sai số μit không tương quan với bất kì biến giải thích nào trong mô hình.

Phương pháp ước lượng
Ước lượng OLS cho mô hình tác động ngẫu nhiên sẽ cho các tham số ước lượng không chệch nhưng lại không hiệu quả. Hơn nữa, các ước lượng của sai số chuẩn và do đó thống kê t sẽ không còn chính xác. Sở dĩ như vậy là vì ước lượng OLS bỏ qua sự tự tương quan trong thành phần sai số μit. Để kết quả ước lượng không chệch và hiệu quả, chúng ta có thể sử dụng ước lượng GLS khả thi (FGLS) để khắc phục hiện tượng sai số nhiễu tự tương quan. Ước lượng FGLS còn được gọi là ước lượng tác động ngẫu nhiên (Random effects estimator).

Ngoài hai phương pháp tác động cố định và tác động ngẫu nhiên, trong một số trường hợp nhà nghiên cứu vẫn sử dụng ước lượng OLS thô (Pooled OLS) cho dạng dữ liệu thu thập này. Ước lượng thô là ước lượng OLS trên tập dữ liệu thu được của các đối tượng theo thời gian, do vậy nó xem tất cả các hệ số đều không thay đổi giữa các đối tượng khác nhau và không thay đổi theo thời gian (Gujarati, 2004 trang 641).

5. LỰA CHỌN MÔ HÌNH
Câu hỏi đặt ra là mô hình nào sẽ là mô hình phù hợp: Pooled OLS, FE hay RE. Sự phù hợp của ước lượng tác động ngẫu nhiên và tác động cố định được kiểm chứng trên cơ sở so sánh với ước lượng thô. 
  • Cụ thể, ước lượng tác động cố định được kiểm chứng bằng kiểm định F với giả thuyết H0 cho rằng tất cả các hệ số vi đều bằng 0 (nghĩa là không có sự khác biệt giữa các đối tượng hoặc các thời điểm khác nhau). Bác bỏ giả thuyết H0 với mức ý nghĩa cho trước (mức ý nghĩa 5% chẳng hạn) sẽ cho thấy ước lượng tác động cố định là phù hợp. Đối với ước lượng tác động ngẫu nhiên, phương pháp nhân tử Lagrange (LM) với kiểm định Breusch-Pagan được sử dụng để kiểm chứng tính phù hợp của ước lượng (Baltagi, 2008 trang 319). Theo đó, giả thuyết H0 cho rằng sai số của ước lượng thô không bao gồm các sai lệch giữa các đối tượng var(vi) = 0 (hay phương sai giữa các đối tượng hoặc các thời điểm là không đổi). Bác bỏ giả thuyết H0, cho thấy sai số trong ước lượng có bao gồm cả sự sai lệch giữa các nhóm, và phù hợp với ước lượng tác động ngẫu nhiên.
  • Kiểm định Hausman sẽ được sử dụng để lựa chọn phương pháp ước lượng phù hợp giữa hai phương pháp ước lượng tác động cố định và tác động ngẫu nhiên (Baltagi, 2008 trang 320; Gujarati, 2004 trang 652). Giả thuyết H0 cho rằng không có sự tương quan giữa sai số đặc trưng giữa các đối tượng (vi) với các biến giải thích Xit trong mô hình. Ước lượng RE là hợp lý theo giả thuyết H0 nhưng lại không phù hợp ở giả thuyết thay thế. Ước lượng FE là hợp lý cho cả giả thuyết H0 và giả thuyết thay thế. Tuy nhiên, trong trường hợp giả thuyết H0 bị bác bỏ thì ước lượng tác động cố định là phù hợp hơn so với ước lượng tác động ngẫu nhiên. Ngược lại, chưa có đủ bằng chứng để bác bỏ H0 nghĩa là không bác bỏ được sự tương quan giữa sai số và các biến giải thích thì ước lượng tác động cố định không còn phù hợp và ước lượng ngẫu nhiên sẽ ưu tiên được sử dụng.
6. KẾT QUẢ
Sử dụng phần mềm STATA cho tập dữ liệu mus08psidextract.dta với dữ liệu bảng cân bằng 4165 quan sát gồm 7 giai đoạn thời gian (T=7) và 595 đối tượng người lao động (n=595). Kết quả ước lượng mức lương của người lao động (lwage) theo số năm kinh nghiệm (exp), số năm kinh nghiệm bình phương (exp2), số giờ làm việc trong tuần (wks) và số năm đi học của người lao động (ed) theo 3 mô hình Pooled OLS, Fixed effect (FE) và Random effect (RE) được thể hiện như sau:
Kết quả ước lượng mô hình mức lương của người lao động theo: Pooled OLS, Fixed effect và Random effect
Kết quả ước lượng mô hình mức lương của người lao động theo: Pooled OLS, Fixed effect và Random effect

Kết quả kiểm định Hausman về sự lựa chọn mô hình Fixed effect và Random effect
Kết quả kiểm định Hausman về sự lựa chọn mô hình Fixed effect và Random effect


gioi thieu 3 phương phap uoc luong mo hinh du lieu bang: pooled ols, tac dong co dinh (fixed effects), tac dong ngau nhien (random effects) cung voi kiem dinh Hausamn, Breusch-Pagan

[blogger][facebook][disqus]

Author Name

Biểu mẫu liên hệ

Tên

Email *

Thông báo *

Được tạo bởi Blogger.