tháng 6 2018

Minh họa thực hiện phân tích phân tách DA trên Stata


Hàm phân tách tuyến tính, chẳng hạn phân tích phân tách (discriminant analysis) được sử dụng để thực hiện một kiểm định đa biến về sự khác nhau giữa các nhóm. Ngoài ra, phân tích phân tích còn được sử dụng để xác định số nhóm tối thiểu cần thiết để mô tả các sự khác nhau này. Bài viết này sẽ minh họa thực hiện phân tích phân tách trên phần mềm Stata. Chi tiết: https://vietlod.com/phan-tich-phan-tach-stata

Hướng dẫn giải thích và đọc kết quả phân tích EFA trên Stata


Tiếp tục bài giới thiệu về nhân tố khám phá EFA, bài viết này sẽ minh họa các bước thực hiện và giải thích các kết quả phân tích nhân tố khám phá trên phần mềm Stata. Kết quả phân tích nhân tố sẽ được thực hiện với phép trích nhân tố mặc định là pf với 2 phép xoay varimax và promax.

Bài viết sử dụng dữ liệu thực hành là efa.dta. Bộ dữ liệu bao gồm 9 biến quan sát (x1-x9) và 3 biến đánh giá (y1 – y3). Các biến đều có thang đo Likert – 5 bậc. Bộ dữ liệu được khảo sát nhằm đánh giá chất lượng giảng dạy của người giảng viên ở 2 khía cạnh uy tín – kiến thức và kỹ năng truyền đạt. Chi tiết: https://vietlod.com/nhan-to-kham-pha-stata

Phân tích hệ số tin cậy Cronbach alpha trên Stata



Hệ số tin cậy Cronbach anpha được sử dụng để kiểm tra độ tin cậy bên trong của thang đo. Nó cho biết mức độ tương quan giữa các biến trong mỗi nhóm (nhân tố). Giá trị của hệ số tin cậy anpha cao của phương pháp không có nghĩa tính chất nhất quán của thang đo đã được thỏa mãn. Chúng ta cần phải sử dụng các kỹ thuật phân tích khác, chẳng hạn, phân tích nhân tố khẳng định CFA để kiểm định tính nhất quán này. Bài viết sẽ minh họa cách thực hiện phân tích hệ số tin cậy Cronbach anpha, cùng với việc giải thích các thông số của kết quả trên phần mềm Stata. Chi tiết: https://vietlod.com/he-so-tin-cay-cronbach-anpha-stata

Kết quả phân tích nhân tố khám phá trên Stata ở bài trước cho thấy chất lượng đội ngũ giảng viên có thể được đánh giá qua 2 nhân tố là uy tín – kiến thức và kỹ năng truyền đạt. Trong đó, nhân tố uy tín – kiến thức được tổng hợp từ 5 biến x1 – x5 và nhân tố kỹ năng truyền đạt được tổng hợp bởi 4 biến quan sát x6 – x9.

Hướng dẫn thực hiện phân tích nhân tố khám phá EFA trên Stata


Phân tích nhân tố khám phá EFA (Exploratory factor analysis) là một phương pháp rút gọn dữ liệu, cho biết mối quan hệ giữa các nhóm biến quan sát với các biến ẩn được gọi là các nhân tố. Sự kết hợp giữa phân tích nhân tố khám phá và phân tích nhân tố khẳng định sẽ tạo ra một bộ nhân tố đảm bảo độ tin cậy và hiệu quả cao.

Bài viết này sẽ tóm tắt lý thuyết phân tích nhân tố khám phá trên phần mềm Stata với câu lệnh factor. Phần trình bày phương pháp phân tích nhân tố khẳng định kết hợp với phân tích nhân tố khám phá sẽ được trình bày ở bài viết phân tích nhân tố khẳng định CFA. Chi tiết: https://vietlod.com/nhan-to-kham-pha-efa

Giới thiệu phép xoay nhân tố trong phân tích EFA



Một trong các bước quan trọng của phân tích nhân tố khám phá cũng như phân tích thành phần chính (PCA) là lựa chọn một phép xoay nhân tố hoặc thành phần (gọi tắt là phép xoay nhân tố). Bài viết này sẽ trình bày một số vấn đề liên quan đến phép xoay nhân tố. Qua bài viết này các bạn có thể biết thêm về ý nghĩa của các phép xoay và lựa chọn một phép xoay phù hợp cho nghiên cứu của mình. Chi tiết: https://vietlod.com/phep-xoay-nhan-to

Phân biệt PCA và EFA trong phân tích nhân tố



Phân tích thành phần chính (PCA) và phân tích nhân tố khám phá (EFA) là 2 phương pháp được sử dụng phổ biến trong các nghiên cứu thị trường. Cả hai phương pháp PCA vs EFA đều có cách thực hiện tương đối giống nhau. Tuy nhiên, mỗi phương pháp đều có mục tiêu riêng và sự phân biệt giữa 2 phương pháp PCA vs EFA vẫn còn rất nhiều điểm mơ hồ. Bài viết này thể hiện một số quan điểm của tác giả nhằm phân biệt PCA vs EFA. Đầu tiên là sự giống nhau giữa PCA vs EFA. Chi tiết: https://vietlod.com/phan-biet-pca-vs-efa

Hướng dẫn đọc kết quả phân tích CATPCA trên SPSS



Phân tích CATPCA hay còn gọi là phân tích thành phần chính dạng danh mục CATPCA (Categorical principal components analysis) là được sử dụng tinh giản dữ liệu khi các biến có dạng phân loại, với mục tiêu là xác định các thành phần chính của một tập biến có khả năng giải thích (đại diện) tốt nhất cho dữ liệu.

Tiếp tục phần trình bày ở bài minh họa thực hiện phân tích CATPCA trên SPSS, bài viết này sẽ đi sâu diễn giải kết quả phân tích CATPCA. Đầu tiên là phần giới thiệu về phiên bản của CATPCA, tiếp đến là thông tin thống kê sơ bộ về mô hình phân tích. Chi tiết: https://vietlod.com/doc-ket-qua-phan-tich-catpca-spss

Hướng dẫn thực hiện phân tích CATPCA trên SPSS



Phân tích CATPCA hay còn gọi là phân tích thành phần chính dạng danh mục CATPCA (Categorical principal components analysis) là được sử dụng tinh giản dữ liệu khi dữ liệu các biến có dạng phân loại, với mục tiêu là xác định các thành phần chính của một tập biến có khả năng giải thích (đại diện) tốt nhất cho dữ liệu. Chi tiết: https://vietlod.com/phan-tich-catpca-spss

Hướng dẫn thục hiện phương pháp phân tách Stepwise trên SPSS



Phương pháp phân tách stepwise (Stepwise Discriminant Analysis) có ý nghĩa tương đồng với phân tích hồi quy đa biến stepwise ở chổ là cố gắng tìm ra một tập biến giải thích tốt nhất cho biến phụ thuộc. Trong phương pháp phân tách stepwise, biến độc lập có tương quan mạnh nhất với biến phụ thuộc sẽ được đưa vào mô hình trước và quá trình sẽ lặp lại đến khi không còn biến nào không còn biến nào có ý nghĩa thống kê ngoài mô hình. Chi tiết: https://vietlod.com/phuong-phap-phan-tach-stepwise-spss

Hướng dẫn đọc kết quả phân tích phân tách DA trên SPSS



Trong phương pháp phân tách chúng ta cố gắng phân nhóm dựa vào sự tách biệt trong mỗi đối tượng. Vì vậy, đầu tiên chúng ta cần xem liệu có sự khác biệt thống kê giữa các nhóm hay không bằng cách sử dụng kết quả phân tích trung bình các nhóm và ANOVA. Bảng Group Statistics và Tests of Equality of Group Means cho chúng ta thấy được điều này.

Chi tiết: https://vietlod.com/doc-ket-qua-phuong-phap-phan-tach-spss

Minh họa thực hiện phương pháp phân tách DA trên SPSS



Phương pháp phân tách sử dụng một tập hợp các biến độc lập dạng liên tục (khoảng, tỉ lệ) để giải thích cho một biến phụ thuộc dạng phân loại. Nguyên tắc của phương pháp phân tách là tìm kiếm một giải pháp kết hợp tuyến tính giữa những biến độc lập để tạo một sự tách biệt lớn nhất giữa các nhóm của biến phụ thuộc. Chi tiết: https://vietlod.com/phuong-phap-phan-tach-spss

Phương pháp phân tách (Discriminant analysis) là một phương pháp phân tích thống kê được dùng rất nhiều trong Data mining để phân loại các đối tượng (object) vào các nhóm dựa việc đo lường các đặc trưng của đối tượng. Chi tiết: https://vietlod.com/phuong-phap-phan-tach-discriminant-analysis


Không giống như phân tích cluster không đòi hỏi biết trước số nhóm và các đối tượng ở mỗi nhóm, phương pháp phân tách đòi hỏi phải biết trước số nhóm và các đối tượng trong mỗi nhóm trước khi tiến hành phân tích. Điều này có nghĩa, trong thiết kế nghiên cứu phương pháp phân tách người nghiên cứu phải xác định trước đặc điểm của các nhóm và tiến hành thu thập dữ liệu (đối tượng) cho mỗi nhóm.

Mục đích chính của phương pháp phân tách là:
- Tìm tập hợp những thuộc tính tốt nhất để mô tả đối tượng hay trích lọc thuộc tính (feature extraction) và trích chọn mẫu (sapmple extraction) nhằm làm giảm số chiều biểu diễn đối tượng;
- Tìm một mô hình tốt nhất để phân nhóm các đối tượng.

Tiếp tục bài viết phân tích cluster thứ bậc qua phương pháp Ward, và phân tích cluster không thứ bậc theo phương pháp K-Means, bài viết này sẽ trình bày một phương pháp khác có tính ưu việt hơn so với 2 phương pháp trước, gọi là phương pháp phân tích cluster 2 bước. Chi tiết: https://vietlod.com/phan-tich-cluster-2-buoc-spss



Phân tích cluster 2 bước là một thủ tục để thăm dò phân loại các nhóm tự nhiên (cluster) tiềm ẩn trong một tập hợp dữ liệu. Thủ tục này sử dụng các thuật toán tối ưu và hiệu quả hơn so với cách phân tích cluster truyền thống, cụ thể như sau:

- Khả năng tạo ra các cluster dựa trên cả các biến phân loại và biến liên tục.
- Tự động lựa chọn số cluster.
- Khả năng phân tích các tập dữ liệu lớn một cách hiệu quả.

Ngược lại với phân tích cluster thứ bậc, phương pháp phân tích cluster không thứ bậc (Non Hierarchical Cluster Analysis) không bao gồm quy trình phân nhóm hình cây mà thay vào đó là phân bổ các đối tượng vào số lượng các cluster đã xác định trước.



Phân tích cluster không thứ bậc bao gồm 3 phương pháp chủ yếu là: (i) phương pháp ngưỡng tuần tự (Sequential threshold); (ii) phương pháp ngưỡng song song (Parallel threshold); (iii) phương pháp phân chia tối ưu (Optimizing partitioning). Các phương pháp này còn được gọi chung là phương pháp K-Means.

Chi tiết: https://vietlod.com/phuong-phap-k-means-spss

Phân tích cluster được ứng dụng trong rất nhiều lĩnh vực từ vi mô như nghiên cứu hành vi xã hội, tâm lý, địa lý, kinh doanh… đến nghiên cứu vĩ mô ở cấp độ đầu tư của ngành chẳng hạn. Trong nghiên cứu Marketing, phân tích cluster giúp nhận diện các phân khúc thị trường, tìm hiểu hành vi khách hàng, nhận dạng các cơ hội cho sản phẩm mới hay lựa chọn thị trường để thử nghiệm các chiến lược khác nhau. Nội dung bài viết này sẽ trình bày phần hướng dẫn thực hành phân tích cluster thứ bậc https://vietlod.com/phan-tich-cluster-thu-bac-spss


Để chuyển dữ liệu thành thông tin, thành kiến thức thì chúng ta phải biết đơn giản hóa dữ liệu. Có 2 cách phổ biến để đơn giản hóa dữ liệu, đó là phân tích nhân tố (factor analysis) và phân tích cluster. Khác với phân tích nhân tố là gộp các biến (items) có liên quan thành các nhân tố (factor) thì ở phân tích Cluster là phân nhóm các đối tượng có liên quan vào một nhóm đại diện bởi một biến gọi là cluster. Phân tích Cluster sẽ có hiệu quả cao khi các đối tượng trong cùng một cluster có quan hệ mật thiết (đồng nhất - homogeneous) với nhau và có sự phân biệt (heterogeneous) với các cluster khác. Tham khảo: https://vietlod.com/phuong-phap-phan-tich-cluster


Phân tích cluster được ứng dụng trong rất nhiều lĩnh vực khác nhau như: nghiên cứu hành vi xã hội, tâm lý, địa lý, kinh doanh… Ứng dụng trong nghiên cứu Marketing, phân tích Cluster giúp nhận diện các phân khúc thị trường, tìm hiểu hành vi khách hàng, nhận dạng các cơ hội cho sản phẩm mới hay lựa chọn thị trường để thử nghiệm các chiến lược khác nhau…

Phân tích cluster bao gồm 2 phương pháp phân tích chủ yếu là phương pháp phân tích cluster thứ bậc (Hierarchical clustering) và phương pháp phân tích cluster không thứ bậc (nonhierarchical clustering).

Hệ số Cronbach anpha là một hệ số kiểm định thống kê về mức độ tin cậy và tương quan trong giữa các biến quan sát trong thang đo. Tư tưởng chung của phương pháp này là tìm kiếm sự vô lý nếu có trong các câu trả lời (hay có nên đưa một biến quan sát vào một nhân tố hay không?). Nó cho biết sự chặt chẽ và thống nhất trong các câu trả lời nhằm đảm bảo người được hỏi đã hiểu cùng một khái niệm.
Chi tiết: https://vietlod.com/he-so-tin-cay-cronbach-anpha-spss


Phân tích nhân tố khám phá (EFA) là một trong những phương pháp phân tích thống kê dùng để rút gọn một tập hợp nhiều biến quan sát phụ thuộc lẫn nhau thành một tập biến ít hơn để chúng có ý nghĩa hơn nhưng vẫn chứa đựng hầu hết thông tin của tập biến ban đầu (Hair và cộng sự, 1998). Về nguyên tắc, EFA sẽ mô hình hóa cấu trúc phương sai của một tập biến quan sát bằng cách sử dụng kết hợp tuyến tính của các biến quan sát.



Những kết hợp tuyến tính này được gọi là các nhân tố (factors) có thể được sử dụng cho các phân tích tiếp theo. Các hệ số kết hợp được gọi là các hệ số tải (loadings) cho biết mức độ giải thích của nhân tố đối với các biến quan sát tương ứng. Ngày nay phân tích nhân tố khám phá được ứng dụng phổ biến trong các nghiên cứu Marketing, lĩnh vực quản trị hoặc các nghiên cứu khoa học của sinh viên.
Chi tiết: https://vietlod.com/nhan-to-kham-pha-spss

Minh họa thực hiện ước lượng mô hình PTR trên Stata



Các mô hình ngưỡng được sử dụng rộng rãi trong kinh tế vĩ mô và phân tích tài chính để giải thích các mối quan hệ phi tuyến giữa các biến. Bên cạnh các mô hình tự hồi quy ngưỡng (Threshold AutoRegressive – TAR) của Tong (1983) sử dụng trong dữ liệu thời gian thì các mô hình hồi quy ngưỡng của Hansen (1999) hay mô hình hồi quy bảng chuyển tiếp nhẵn (PSTR) của Gonzalez và các cộng sự năm 2005 lại được sử dụng ngày càng phổ biến trong dữ dữ liệu bảng. Không giống như dữ liệu thời gian, việc ước lượng và phân tích kết quả của mô hình hồi quy ngưỡng trong dữ liệu bảng thường rất phức tạp do tính không đồng nhất của các quan sát trong tập dữ liệu. Bài viết này sẽ minh họa cách ước lượng mô hình ngưỡng PTR của Hansen (1999).

Phần trình bày bên dưới sẽ minh họa cách ước lượng mô hình PTR trên Stata thông qua câu lệnh xthreg. Câu lệnh này được tích hợp sẳn trong phiên bản Stata 14.
https://vietlod.com/minh-hoa-uoc-luong-mo-hinh-ptr-hansen-1999-tren-stata

Giới thiệu mô hình hồi quy ngưỡng – PTR

Các mô hình ngưỡng (threshold models) được sử dụng rộng rãi trong các phân tích tài chính, vĩ mô bởi sự đơn giản và rõ ràng trong hàm ý chính sách. Tuy nhiên, với những mô hình này việc ước lượng và suy diễn là khá phức tạp bởi sự tồn tại của các tham số nhiễu. Để khắc phục vấn đề này, Hansen (1999) đề xuất một mô hình ngưỡng với ước lượng tác động cố định. Các mô hình ngưỡng này được sử dụng phổ biến trong dữ liệu thời gian, tuy nhiên, việc sử dụng trong dữ liệu bảng vẫn còn rất hạn chế. Bài viết sau sẽ giới thiệu về mô hình cũng như minh họa cách thực hiện ước lượng mô hình ngưỡng cho dữ liệu bảng (Panel Threshold Regression – PTR) trên phần mềm Stata.
https://vietlod.com/gioi-thieu-mo-hinh-nguong-ptr-hansen-1999

Minh họa thực hiện ước lượng FMOLS, DOLS trên EViews



Tùy theo đặc điểm của dữ liệu, mô hình nghiên cứu mà các bạn có thể lựa chọn phương thức ước lượng phù hợp giữa Pooled, Pooled (weighted), Grouped. Các phương thức ước lượng khác nhau sẽ dẫn đến một sự khác biệt đáng kể trong kết quả ước lượng. Ngoài ra, các thiết lập trong mỗi phương pháp cũng ảnh hưởng đáng kể đến kết quả, do vậy, cần phân tích kĩ dữ liệu để thiết lập các thông số phù hợp. Lưu ý rằng nếu các hệ số phương sai dài hạn là đồng nhất giữa các đơn vị bảng thì ước lượng DOLS là hiệu quả (phù hợp), ngược lại có sự khác nhau về hệ số phương sai dài hạn giữa các đơn vị bảng thì FMOLS là ước lượng phù hợp.
https://vietlod.com/minh-hoa-uoc-luong-fmols-dols-tren-eviews

Tổng hợp các kiểm định dữ liệu bảng trên EViews



Kiểm định sự tồn tại của các tác động riêng rẽ của các đối tượng hoặc các thời điểm trong ước lượng dữ liệu bảng là một trong những kiểm định quan trọng nhất trong mô hình dữ liệu bảng. Tùy thuộc vào đặc điểm cụ thể của các tác động riêng rẽ này mà lựa chọn phương pháp phù hợp để ước lượng mô hình (FE, RE, FMOLS, DOLS…) cũng như các phương pháp kiểm tra mối quan hệ nhân quả trong dữ liệu bảng. Bài viết tổng hợp kiểm định dữ liệu bảng sẽ lần lượt trình bày các kiểm định thường được sử dụng trong ước lượng dữ liệu bảng như vấn đề thừa/thiếu biến, kiểm định sự tồn tại các tác động riêng rẽ, lựa chọn mô hình FE/RE thông qua các ví dụ thực hành cụ thể trên EViews.
https://vietlod.com/tong-hop-kiem-dinh-du-lieu-bang-eviews

Hướng dẫn thiết lập ước lượng FMOLS, DOLS trên EViews



Sự lựa chọn giữa FMOLS và DOLS dựa trên cơ sở về tính đồng nhất của các hệ số phương sai dài hạn. Nếu các hệ số này là đồng nhất giữa các đơn vị bảng thì ước lượng DOLS là hiệu quả. Tuy nhiên, nếu các hệ số này khác nhau giữa một số đơn vị bảng thì ước lượng DOLS sẽ bị chệch, khi đó, ước lượng FMOLS sẽ tin cậy và phù hợp hơn. Nội dung bên dưới sẽ giới thiệu, phân biệt hai phương pháp DOLS, FMOLS cũng như hướng dẫn cách thiết lập các tùy chọn của 2 phương pháp này trên EViews.
https://vietlod.com/thiet-lap-uoc-luong-fmols-dols-tren-eviews

Hướng dẫn kiểm tra đồng kết hợp dữ liệu bảng trên EViews



Nếu 2 chuỗi thời gian, X và Y, là đồng kết hợp thì phải tồn tại một mối quan hệ nhân quả Granger từ X đến Y hoặc từ Y đến X hoặc theo cả 2 hướng. Điều ngược lại là không đúng, nghĩa là, nếu tồn tại mối quan hệ nhân quả Granger 1 hoặc 2 hướng giữa X và Y không nhất thiết phải dẫn đến 2 chuỗi thòi gian X và Y là đồng kết hợp.
https://vietlod.com/kiem-tra-dong-ket-hop-du-lieu-bang-panel-cointegration-eviews

Minh họa thực hiện ước lượng PMG trên EViews



Mô hình ARDL có thể xảy ra vấn đề thiên chệch khi có sự tương quan giữa biến giải thích sai phân trung bình với thành phần sai số. Sự thiên chệch này càng tăng khi T lớn. Phương pháp phổ biến để giải quyết vấn đề thiên chệch này là sử dụng phương pháp PMG được đề xuất bởi Pesaran, Shin and Smith (PSS, 1999). Bài viết sau sẽ giới thiệu và minh họa phương pháp ước lượng PMG trên EViews.
https://vietlod.com/minh-hoa-uoc-luong-pmg-tren-eviews

Phân tích thành phần chính PCA trên EViews



Về mặt nguyên tắc thực hiện, phân tích thành phần chính PCA sẽ mô hình hóa cấu trúc phương sai của một tập biến quan sát bằng cách sử dụng kết hợp tuyến tính của các biến với mục đích trích được 1 số ít các thành phần có thể mô tả gần đúng nhất cấu trúc phương sai ban đầu. Những kết hợp tuyến tính trên được gọi là các thành phần (components) và các hệ số kết hợp được gọi là các hệ số tải (loadings).
https://vietlod.com/phan-tich-thanh-phan-chinh-pca-tren-eviews

Vấn đề hiệp phương sai đồng thời trong dữ liệu bảng



Hiệp phương sai đồng thời (contemporaneous covariances) trong dữ liệu bảng được sử dụng rộng rãi trong phân tích dữ liệu bảng. Thông qua mối tương quan đồng thời giữa các biến số kinh tế vĩ mô chúng ta có thể kiểm tra các tính chất về mối quan hệ giữa các đối tượng bảng, tính toán các phương trình ước lượng Zellner SUR cho các đối tượng bảng, kiểm tra và khắc phục vấn đề phụ thuộc chéo giữa các đối tượng bảng.
https://vietlod.com/hiep-phuong-sai-trong-du-lieu-bang-panel-covariances/2

Hướng dẫn thực hiện Breakpoint Unit Test trên EViews



Perron (1989) đã chỉ ra rằng các kiểm định nghiệm đơn vị thông thường sẽ bị chệch về hướng bác bỏ giả thiết H0 khi dữ liệu là dừng xu thế với điểm gãy cấu trúc (structural break). Trong trường hợp dữ liệu có điểm gãy cấu trúc, thay vì sử dụng các kiểm định nghiệm đơn vị thông thường thì chúng ta sẽ sử dụng kiểm định Breakpoint Unit root test. Bài viết sẽ minh họa cách thực hiện kiểm định Breakpoint Unit root test trên EViews.
https://vietlod.com/kiem-dinh-breakpoint-unit-root-test/4

Hướng dẫn thực hiện kiểm định nghiệm đơn vị bảng trên EViews



Kiểm định nghiệm đơn vị là để phân biệt giữa tính xu thế và tính dừng của dữ liệu. Kiểm định nghiệm đơn vị với dữ liệu bảng có hiệu quả hơn so với các dữ liệu chuỗi thời gian riêng rẽ. Bài viết sẽ minh họa các kiểm định nghiệm đơn vị với dữ liệu bảng trên EViews như: Levin, Lin và Chu (2002), Breitung (2000), Im, Pesaran và Shin (2003), ADF và PP, Maddala và Wu (1999), Choi (2001), và Hadri (2000).
https://vietlod.com/kiem-dinh-nghiem-don-vi-voi-du-lieu-bang

Minh họa thực hiện kiểm định nhân quả dữ liệu bảng trên EViews



Theo Hurlin và Venet (2001) kiểm định nhân quả với dữ liệu bảng sẽ hiệu quả hơn so với nhân quả Granger trong dữ liệu chuỗi thời gian bởi (i) có thể kiểm soát tính không đồng nhất giữa các đối tượng bảng; (ii) gia tăng độ chính xác của các ước lượng hồi quy (cỡ mẫu lớn); (iii) giảm các vấn đề xác định mô hình; và (iv) giảm khả năng thiên chệch tổng hợp như trong dữ liệu chuỗi thời gian. Tùy theo cách tiếp cận về tính đồng nhất của các hệ số ước lượng cho các quan sát mà chúng ta có 3 cách kiểm tra quan hệ nhân quả với dữ liệu bảng: Holtz-Eakin, Newey và Rosen (1988); Hurlin (2004); Dumitrescu-Hurlin (2012). Bài viết sẽ lần lượt trình bày và minh họa cách thực hiện kiểm định nhân quả với dữ liệu bảng trên EViews.
https://vietlod.com/kiem-dinh-nhan-qua-voi-du-lieu-bang-tren-eviews

Hướng dẫn thực hiện lựa chọn mô hình FE, RE trên EViews



Bài viết minh họa cách lựa chọn phương pháp ước lượng dữ liệu bảng giữa OLS, FE, RE trên EViews. Cụ thể là kiểm định sự tồn tại của các ảnh hưởng cố định đặc trưng cho các đối tượng bảng (hoặc các thời điểm), kiểm định sự tương quan chéo giữa các đơn vị bảng (hoặc các thời điểm) và kiểm định sự tương quan giữa các ảnh hưởng cố định với các biến giải thích. Kiểm định sự tồn tại của các ảnh hưởng cố định chính là cơ sở lựa chọn giữa Pooled OLS và Fixed Effects. Kiểm định về sự tương quan chéo giữa giữa các đơn vị bảng chính là cơ sở lựa chọn giữa Pooled OLS và Random Effects. Tiếp đến, kiểm định Hausman sẽ được thực hiện để kiểm tra sự tương quan giữa các ảnh hưởng cố định với các biến giải thích hay lựa chọn giữa Fixed Effects và Random Effects.
https://vietlod.com/kiem-dinh-lua-chon-ols-fe-re-tren-eviews

Minh họa thực hành ước lượng dữ liệu bảng trên EViews



Bài viết sau sẽ minh họa cách thực hành ước lượng dữ liệu bảng trên Eviews từ bước nhập dữ liệu, khai báo dữ liệu, ước lượng mô hình dữ liệu bảng bằng Pooled OLS, Fixed Effects, Random Effects và sự lựa chọn mô hình giữa Fixed Effect với OLS, và Fixed Effect với Random Effects.

Bài viết chỉ mang tính chất minh họa rất cơ bản về cách thực hiện ước lượng FE, RE cho mô hình bảng tĩnh tuyến tính trên phần mềm Eviews chứ không đi sâu trình bày lý thuyết ước lượng, cách kiểm định, cũng như so sánh lựa chọn các mô hình.
https://vietlod.com/thuc-hanh-uoc-luong-du-lieu-bang-tren-eviews

Ước lượng dữ liệu bảng trên EViews với câu lệnh LS



Cú pháp của lệnh hồi quy theo phương pháp bình phương bé nhất (tuyến tính lẫn phi tuyến) như sau:
ls(options) y x1 x2… hay tổng quát là ls(options) đặc_điểm_mô_hình
Cần lưu ý là EViews không tự động thêm hằng số vào phương trình hồi quy, do vậy, trong trường hợp mô hình tồn tại hằng số cắt thì chúng ta cần phải thêm “c” vào phương trình. Ngoài ra, chúng ta cũng có thể thêm dạng cấu trúc của sai số chẳng hạn như AR, MA, SAR, SMA vào phương trình để ước lượng.

Câu lệnh ls trên áp dụng được cho cả trường hợp dữ liệu không phải bảng (chéo, thời gian) và dữ liệu bảng. Các tùy chọn của ls trong 2 trường hợp, do vậy, cũng sẽ khác nhau.
https://vietlod.com/uoc-luong-du-lieu-bang-tren-eviews-lenh-ls

Thực hiện ước lượng GMM trên EViews với câu lệnh GMM



Cú pháp câu lệnh gmm để ước lượng theo phương pháp GMM như sau:

gmm(options) y x1 [x2 x3…]@ z1 [z2 z3…]
gmm(options) specification @ z1 [z2 z3…]
Diễn giải câu lệnh:

Theo sau tên của biến phụ thuộc y là danh sách các biến giải thích. Các biến phía sau kí hiệu “@” là danh sách các biến đại diện (instrumental variables) có mối quan hệ trực giao với phần dư. Một cách khác, chúng ta có thể sử dụng phương trình (có dấu = ) kèm theo hệ số của các biến giải thích và các biến đại diện. Số biến đại diện tối thiểu phải bằng số biến giải thích trong mô hình. Chi tiết tại: https://vietlod.com/uoc-luong-gmm-tren-eviews-lenh-gmm

Giới thiệu phương pháp PMG trong dữ liệu bảng



Phương pháp GMM được sử dụng để khắc phục sự tương quan giữa các biến giải thích với các thành phần sai số (μi hoặc εit) bằng cách sử dụng các biến đại diện ở phương trình sai phân và phương trình level. Ngoài ra, trong trường hợp mô hình có tính chất động (biến trễ phụ thuộc đóng vai trò là biến giải thích trong phương trình hồi quy) cũng như tồn tại biến nội sinh trong mô hình thì GMM vẫn là một phương pháp ước lượng phù hợp. Tuy nhiên, hạn chế lớn nhất của GMM là không đề cập đến các tác động trong dài hạn được thể hiện thông qua các mối quan hệ đồng kết hợp. Để khắc phục vấn đề tồn tại trên, Pesaran và Smith (1995), Pesaran (1997), và Pesaran, Shin và Smith (1999) đề xuất sử dụng phương pháp PMG (Pooled Mean Group).

Theo Pesaran và Smith (1995), phương pháp ước lượng PMG cho kết quả ước lượng các tham số có giá trị trung bình nhất quán. Pirotte (1999) còn cho rằng phương pháp PMG sẽ cho kết quả ước lượng trong dài hạn hiệu quả với cở mẫu lớn. Nó cho phép các tham số độc lập trong toàn bộ nhóm và không xét đến tính đồng nhất có thể có giữa các nhóm.
https://vietlod.com/phuong-phap-pmg-pooled-mean-group

Xử lí vấn đề biến nội sinh bằng phương pháp GMM


Các phương pháp ước lượng dữ liệu bảng như Fixed effect (FE, FD, LSDV) hoặc Random effects được sử dụng chủ yếu để ước lượng các mô hình dữ liệu bảng tĩnh tuyến tính. Với mô hình này, sự tồn tại của các vấn đề như tự tương quan của các sai số, cũng như tính chất động của mô hình được thể hiện qua các biến trễ phụ thuộc (vấn đề biến nội sinh) sẽ làm thiên chệch kết quả ước lượng. Mô hình dữ liệu bảng tồn tại các vấn đề này được gọi là mô hình bảng động tuyến tính. Có 2 cách để giải quyết vấn đề nội sinh trong mô hình bảng động tuyến tính, chúng ta có thể sử dụng một trong hai phương pháp. Đó là sử dụng phương pháp D-GMM (phương pháp sai phân GMM – difference GMM), biến đổi dữ liệu để loại bỏ các tác động cố định này. Hoặc sử dụng phương pháp biến đại diện (instrument) cho yi,t–1 và tương tự cho các biến nội sinh với các biến mà chúng ta tin rằng không tương quan với các tác động cố định. Bài viết này tập trung trình bày vấn đề xử lý biến nội sinh của mô hình bảng động tuyến tính bằng biến đại diện.
https://vietlod.com/cac-phuong-phap-uoc-luong-du-lieu-bang-phan-2

Phân biệt phương pháp S-GMM và D-GMM


Các phương pháp ước lượng dữ liệu bảng như Fixed effect (FE, FD, LSDV) hoặc Random effects được sử dụng chủ yếu để ước lượng các mô hình dữ liệu bảng tĩnh tuyến tính. Với mô hình này, sự tồn tại của các vấn đề như tự tương quan của các sai số, cũng như tính chất động của mô hình được thể hiện qua các biến trễ phụ thuộc (vấn đề biến nội sinh) sẽ làm thiên chệch kết quả ước lượng. Mô hình dữ liệu bảng tồn tại các vấn đề này được gọi là mô hình bảng động tuyến tính. Mô hình bảng động tuyến tính có thể được ước lượng bằng phương pháp GMM. Phương pháp GMM có 2 dạng ước lượng thay thế lẫn nhau là ước lượng D-GMM và S-GMM. Bài viết này sẽ lần lượt giới thiệu về đặc điểm của 2 phương pháp cũng như trình bày cách phân biệt giữa ước lượng D-GMM và S-GMM.
https://vietlod.com/phuong-phap-gmm-d-gmm-va-s-gmm

Phương pháp D-GMM và S-GMM thường được sử dụng để ước lượng các dữ liệu bảng động (có biến trễ), các dữ liệu bảng có N lớn T nhỏ hoặc tồn tại các vấn đề liên quan đến biến nội sinh, phương sai thay đổi hoặc sự tự tương quan của phần dư trong mô hình. Tuy nhiên, đối với các mô hình dữ liệu bảng tĩnh tuyến tính thì cần thiết xem xét các phương pháp ước lượng dữ liệu bảng khác như Pooled OLS, Fixed Effect, Random effects… Loạt bài viết về ước lượng GMM sẽ trình bày cách ước lượng một mô hình dữ liệu bảng tổng quát thông qua các ước lượng đã học như OLS, 2SLS, FE, RE, GMM để tìm ra một ước lượng phù hợp. Nội dung này sẽ giới thiệu các phương pháp cơ bản: OLS, FE và RE.

https://vietlod.com/cac-phuong-phap-uoc-luong-du-lieu-bang-phan-1

GMM là gì? GMM được sử dụng khi nào?



Trong các mô hình dữ liệu bảng động tuyến tính, khi T nhỏ thì các phương pháp ước lượng tác động cố định FE hoặc phương pháp sai phân bậc 1 là không phù hợp (Nickell, 1981). Trong trường hợp này, phương pháp GMM với các ước lượng MM, D-GMM, S-GMM được xem là các lựa chọn thay thế phù hợp.

Bài viết sẽ trình bày các khái niệm cơ bản về các thành phần của phương pháp GMM (moment là gì? moment condition là gì?) và phương pháp GMM cũng như các ứng dụng (ưu/nhược điểm) của phương pháp.
https://vietlod.com/gioi-thieu-phuong-phap-gmm

Kiểm định Hausman, khi nào sử dụng?



Theo cách tiếp cận truyền thống thì dữ liệu bảng có thể được ước lượng thông qua 2 mô hình tác động cố định (FEM) và tác động ngẫu nhiên (REM), đồng thời sử dụng kiểm định Hausman để lựa chọn FEM/REM. Vậy Khi nào thì sử dụng REM? Khi nào thì sử dụng FEM? Kiểm định Hausman là gì? và cả những vấn đề tồn tại của kiểm định Hausman là gì? Khắc phục nó ra sao? Tất cả sẽ lần lượt được trình bày trong bài viết này. Ngoài ra, bài viết này sẽ được tiếp nối bởi các chủ đề kinh tế lượng quan trọng khác như mô hình SEM được sử dụng trong phân tích các phương trình đồng thời (Simultaneous) hoặc trong phân tích nhân tố khẳng định CFA với mô hình cấu trúc tuyến tính (Structural equation modeling) và các chủ đề liên quan đến mô hình tuyến tính tổng quát GLM, GMM hoặc các mô hình hệ số ngẫu nhiên.
https://vietlod.com/kiem-dinh-hausman-lua-chon-fem-rem

Yếu tố không quan sát được, không thay đổi theo thời gian

Unobserved time-invariant hay Unobserved time-constant là một thuật ngữ thể hiện yếu tố không thay đổi theo thời gian không quan sát được. Trong dữ liệu bảng, unobserved unit-specific error, kí hiệu là μi là tiêu chí để lựa chọn FEM/REM. Mô hình có chứa các tham số unobserved time-invariant này được gọi là mô hình tác động cố định FEM. Vậy Unobserved time-invariant là gì? Unobserved time-invariant gây ra những vấn đề gì trong mô hình dữ liệu bảng và làm thế nào để khắc phục nó? Bài viết này sẽ mở rộng vấn đề về mô hình tác động cố định (FEM), đồng thời sẽ trả lời 3 câu hỏi trên thông qua một ví dụ về mô hình tiền lương lao động.
https://vietlod.com/unobserved-time-invariant-la-gi

Một cách nhìn khác về mô hình FE, RE



Dữ liệu đa bậc tổng hợp dữ liệu nhiều lớp, do vậy, chứa đựng rất nhiều thông tin. Tuy nhiên các mô hình ước lượng như OLS, OLS với robust hoặc cluster robust cũng như mô hình với biến giả đều chưa thể khai thác hiệu quả các thông tin của multilevel data. Các mô trên kể trên được liệt kê theo một trình tự đó là giải quyết vấn đề tồn tại của mỗi mô hình. Mô hình đứng sau kế thừa, đồng thời giải quyết vấn đề tồn tại của mô hình đứng trước. Như đã đề cập ở bài khắc phục Corrected error bằng OLS với biến dummy, mô hình với dữ liệu đa bậc – multilevel data với biến giả là một ví dụ đơn giản của mô hình tác động cố định FEM.

FEM còn được gọi là mô hình tác động cố định (Fixed Effects Model) là một trong các dạng phổ biến của mô hình dữ liệu bảng (Panel data model) bên cạnh mô hình tác động ngẫu nhiên REM (Random Effects Model). Bài viết này sẽ trình bày các thuật ngữ cơ bản và các ý tưởng cốt lõi của mô hình FEM và REM theo cách hiểu đơn giản, dễ hiểu nhất. Đồng thời, bài viết cũng sẽ phân biệt sự khác nhau giữa 2 mô hình FEM vs REM cũng như 2 khái niệm Within & Between trong dữ liệu bảng ở trang 4&5.
https://vietlod.com/mo-hinh-du-lieu-bang-fem-rem

Lựa chọn mô hình RE với FE



Bên cạnh ước lượng thô OLS, để ước lượng dữ liệu bảng chúng ta lần lượt đã tìm hiểu qua 2 mô hình khác đó là mô hình tác động cố định (FE) và mô hình tác động ngẫu nhiên (RE). Câu hỏi đặt ra là ước lượng (hoặc mô hình) nào là phù hợp sử dụng Pooled OLS, FE hay RE?

Quá trình hồi quy và lựa chọn mô hình dữ liệu bảng phù hợp có thể được tóm tắt ở hình sau:
https://vietlod.com/lua-chon-mo-hinh-fixed-effects-vs-random-effects-stata

Giới thiệu mô hình tác động ngẫu nhiên



Bên cạnh mô hình tác động cố định, mô hình tác động ngẫu nhiên (Random Effect) là một trong hai mô hình được sử dụng phổ biến trong ước lượng các dữ liệu bảng. Bài viết này sẽ đi sâu trình bày mô hình tác động ngẫu nhiên, với các nội dung cụ thể như sau:

  • Đặc điểm của mô hình
  • Phương pháp ước lượng
  • Các kiểm định trong mô hình
  • Tác động thời gian của mô hình

Tham khảo: https://vietlod.com/tac-dong-ngau-nhien-stata

Giới thiệu mô hình tác động cố định



Mô hình tác động cố định (Fixed Effect) là một trong hai mô hình phổ biến được sử dụng trong ước lượng dữ liệu bảng. Bài viết này sẽ đi sâu trình bày phương pháp ước lượng, kiểm định mô hình tác động cố định. Nội dung cụ thể như sau:


  • Đặc điểm của mô hình
  • Phương pháp ước lượng
  • Các kiểm định trong mô hình
  • Tác động thời gian của mô hình tác động cố định

Tham khảo: https://vietlod.com/tac-dong-co-dinh-stata

Giới thiệu Ưu & Nhược điểm của dữ liệu bảng



Dữ liệu bảng đôi khi còn được gọi là dữ liệu dài (longitudinal data). Dữ liệu bảng là sự kết hợp của dữ liệu chéo (cross-section) và dữ liệu thời gian (time series). Để thu thập dữ liệu bảng, chúng ta phải thu thập nhiều đối tượng (units) giống nhau trong cùng một hoặc nhiều thời điểm. Chẳng hạn, chúng ta có thể thu thập các dữ liệu của cùng các cá nhân, công ty, trường học, thành phố, quốc gia… trong giai đoạn từ năm 2000 đến 2014.

Dữ liệu bảng có nhiều ưu điểm so với dữ liệu chéo và dữ liệu thời gian. Cụ thể, dữ liệu bảng có 2 ưu điểm nổi trội như sau: (i) Dữ liệu bảng cho các kết quả ước lượng các của tham số trong mô hình tin cậy hơn; (ii) Dữ liệu bảng cho phép chúng ta xác định và đo lường tác động mà những tác động này không thể được xác định và đo lường khi sử dụng sử dụng chéo hoặc dữ liệu thời gian.
https://vietlod.com/gioi-thieu-du-lieu-bang

Phân biệt mô hình hồi quy logit và hồi quy probit



Khi một biến phụ thuộc là biến danh mục (nhị phân, thứ tự hoặc định danh) thì phương pháp bình phương tối thiểu OLS sẽ không còn là một ước lượng không chệch tốt nhất (BLUE) nữa. Điều đó có nghĩa các ước lượng OLS sẽ bị chệch và không hiệu quả. Do đó, các nhà nghiên cứu đã phát triển rất nhiều dạng mô hình hồi quy cho các biến phụ thuộc dạng danh mục.

Các mô hình logit vs probit đều dựa trên phương pháp ước lượng hợp lí tối đa ML (Maximum likelihood). Ước lượng hợp lí tối đa đòi hỏi một giả định về dạng hàm phân phối xác suất, chẳng hạn hàm logit và hàm bù log-log. Các mô hình Logit sử dụng hàm phân phối Logit chuẩn trong khi các mô hình Probit giả định hàm phân phối chuẩn chuẩn hóa. Bài viết này tập trung trình bày một số khía cạnh để phân biệt 2 mô hình Logit vs Probit.
https://vietlod.com/phan-biet-mo-hinh-logit-vs-probit

Minh họa thực hiện hồi quy probit trên Stata



Hồi quy Probit, đôi khi còn được gọi là mô hình probit, được sử dụng để ước lượng mô hình có biến phụ thuộc dạng nhị phân. Trong hồi quy probit, nghịch đảo của hàm phân phối xác suất chuẩn chuẩn hóa là sự kết hợp tuyến tính của các biến giải thích.

Ví dụ: chúng ta muốn biết các biến như điểm bài thi cuối khóa (gre), học lực trung bình (gpa) và uy tín của trường THCS (rank) mà các học sinh theo học ảnh hưởng như thế nào đến kết quả xét tuyển (admit) ở bậc học PTTH. Biến kết quả ở đây là một biến nhị phân (được chấp nhận/không chấp nhận).
Tham khảo: https://vietlod.com/hoi-quy-probit-stata

Minh họa thực hiện hồi quy tobit trên Stata



Mô hình tobit, đôi khi còn được gọi là mô hình hồi quy kiểm duyệt (censored regression model), được xây dựng để ước lượng mối quan hệ tuyến tính giữa các biến giải thích khi biến phụ thuộc bị kiểm duyệt.

Ví dụ: chúng ta muốn xây dựng một mô hình đánh giá học lực của học sinh (apt) dựa vào điểm số các môn toán (math), tập đọc (read) cũng như loại chương trình mà học sinh theo học (prog). Điểm học lực của mỗi học sinh dao động trong khoảng từ 200 – 800. Vấn đề ở đây là chúng ta không quan sát được điểm số thực sự của nhóm học sinh có điểm học lực “quy ước” 200 hoặc 800. Khi đó, học lực của những học sinh có thể không bằng nhau.

Tham khảo: https://vietlod.com/hoi-quy-tobit-stata

Minh họa thực hiện hồi quy khoảng trên Stata



Hồi quy khoảng (Interval Regression) được sử dụng để ước lượng mô hình có các biến phụ thuộc bị kiểm duyệt. Dữ liệu bị kiểm duyệt trong hồi quy khoảng là các kiểm duyệt khoảng. Điều đó có nghĩa chúng ta biết các quan sát nằm trong khoảng giá trị nào nhưng không thể biết chính xác giá cụ thể của mỗi quan sát. Hồi quy khoảng là trường hợp tổng quát của hồi quy kiểm duyệt (censored regression).

Ví dụ: chẳng hạn chúng ta muốn biết thu nhập thực của người lao động (triệu/tháng) theo các mức học vấn, số năm kinh nghiệm cũng như loại hình kinh tế mà người lao động làm việc. Trong trường hợp này, chúng ta không thể biết được giá trị thu thập thực của từng người lao động, nhưng chúng ta có thể biết được giá trị thu nhập thực có thể rơi vào các khoảng như nhỏ hơn 5 triệu, từ 5 triệu đến 10 triệu, từ 10 triệu đến 20 triệu, từ 20 triệu đến 50 triệu và trên 50 triệu. Đối với dữ liệu thu thập này, thì rõ ràng dữ liệu vừa bị kiểm duyệt trái (nhỏ hơn 5 triệu), kiểm duyệt phải (lớn hơn 50 triệu), đồng thời trong mỗi khoảng giá trị của các quan sát bị kiểm duyệt trái và phải đồng thời. Trong trường hợp này, chúng ta không sử dụng mô hình hồi quy kiểm duyệt thông thường, mà phải sử dụng hồi quy kiểm duyệt tổng quát hay còn gọi là hồi quy khoảng.
Tham khảo: https://vietlod.com/hoi-quy-khoang-interval-regression-stata

Author Name

Biểu mẫu liên hệ

Tên

Email *

Thông báo *

Được tạo bởi Blogger.