Đây là bài báo mà mình đọc để thuyết trình trong môn học Experiment & Causal Inference. Nghiên cứu này được công bố năm 2003, là một nghiên cứu Đánh giá Tác động (Evaluation Research) khá điển hình, và cũng là một ví dụ thú vị để tham khảo về phương pháp phân tích Difference-in-Difference (DID).
DIFF-IN-DIFF LÀ GÌ?
Nghiên cứu Đánh giá Tác động có vẻ thiên về nghiên cứu ứng dụng nhiều hơn. Mục đích của loại nghiên cứu này không phải để tìm kiếm hay phát triển những lý thuyết mới, mà là dùng tư duy và phương pháp NCKH để kiểm định và đánh giá xem những chương trình can thiệp (intervention) có tạo ra được tác động như dự định hay không? (hoặc cũng có khi là để xem những tác động can thiệp đã tạo ra những tác động/ tác hại gì?)
Nghiên cứu này ra đời trong bối cảnh của hệ thống chăm sóc sức khoẻ tại Hoa Kỳ những năm 1990s. Ở Hoa Kỳ, hệ thống quản lý và dịch vụ xã hội luôn có chương trình của Liên Bang và chương trình riêng của từng Bang. Và “report card” là một loại “thẻ báo cáo” được dùng trong quản trị chất lượng. Đó là một dạng báo cáo đánh giá ngắn, thống kê hiệu quả (performance) và được công bố rộng rãi với mục đích là tăng sự minh bạch thông tin về chất lượng. Report card được dùng trong nhiều lĩnh vực, nhất là Giáo dục và Y tế.
Khi nói về đánh giá hiệu quả (performance) thì phải lưu ý rằng hiệu quả của một dịch vụ, ví dụ như Giáo dục hay Y tế, không phải chỉ là chuyện năng lực kỹ năng kiến thức của trường học hay bệnh viện, mà còn là tình trạng, đặc tính và các quyết định hành động của người tham gia (học sinh, bệnh nhân). Chưa kể đến, tuỳ vào chỉ số được chọn để đánh giá hiệu quả, mà câu chuyện hiệu quả sẽ thể hiện khác nhau. Vì vậy, hiệu quả của những report card này được bàn luận rất nhiều. Nhất là, report card được sử dụng như một công cụ để có các quyết định liên quan đến phát triển và chính trị.
Nói riêng trong lĩnh vực chăm sóc sức khoẻ tại Hoa Kỳ, trước năm 1993, report card đã được sử dụng rộng rãi để đánh giá dịch vụ và “xếp hạng chất lượng” các bệnh viện. Nhưng performance hoàn toàn dựa vào thông tin xuất viện (discharge abstract–based report cards). Tuy nhiên, việc xuất viện không chỉ do năng lực của bệnh viện, mà còn là quyết định của gia đình và chính bệnh nhân. Hơn nữa, trong số các bệnh nhân tới với bệnh viện, sẽ có bệnh nhân bệnh nặng và tử vong. Chỉ số tử vong này thực sự là ám ảnh với các bệnh viện trong report cards. Thế là có rất nhiều vấn đề xảy ra, cả một hệ thống như đang chơi một trò chơi chính trị lớn:
- Bệnh viện có xu hướng lựa chọn bệnh nhân. Chọn bệnh nhân bệnh nhẹ, trì hoãn nhập viện đối với bệnh nhân bệnh nặng.
- Các bác sỹ chịu áp lực đối với bệnh viện, họ không hoàn toàn có thể ra quyết định dựa trên chuyên môn mà phải cân nhắc xem điều này ảnh hưởng gì đến “chất lượng” của bệnh viện.
- Bệnh nhân có xu hướng chi tiêu nhiều, bằng mọi giá đến với các bệnh viện có chỉ số chất lượng cao. Tuy nhiên, như vừa nói ở trên, chất lượng cao có thể có được không phải do năng lực mà do các chỉ số xuất viện.
Đến năm 1993, thì ở Hoa Kỳ có 2 bang đầu tiên áp dụng report cards có sử dụng thông tin performance ngoài những chỉ số xuất viện và các thông tin nội bộ của bệnh viện. Đó là bang New York và Pennsylvania.
Nghiên cứu này bắt đầu từ hiện tượng đó, thực hiện đánh giá đo lường và so sánh DID:
- Các tác động TRƯỚC vs. SAU khi có report-cards,
- Các thay đổi trong tác động giữa NY&Penn vs. các bang còn lại.
Report card được sử dụng trong nghiên cứu này là của 2 bệnh phổ biến liên quan đến tim mạch
- CABG (coronary artery bypass graft) surgery: giải phẫu tắc nghẽn mạch máu ở tim
- AMI (acute myocardial infarction): thường xảy ra ở người lớn tuổi, bị đau tim đột ngột, đột quỵ
Có một đặc điểm thế này, là AMI thường là cấp cứu, bệnh nhân đến bệnh viện nào thì chữa trị ngay tại bệnh viện đó. Còn CABG thì phải có kế hoạch, cân nhắc và quá trình quyết định dài. Chính vì vậy mà tác giả định rằng tác động của report cards đối với AMI thì sẽ thấp hơn (hoặc không đáng kể) so với CABG.
Một giả định thứ hai là nếu vì performance, mà bệnh viện hạn chế nhận ca bệnh CABG có tiên lượng chữa trị thành công thấp (bệnh nặng quá rồi), thì bác sỹ thường có xu hướng tư vấn các phương pháp bổ trợ thường dùng kèm với bệnh nhân trước hoặc sau phẫu thuật. Nhưng có cái nghịch lý là nếu chuẩn đoán CABG giảm, thì đề xuất phương pháp phụ đó cũng giảm theo. Nên ngoài CABG và AMI cũng cần quan sát thêm cả những phương pháp phụ.

DID trong nghiên cứu này thực sự được sử dụng một cách linh hoạt để có thể so sánh.
Đầu tiên là so sánh để nhận ra tác động trong sự thay đổi của CABG trước và sau 1993. Rồi so sánh với sự thay đổi trong cùng thời gian đối với bệnh nhân AMI.
Sau đó lại so sánh kết quả DID giữa NY&Penn với DID ở các bang khác. Các sự so sánh giữa CABG, AMI và phương pháp bổ trợ. Các chỉ số được so sánh ngoài chỉ số nhập viện xuất viện, còn có các chỉ số ở cấp độ cá nhân bệnh nhân, như “chi tiêu, số ngày nằm viện,…”
Để tránh bỏ sót biến, các nhà nghiên cứu sử dụng weighting, fixed effect và rất nhiều chỉ số control variables.
Kết quả nghiên cứu đưa ra những bằng chứng cho thấy có vẻ như việc công bố nhiều thông tin minh bạch đang đem lại nhiều nguy hại cho người bệnh hơn là những lợi ích mang lại. Tác giả cũng lưu ý rằng điều này không có nghĩa là report cards là hoàn toàn xấu, nhưng cần phải được triển khai theo cách mà không gây hại đến bệnh nhân và các hoạt động chức năng của bệnh viện.

Hạn chế lớn nhất của nghiên cứu này, có lẽ chính là khả năng generalization – tức là khái quát kết quả nghiên cứu lên những đối tượng bên ngoài nghiên cứu này. Ví dụ như kết quả này không thể đem áp dụng lên cho nhóm bệnh khác ở ngay cùng Hoa Kỳ, cũng không thể áp dụng cho những quốc gia khác.
Tuy nhiên, đây có lẽ là đặc điểm chung của các nghiên cứu đánh giá tác động: kết quả không thể khái quát hoá lên bên ngoài tình huống được nghiên cứu. Và có lẽ thì chính tác giả cũng không đặt điều này làm mục tiêu chính.
Thế mạnh của nghiên cứu đánh giá tác động là những gợi ý có hàm ý quản trị. Nghiên cứu này cung cấp bằng chứng để tranh luận về tác động của report card: có lợi hay có hại, nghị sỹ hay các nhà quản lý có thể dựa vào đây để vận động cho các chương trình hành động của mình.
Để đọc bài này, mình mất hết một ngày chỉ để đi tìm hiểu về việc so sánh 2 DID estimations, chỉ vì đọc mà không hiểu ý nghĩa là gì, cho tới khi tự vẽ được cái bảng tóm lại các so sánh đã thực hiện. Ngoài ra, cũng vì lúc đi tìm hiểu, mình lại bị rơi vô Diff-in-Diff-in-Diff (DDD hay còn gọi là The triple difference estimator). Mỗi lần thấy cái mới là lại bị cuốn vào, đọc và suy nghĩ nhiều xem tác giả có phải đang dùng DDD không. DDD chỉ vừa mới được đề cập và giới thiệu gần đây, còn tác giả đã công bố bài này từ 2003. Sau khi đọc và tìm hiểu xong, cuối cùng mới có thể yên tâm kết luận rằng DDD và bài báo này không liên quan 😅
Cuối cùng thì, nếu một ngày nào đó cần dùng DID, nhất định mình sẽ tham khảo lại bài báo này.
.:: Cọp Giấy, tháng 5/2023, lớp ECI ::.
Tham khảo toàn văn bài nghiên cứu
Dranove, D., Kessler, D., McClellan, M., & Satterthwaite, M. (2003). Is More Information Better? The Effects of “Report Cards” on Health Care Providers. Journal of Political Economy, 111(3), 555–588. https://doi.org/10.1086/374180