Kiến thức · April 25, 2023 0

Retire statistic significance

Hơn 3 tuần chỉ để học hiểu về confidence interval (CI), thêm 3 tuần để loay hoay với các hypothesis testing với statistical significance (sig) các kiểu. Rồi tổng kết lại, thầy kể chuyện cho sig đi nghỉ hưu là vừa 😳, còn chưa kịp có dịp để dùng 😅.

Đây là bài báo năm 2019 đăng trên tạp chí Nature, một tạp chí học thuật hàng đầu. Và bài này trưng cầu kiến nghị ký tên bởi hơn 800 nhà khoa học thuộc các lĩnh vực khác nhau (bài có 2 trang, mà phụ lục là danh sách 800 người dài hơn 30 trang 😅). Các nhà khoa học, toán học đang kêu gọi việc chấm dứt đưa ra các kết luận khoa học dựa trên sig hay p-value < 0.05

Bài này được đăng tải rộng rãi, nên chỉ cần search google “Retire Statistical Significance” của Valentine Amrhein et al (2019) là có thể tải về để đọc. Và là dành cho các bạn nghiên cứu sinh, sinh viên làm nghiên cứu hay bất kỳ ai đang làm nghiên cứu: hãy suy nghĩ về kết quả NC khi nhìn vào p-value.

Hoặc như tác giả đề xuất: hãy nghĩ về một thế giới không lệ thuộc vào p-value hay sig nữa, để tìm ra cách khác đưa ra kết luận cho kết quả nghiên cứu. Một comment rất đắt giá!

Phần bên dưới đây mình kể dài dòng tí cho ai chưa quen với CI hay sig, hoặc không hiểu lắm các nhà khoa học đang làm gì. Nên bạn nào đã hiểu rồi thì nên đi tìm và đọc bài gốc, không cần mất thời gian đọc phần dài dòng bên dưới đây đâu ha.

LÀM SAO ĐỂ NHÀ KHOA HỌC KẾT LUẬN LÀ X CÓ TÁC ĐỘNG TỚI Y?
X GÂY RA HẬU QUẢ Y?

Sự thật (fact) là các nhà nghiên cứu định lượng đang mô tả mối quan hệ đó bằng xác suất mà sự kiện X và Y xảy ra. X xảy ra trước Y, và về mặt toán thì xác suất xảy ra đủ thuyết phục để kết luận X -> Y.

Nhưng đời có lý tưởng thế đâu. Họ không quan sát trực tiếp được. Vd quan sát hiệu quả của thuốc chẳng hạn: một người chỉ có thể là đã uống thuốc hoặc không uống thuốc. Không thể quan sát cùng một người “nếu uống thuốc thì sao, không uống thuốc thì sao”. Và mỗi người lại khác nhau, nên người này phản ứng thuốc khác người kia.

Với trình độ của loài người ngày nay, chấp nhận giải pháp nghiên cứu ở mức rất tương đối. Mong là sẽ có biện pháp tối ưu hơn trong tương lai. Nói cho đơn giản là để phân tích tác động của thuốc, thì nhà phân tích đặt ra một giả thuyết ngược với điều họ đang muốn khẳng định, gọi đó là H0.

Trong ví dụ trên H0 giả định là thuốc hoàn toàn không có ảnh hưởng hiệu quả gì hết. Nếu H0 đúng, quả thật không có bằng chứng thuốc này là có tác dụng. Nếu H0 sai, thì có thể khẳng định thuốc có tác dụng.

Thế rồi họ quan sát ngẫu nhiên, dữ liệu thu được thực ra là một dãy một chuỗi kết quả khác nhau, tính toán lại ra được con số giá trị tác động của thuốc là x. Tùy nhà nghiên cứu quyết định, mà họ muốn lấy khoảng 95% hay 99% (hay bất kỳ từ 1-100%) dữ liệu cho thấy H0 đúng. Nếu x rơi vào khoảng 95% đó, họ hiểu rằng ah 95% H0 này đúng. Nếu x nằm ngoài khoảng này, họ sẽ nói ồ chưa có tới 5% xác suất xảy ra H0. Tức là chuyện thuốc vô dụng hiếm khi xảy ra lắm –> kết luận, thuốc có tác dụng.

Khoảng 95% đó gọi là confidence interval. Còn 100-95=5% là sig. Nếu CI 99%, thì sig là 1%.

Nếu lần đầu tiếp xúc với NCKH bạn có thấy rối rối sai sai chỗ nào đó không? Nếu có cũng bình thường thôi. Thứ mà chúng ta gọi là khoa học, thực ra chỉ tương đối thế thôi đó, chỉ là những con số thống kê. Nhưng hiện tại, nó là giải pháp tin cậy tối ưu của con người rồi. Với một đứa thiên về tư duy định tính như mình, thì mình vẫn luôn thấy định lượng mơ hồ và không đáng tin, dễ đưa ra các kết luận sai lầm. CI và sig là ví dụ cho thấy điều đó.

Thế thì tác giả và những người đồng ký tên trong bài báo này, họ đang kêu gọi chấm dứt dùng CI hay sig để kết luận đi. Có 1 câu họ nói rất hay:

“đây có vẻ như là vấn đề của nhận thức hơn là của xác suất thống kê”.

Scientists rise up against statistical significance (nature.com)

Quả thực, công thức toán chính xác, không sai trong công thức. Nhưng trong tư duy của người làm khoa học (và cả người không hiểu về bản chất của sig), thì chỉ có 2 phân loại: trên 5% và dưới 5%. Điều này không đúng với thế giới tự nhiên bên ngoài kia.

Chúng ta không thể nói rằng thuốc KHÔNG có tác dụng, chỉ có thể nói chúng ta CHƯA tìm ra được bằng chứng cho thấy có tác dụng.

Tùy theo mẫu mà có khi sẽ là 3%, có khi là 1%, có khi là 5.2%. Vậy thì sự khác nhau về % đó nói lên điều gì?

Sẵn đang nói về y khoa, các kết luận sẽ thường là các xác suất. Vd 20% xảy ra tỷ lệ rủi ro cao hơn 1,2 lần nhưng nghiên cứu kia chỉ ra rằng chỉ có 10% xảy ra tỷ lệ rủi ro cao hơn 1,5 lần… Vậy 2 kết quả có khác nhau? Rồi vậy có thể kết luận là thuốc có tác động không?

Tác giả chỉ muốn chỉ ra rằng, việc lạm dụng p-value và sig đang dẫn đến những hiểu biết không chính xác. Đến lúc, tìm những cách khác thay vì chỉ là sig-value.