Người làm nghiên cứu, bất kể là nghiên cứu định tính hay định lượng, rất cần có một data mindset tốt. Đó là một sự “nhạy bén”, hiểu biết và cảm nhận tốt về dữ liệu mà mình thu thập.
Một bộ dữ liệu tồi (bỏ qua chuyện đó là dữ liệu giả do hành vi gian lận nào đó) sẽ khiến mọi kết quả nghiên cứu trở nên vô nghĩa, cho dù phương pháp phân tích tốt tới đâu đi nữa. Nhưng như thế nào là một bộ dữ liệu “tốt”, hay ít nhất là một bộ dữ liệu “thích hợp” để sử dụng cho phân tích?
Câu hỏi về đánh giá chất lượng dữ liệu dùng trong phân tích, nghiên cứu đã được thảo luận khá nhiều trong ngành Data science (Khoa học dữ liệu), và có một số khung tiêu chí được đưa ra làm cơ sở để đánh giá. Năm 2012, hai học giả Ron S. Kenett và Galit Shmueli đã công bố bài On Information Quality (bài này có 2 versions 2012 và 2014, có thể download từ website của giáo sư Galit Shmueli hoặc xem bài trình bày 30ph của giáo sư tại RSS 2013)
Theo đó, InfoQ thường gồm có 4 thành phần chính:
- Mục đích phân tích g (Goal): thường trong nghiên cứu có 3 loại mục đích là giải thích, mô tả hoặc dự báo mối quan hệ nhân quả (causal). Nếu không xác định được mục đích của việc phân tích thì không thể biết được dữ liệu sử dụng có phù hợp không, và không thể đánh giá chất lượng của dữ liệu đó.
- Dữ liệu X (Data): là loại dữ liệu đang sưe dụng. Không có “loại” dữ liệu nào ưu việt hơn hẳn loại khác, mà dựa vào mục đích phân tích để xác định loại dữ liệu phù hợp.
- Phương pháp phân tích f: là các phương pháp thống kê dùng để xử lý, phân tích được áp dụng trên dữ liệu. Mỗi mục đích khác nhau cần phân tích khác, và với mỗi loại dữ liệu cần xử lý khác nhau.
- Utility U: có thể hiểu như sự hữu dụng của dữ liệu, tức là mức độ mà dữ liệu và xử lý dữ liệu đã đáp ứng được mục đích.

Kenett và Shmueli giới thiệu InfoQ được đánh giá bởi 8 yếu tố:
- Data resolution,
- Data structure,
- Data integration,
- Temporal relevance,
- Generalizability,
- Chronology of data and goal,
- Construct operationalization
- Communication
Một cách tiếp cận rất định lượng, Kenett và Shmueli đề xuất cách tính điểm InfoQ bằng cách cho điểm từ 1-5 cho mỗi yếu tố trong 8 yếu tố này, và sau đó tính geometric mean.
Với cá nhân mình, mình nhận ra rằng rất nhiều người nghiên cứu thiếu cái data mindset – dù đã làm nghiên cứu nhiều năm. Các chương trình dạy phương pháp nghiên cứu tại Việt Nam tính đến nay, có thể nói là, chưa chú trọng về phát triển research mindset nói chung, càng không bàn đến data mindset này. Mà có nói về chất lượng của dữ liệu, thì có lẽ chỉ có “lấy mẫu, cỡ mẫu và phương pháp kiểm định” là 3 nội dung được bàn đến. Utility thường bị xem nhẹ như một phần “thủ tục” của kiểm định (hoặc “quên” luôn). Goal lại dường như chẳng liên quan.
Chính bản thân mình cũng đã không hiểu dữ liệu mà mình dùng. Có đôi khi, mình thấy cách thiết kế thu thập và xử lý dữ liệu có gì đó “sai sai” nhưng lại không biêt sai chỗ nào và làm sao cho tốt hơn.
Trong 8 yếu tố của InfoQ, yếu tố nào cũng có độ quan trọng như nhau. Nhưng có 3 yếu tố mình đặc biệt chú ý, vì nó… “mới mẻ” với mình. “Mới mẻ” là vì mình chưa từng quan tâm đến nó, và chưa từng cân nhắc khi làm những việc liên quan đến dữ liệu (như đọc bài báo khoa học, thiết kế nghiên cứu, đọc các bản tin tức, hoặc báo cáo). Mình ghi lại đây 3 yếu tố này, như để nhắc bản thân nhớ về nó và cũng để chia sẻ với những ai quan tâm:
Generalizability là khả năng khái quát hóa kết quả nghiên cứu thành một quy luật. Điểm yếu của nghiên cứu định lượng nói chung, đặc biệt là nghiên cứu thực nghiệm (experiment) là ở việc khái quát hóa kết quả nghiên cứu này. Khi nhà nghiên cứu quan sát một hiện tượng, đo lường đánh giá các kiểu và ra được kết quả bảng biểu đầy đủ, thì có thể kết luận được kết quả này đủ giải thích cho khái niệm gì chưa (internal validity). Hoặc khi đã nghiên cứu trên một mẫu A, thì kết luận của nghiên cứu có thể áp dụng để giải thích mở rộng được đến đâu, đến những đối tượng nào ngoài A (external validity)
Ví dụ, nghiên cứu của Betrand & Mullainathan (2004), muốn tìm hiểu về sự phân biệt chủng tộc trong tuyển dụng. Để đánh giá về khả năng trúng tuyển của các ứng viên, nhóm tác giả chỉ đánh giá dự vào việc hồ sơ ứng tuyển CV của ứng viên có được nhà tuyển dụng gọi đi phỏng vấn hay không (số lượng callback). Rõ ràng, việc gọi đi phỏng vấn và cơ hội được tuyển, hoặc tuyển lương cao là hai chuyện khác nhau. Nên chỉ dùng một biến callback là không đủ để kết luận cho khả năng trúng tuyển.
Khả năng khái quát hóa không phải cứ có mẫu lớn là tốt (dù mẫu không đủ lớn chắc chắn là không tốt rồi 😅). Lấy ví dụ như việc nghiên cứu rủi ro của Vaccine bệnh X. Nếu có một mẫu lớn khủng khiếp là dữ liệu của toàn quốc gia. Mẫu được thu thập về gồm số người tiêm xong chết và số tiêm xong không chết, gồm số người bệnh X và không bệnh X. Nhưng chỉ những số liệu đó đã đủ? Chuyện gì xảy ra nếu người nào đó bệnh rồi mới tiêm, hoặc có bệnh YZ nào đó sẵn và chết vì Y hay Z chứ không phải X. Hoặc có một biến tác động khác chưa được tìm ra, ví dụ chỉ có người trên 50 mới chết, hoặc chỉ một tỉnh nào đó có khí hậu quá nóng hoặc quá lạnh mới gây tử vong sau khi tiêm.
Giả sử, một cách lý tưởng nào đó, quốc gia A đã thành công trong việc thiết kế phương pháp thu thập và phân tích dữ liệu, ra được kết luận rằng tiêm vaccine không gây tử vong trừ nguy cơ sốc phản vệ x%. Thế thì kết quả đó có thể áp dụng cho quốc gia B không? Quốc gia B có thể tham khảo phương pháp làm, và rồi nên tự nghiên cứu cho quốc gia mình.
Nói vậy mới thấy một số “chuyên gia sức khỏe” chỉ quan sát đúng 1 mẫu (là bản thân mình) và rủ rê thêm vài mẫu khác cùng quan sát, mà đưa ra kết luận là quá khinh suất. Ngược lại, các bác sỹ khi được sự hỗ trợ của nhiều loại xét nghiệm thì lại thận trọng khi chuẩn đoán, không dám kết luận gì… có lẽ là bởi vì bác sỹ nhận thấy có quá nhiều xác suất có thể xảy ra.
Vậy để khái quát hóa phải làm sao? Phải thận trọng xác định xem với dữ liệu và kết quả mình đang có thì có thể khái quát hóa điều gì.
Timeness yếu tố thời gian của dữ liệu. Dữ liệu gắn với thời gian, và thời gian mang trong đó rất nhiều thứ có thể tác động đến kết quả nghiên cứu, ví dụ như:
- Loại dữ liệu theo thời điểm cross-sectional, hay longitude, hay panel data?
- Thời điểm thu thập mẫu: có phải mùa cao điểm? Mùa lễ hội, hay có biến cố xã hội nào không?
- Việc thu thập kéo dài bao lâu? Thông thường, nếu chưa đủ dữ liệu, nhà nghiên cứu có thể kéo dài thời gian nghiên cứu để thu thập thêm. Nhưng nếu kéo dài quá, các mẫu khác được thu thập trong các mùa hoặc các năm khác nhau có tạo ra sự khác biệt không?
- Interval – độ dài mỗi khoảng thời gian. Vd thu thập dữ liệu mỗi ngày, hay mỗi tuần, hay mỗi năm. Tại sao lại thu thập như vậy?
- Thậm chí có khi, giờ thu thập dữ liệu cũng quan trọng. Ví dụ nghiên cứu về đấu giá trên sàn điện tử, hay săn sales trên website.
Đến đây, mình bỗng nhớ mấy cái máy đo điện tâm đồ, huyết áp, đường huyết và cân sức khỏe. Bệnh nhân có người rất sợ bác sỹ, đến bệnh viện là huyết áp tăng vọt lên. Hoặc bệnh nhân tiểu đường tìm cách hạ đường huyết trước khi lấy mẫu thử. Và chiếc cân sức khỏe thì có rất nhiều cách hack 😄 Hồi còn bé, mình ốm tong teo nhẹ cân, còn cô bạn cùng lớp thì nghĩ bản thân bị thừa cân. Vì vậy mỗi lần tới đợt cân đo sức khỏe, bạn đó sẽ lên cân trước mình. Ngay khi bạn vừa bước xuống thì mình nhảy mạnh lên, kim chưa kịp về zero đã vọt lên – nên “trông có vẻ” mình sẽ tăng được chút xíu cân nặng. Còn bạn ấy thì luôn muốn bước lên cân trước mình, chỉ vì nếu bước lên cân sau mình, bạn đó sẽ có “cảm giác” khoảng cách cân nặng xa quá, và thêm buồn vì thừa cân: cũng cùng số ký lô, nhưng nỗi buồn nặng nề hơn 😅
(Thế đấy, ai “tin dùng” phương pháp cân đo của 2 cô bé này không?)
Communication Đáng chú ý hơn, trong bài nghiên cứu, Kenette và Shmueli cũng có nhắc đến câu chuyện TRUYỀN THÔNG các số liệu, khi mà BÁO CHÍ ĐẠI CHÚNG đã truyền đạt sai (về ngữ cảnh, giả định, hoặc đầy đủ thông tin số liệu) về một kết quả nghiên cứu nào đó. (Việt Nam đã chứng kiến rất nhiều vụ khủng hoảng truyền thông cũng từ đó mà ra với nhà nghiên cứu bị ném đá tơi tả, nhưng sẽ nghiêm trọng hơn nếu không có khủng hoảng mà chỉ có mọi người đều TIN vào điều sai kia)
Tóm lại thì, mình tin rằng data mindset rất quan trọng. Cho dù không phải người nghiên cứu về khoa học dữ liệu, thì hiểu về dữ liệu và “nhạy bén” với dữ liệu sẽ giúp rất nhiều cho việc hiểu về thế giới quanh mình.
.:: Cọp Giấy, tháng 9/2022 ::.
<chuẩn bị cho buổi học nhập môn Phương pháp Nghiên cứu>
Cô ơi, bây giờ ở VN gần là 1h30 sáng, em cũng đang học môn phương pháp nghiên cứu khoa học. Em lại bơi vào website của Cô để đọc và lại học được một điều mới. Em cảm ơn Cô nhiều, Cô giữ sức khỏe và học tập thật tốt, Cô nha!