Paper Evaluation · October 13, 2022 0

“Sự thiên vị trong thuật toán thì dễ sửa chữa hơn thiên kiến của con người”

Nguyên văn tiêu đề này là Biased Algorithms Are Easier to Fix Than Biased People của tác giả Sendhil Mullainathan (Gs. trường Chicago), bài đăng trên NY Times năm 2019. Bài này mượn kết quả của một nghiên cứu 15 năm trước đó của nhóm tác giả Bertrand (2004) Are Emily and Greg More Employable than Lakisha and Jamal? A Field Experiment on Labor Market Discrimination.

Chủ đề của bài viết trên NYT và bài nghiên cứu này xoay quanh vấn đề phân biệt đối xử trong thị trường lao động nói riêng (và trong xã hội nói chung). Đó là khi nhóm tác giả Bertrand đã làm một nghiên cứu thực nghiệm trong gần 1 năm tại hai thành phố Chicago và Boston (Mỹ). Họ thu thập các tin tuyển dụng trên hai tờ báo lớn của hai thành phố này, sau đó gởi hồ sơ tuyển dụng đến các công ty đó và ghi nhận xem công ty nào sẽ gọi họ đi phỏng vấn tuyển dụng.

Nghiên cứu thực nghiệm này được thực hiện xuyên suốt từ tháng 7/2001 đến tháng 1/2002 tại Boston, và kéo dài hơn đến tháng 5/2002 tại Chigago. Đây là một random field experiment (tức là một nghiên cứu thực nghiệm được thực hiện bên ngoài phòng thí nghiệm). Các công việc tuyển dụng tập trung vào 4 nhóm ngành nghề chính để quan sát, và những công việc nào yêu cầu ứng viên trình diện khi nộp hồ sơ thì sẽ bị loại khỏi nghiên cứu.

Họ muốn đo lường xem phản ứng của các công ty như thế nào khi bộ hồ sơ có TÊN GỌI “nghe như là” của người da trắng (White, W) – người da màu (Africa-American, AA). Vì vậy, nhóm nghiên cứu đã cẩn thận chuẩn bị một bộ các danh tính “giả” cho các hồ sơ ứng cử công việc. Tên được tuyển từ danh sách khai sinh trẻ em trong 10 năm, lọc các tên phổ biến, rồi làm interview để xem mọi người đoán ra được tên đó là của người da trắng hay da màu hay không. Ngoài tên giả, các yếu tố khác trong hồ sơ được làm trông như tự nhiên nhất có thể. Mỗi công ty như vậy sẽ “được” nhận 4 bộ hồ sơ “ảo”: 2 bộ với tên gọi giống người da trắng, và 2 bộ với tên gọi giống người da màu. Tại sao lại là 2 bộ? Vì đây là ứng viên tuyển dụng lao động, chất lượng hồ sơ là một yếu tố quan trọng. Vì vậy, cần một bộ “chất lượng cao” và một bộ “chất lượng thấp”. Số điện thoại và email cũng được làm “thật” để nhận tin báo gọi đi phỏng vấn.

Nghiên cứu này chỉ đo lường các callback, tức là cuộc gọi phỏng vấn nhận được. Tất nhiên rồi, chẳng có ai đến dự cuộc phỏng vấn cả (các bạn HRM chắc không thích điều này đâu)

Kết quả, rõ ràng là các ứng viên có tên-gọi-nghe-như-là-da-trắng được gọi nhiều hơn. Ước tính trung bình 10 hồ sơ với tên-có-vẻ-trắng thì có một cuộc gọi đi phỏng vấn, trong khi tên-có-vẻ-màu-đen thì cần 15 cuộc. Một phát hiện khác quan trọng không kém, đó là trong khi hồ sơ chất lượng cao + xuất thân ở vùng “chất lượng cao” giúp cho các hồ sơ với tên-có-vẻ-trắng có cơ hội được gọi cao hơn. Nhưng với tên-có-vẻ-đen thì chất lượng cao hay thấp, xuất thân vùng có-học hay ít-có-học không hề giúp cải thiện tỷ lệ cuộc gọi này.

Kết quả có vẻ rất rất gây tiếng vang. Nhất là với các yếu tố chính trị có liên quan trong nghiên cứu khoa học xã hội (mà trong đó chủ đề phân biệt đối xử chủng tộc hình như chưa từng hết “nóng”) thì nghiên cứu này ủng hộ cho giả định rằng có một sự thiên kiến trong tư duy của các nhà tuyển dụng. Dù hồ sơ không hề ghi MÀU DA, còn quốc tịch tất cả đều là AMERICA, nhưng chỉ cần cái tên có-vẻ-dường-như là trắng hay đen thì đã có tác động rồi.

Nhóm tác giả cũng đã thử kiểm định các yếu tố khác như mức độ yêu cầu của công việc, chất lượng của công ty tuyển dụng, hoặc chính sách bình đẳng trong môi trường làm việc của công ty đó. Nhưng kết quả cho thấy những yếu tố này không ảnh hưởng rõ ràng và không đáng kể trong thực nghiệm này.

Vậy mà khi phân tích kỹ thực nghiệm này, có rất nhiều vấn đề để bàn.

CONFOUNDER* – NHỮNG BIẾN THỨ 3

*tức là ngoài biến “tên trắng tên đen”, thì còn biến quan trọng nào tác động vào gây nên kết quả của sự khác biệt này (mà nhà nghiên cứu đã bỏ qua) hay không. Nếu chỉ nhìn riêng nghiên cứu này, thì confounders có thể là một dạng “mix” nào đó của cái tên. Các tên mix mix này có thể gây nhầm lẫn. Còn nếu nhìn chung, thì các dạng nghiên cứu này thường có một confounder rất phổ biến, đó là chính tác giả đã “biết” trước kết quả nghiên cứu rồi. Nó rất dễ dẫn đến sự quan sát thiên lệch, hoặc diễn giải kết quả thiên lệch. Nó cũng có nghĩa rằng chính nhà nghiên cứu đã tác động vào cả nguyên nhân & kết quả của mối quan hệ nhân quả này (khi mà cả chính tác giả cũng không nhận ra).

Và với các confounder như vậy, câu hỏi đặt ra là:

(1) Nguyên nhân (cái tên gọi trắng – tên gọi đen) có phải là một biến thực sự liên quan?

(2) và có tác ảnh hưởng nhân quả đến kết quả tuyển dụng không?

Ngoài confounder, thì việc thách thức với bất kỳ nghiên cứu thực nghiệm nào khác, chính là chuyện làm sao để phổ quát kết quả này thành một lý giải hợp lý (một lý thuyết).

SỰ KHÁI QUÁT HOÁ

Internal Validate

Thứ nhất là, liệu yếu tố “cái tên nghe như là trắng”, và “cái tên nghe như là đen” có đủ để khái quát lên thành “người da trắng”, “người Mỹ gốc Phi” hay chưa? Câu hỏi cũng chính là câu trả lời. Rõ ràng, khái niệm “người Mỹ trắng” và “người Mỹ gốc Phi” đang không được đo lường một cách trực tiếp, mà gián tiếp qua một construct khác. Vậy, với construct gián tiếp này, có thể khái quát hoá lên rằng “tên gọi” chính là “chủng tộc/ màu da” hay không?

Thứ hai là, kết quả đo lường tuyển dụng chỉ đo được đến số lượng cuộc gọi đi phỏng vấn mà thôi. Mà chuyện đo lường hiệu quả thì rất dễ để hiểu rằng không phải cứ được gọi đi phỏng vấn nhiều là cơ hội trúng tuyển cao. Giống như bán hàng vậy, không phải nhiều người biết thông tin thì sẽ có nhiều người mua.

Vậy thì ở đây, cả biến nguyên nhân và biến kết quả đều được đo lường gián tiếp hoặc không đầy đủ để có thể giải thích cả một khái niệm. Chưa kể nếu suy diễn cao xa hơn, thì ai mà biết “quy trình” tuyển dụng đó đã diễn ra như thế nào. Có khi cái tên đã bị gỡ ra khỏi bộ hồ sơ khi đọc hồ sơ hay không?

External Validate

Chuyện này thật thách thức cho tất cả các nghiên cứu thực nghiệm. Khi nhà nghiên cứu đã có kết quả thực nghiệm trên một nhóm người này, dựa trên quan sát những yếu tố này tại thời điểm này. Thì sau đó, liệu có thể khái quát gì về nhóm người kia ở những yếu tố khác tại thời điểm khác và địa điểm khác. Giả sử cũng vẫn ở nước Mỹ, nhưng là vào một đời tổng thống khác, tại một bang Xanh-Đỏ nào khác thì kết quả sẽ vẫn thế này chăng?

Mình nhận ra rằng, phải hết sức cẩn trọng khi khái quát hoá như thế, đặc biệt là khi internal chưa validate được.

FLAW

Một lỗ hổng lớn trong nghiên cứu này đã không được nhắc đến. Đó là sự kiện ngày 11 tháng 9, với cuộc khủng bố gây chấn động nước Mỹ khi toà tháp đôi sụp đổ. Sau đó Muslim hay Islam hay bất kỳ cái gì có vẻ có liên quan đến như là chiếc khăn, màu áo quần,… và cả cái tên đều gây sợ hãi (và tức giận). Không chỉ trắng, mà có cả vàng, đỏ, đen gì cũng có sự chú ý vào sự kiện này. Trong số những tên-có-vẻ-đen của nghiên cứu này, liệu trong đó có bao nhiêu tên giống giống như là Muslim. Hoặc có bao nhiêu nhà tuyển dụng, không phân biệt được các tên, mà chỉ có thể nhận ra được tên-người vs. tên-giống-khủng-bố?

Tác giả không nói, và chẳng bao giờ nhắc đến điều này trong nghiên cứu của mình. Một lần nữa cho thấy, THỜI GIAN – THỜI ĐIỂM luôn có thể là một biến quan trọng của bất kỳ nghiên cứu nào.

Mình mượn câu chuyện kết bài báo trên NYT để làm kết cho bài của mình.

[Tác giả có một kỷ niệm tuổi thơ khi cả nhà trang điểm, chuẩn bị, háo hức ra tiệm chụp ảnh để chụp gia đình. Nhưng công nghệ của chiếc camera thời đó & thợ chụp ảnh đã thiết đặt để chụp màu da trắng, nên các bức ảnh của cả gia đình đã thành “thảm hoạ” vì chỉ có hàm răng trắng là hiện ra.]

Và đó sẽ là một vấn đề khác. Việc sửa một máy ảnh không-chụp-được-làn-da-sẫm-màu sẽ dễ hơn nhiều so với việc sửa một nhiếp ảnh gia không-nhìn-thấy-những-người-có-làn-da-sẫm-màu.

Sendhil Mullainathan, Biased Algorithms Are Easier to Fix Than Biased People

Vậy đó, các phép tính toán định lượng có thể sửa, nhưng nghiên cứu này thì có thể sửa như thế nào?

⭐Paper Evaluation là một phần của môn Research Methods. Mỗi tuần, lớp mình sẽ cùng nhau uống trà và phân tích 1-2 papers khác nhau, để cùng học hỏi. Tuần này, phân tích xong cô giáo cho thêm sô cô la mint. Mình gọi đó là sô cô la của sự hạnh phúc, vì năng lượng đang tích cực quá.🙆‍♀️