為什麽我們看人總會有偏見?
萬維鋼 2020-03-01(原文出處)
什麽是“伯克森悖論”
今天咱們說一個不怎麽著名,但是應用場景很廣的統計學現象,叫“伯克森悖論”(Berkson’s Paradox)。
你可能沒聽說過這個名詞,但是你肯定聽說過下面的說法:
關蓉蓉是一位青年女性,有過幾次戀愛經歷但是都沒成。這一天,朋友給她介紹了一位各方面條件都很好的男子。可是關蓉蓉一看照片就拒絕了。關蓉蓉說:“我想清楚了,我要找一位性格好的暖男,可是這個人太帥了。以我自己的經驗和對周圍人的觀察而論,長得帥的男人性格都很差。”
秦奮是研究所的業務骨幹,能力一流但是有點木訥。這一次所里評職稱,秦奮給全所作了個報告,但是發揮的不是很好。所長徐治功說:“我們用人要用長板,不能因為報告沒講好就讓秦奮落選。以我這麽多年的經驗而論,不善言辭恰恰是智商高的特征。”
大學生鄧豫突然對文學產生了興趣,他決心發奮讀書,通過經歷虛構的故事迅速領悟人生的智慧。他向一位老師請教應該讀哪些人的作品。老師說:“你應該多讀一些小眾的作家。以我讀過這麽多書的經驗而論,像村上春樹這種特別流行的都沒啥深度。”
伯克森悖論是說,哪怕上面這些人的經驗都是真的,他們從經驗中總結出來的結論,也很可能是錯的。
理解這個悖論能消除你的一些偏見。咱們先說幾個常見的,再說一個高級的應用。
“ 相 關 性 ”
我們要借助“相關性”這個統計概念。經濟學家曾經做過很多次的統計,長得漂亮的人的收入會更高一些。那麽我們可以說,“漂亮”和“收入高”這兩個特性之間存在一個“正相關”。
相關性只是一種大致的關系,有些長得不漂亮的人收入也很高,但是在統計意義上,以社會總體而論,有這麽一個趨勢。
正相關,負相關和0相關
像智商和學習成績,性格外向和受到關注,這些都是正相關。反過來說,身高和體操之間可能存在一個“負相關”,因為身高太高的人不容易做出高難度的體操動作。
那麽關蓉蓉說的就是,“長得帥”和“性格好”之間,存在一個負相關。你在直覺上可能認為她說的有道理。你可能設想,長得帥的男子從小被寵著,肯定慣壞了;而長得不帥的男子從小受打擊,有利於磨煉好性格。
但是你這個設想沒道理。
我們幹脆假設,長得帥不帥跟性格好不好完全沒關係。你看看在這樣一個世界里,關蓉蓉會觀察到什麽。
下面這張圖(1)的橫坐標代表長得帥,縱坐標代表性格好。圖中每一個點代表一個青年男子。這些點的位置完全沒有任何規律,相關系數=0.
如果關蓉蓉考察所有這些男子,她一定不會認為長得帥的人性格不好。但關蓉蓉看到的不是這張圖。長得特別醜或者性格特別差的人根本就不會進入她的視野。
關蓉蓉考慮的對象、關蓉蓉關注的案例,都是長相和性格至少要有一定水平的人,也就是:
長相 + 性格 > 某個閾值
所以關蓉蓉看到的只是圖中右上角那個三角區中的人——
這些人突然有了個三角形的趨勢!因為三角形斜邊上的兩個角的存在,長得越帥的人似乎越容易性格比較差;性格越好的人似乎越容易長得不帥。性格和長相之間出現一個取舍。這正是負相關。
因為關蓉蓉只能看到這個三角形,所以她據此推測,一定有一種力量在摧毀帥哥的性格,也許他們從小被慣壞了。
可是這些點都是我們設計的。你一開始已經知道,這些點代表的性格和長相沒關系!我們根本沒安排什麽摧毀性格的神秘力量。
關蓉蓉的統計不全面。要想進入關蓉蓉的法眼,長相和性格都不能太低。有些人長相只能算說得過去,但是靠性格特別好也入選了;有些人性格屬於勉強還行,主要是憑長相入選——因為這兩種人的存在,使得關蓉蓉感覺長相好的人受到了性格的摧殘,關蓉蓉決心遠離長相好的人。
可事實上,如果你選定圖中長相得高分的一列點——比如只看“長相=0.9” 的人—— 你會發現性格出現在三角區中紅色線段上任何一點的可能性是完全一樣的。
看到別人長得帥就認為他性格不好,就會錯過長得又帥、性格又好的人。
當然我們設計的這些點並不能代表真實世界。真實世界中也許真的有“長得帥的人被慣壞了”這個可能性,也許沒有——但是我們證明了,關蓉蓉的觀測並不足以推出那樣的結論,關蓉蓉對帥哥的歧視沒道理。
你考察的範圍,會影響你的結論
伯克森悖論的常見形式,就是如果你對兩個特性有一個總體的閾值要求——這兩個特性哪怕沒關系,甚至哪怕原本可能還是正相關——在你考察的那個範圍內,也能讓你感覺它們有負的相關性。
為什麽很多人覺得學術水平高的人都不善言辭?跟關蓉蓉選男朋友是同樣的道理。一個人要想能進入學術界,業務能力和說話能力都得有才行,而且這兩個能力能互相彌補。既然已經進入了研究所,那就必然有的人水平高而不善言辭,有的人能說但是水平不算太高。但你不能說既然這個人講話能力一般,他水平就肯定極高——也可能他兩項加起來也只是勉強過線而已。
一個作家要被人所知,要麽他的作品特別有深度,讓評論家喜歡,要麽他的作品特別通俗,讓大眾喜歡——但這並不意味著流行的就肯定沒深度,更不意味著作家只要降低深度就能流行。事實上有很多號稱的嚴肅文學作品,雖然不流行,但是也沒深度。
像這樣的例子有很多:漂亮的女生都不聰明,顏值高的演員都沒演技,有特長的人必定有明顯短板,家里條件好的大學生必定不用功……這些都是伯克森悖論導致的偏見。
伯克森悖論和人們熟悉的“幸存者偏差”都屬於“選擇偏差”,出錯的根本原因都是你統計的數據不夠全面。
在統計研究中,你稍不小心,就會犯伯克森悖論的錯誤。
有一個真實的例子是這樣的(2)。有人統計了因為出車禍而被送進醫院急診室的摩托車手,發現戴頭盔的人所受的傷,反而比不戴頭盔的人更重。難道說因為戴頭盔的人開車更大膽,所以更容易受重傷嗎?不一定。
事實是很多戴頭盔的人因為頭盔的保護,而只受了輕傷,根本就無需進急診室。你考察的其實是“身體受到的保護”和“身體受到的傷害”這兩個因素——保護必須足夠小,傷害必須足夠大,才能讓這個人進急診室——這跟關蓉蓉關注的“長相 + 性格”是一個道理,所以你看到了不戴頭盔和受重傷的假的負相關。
我聽到一個有意思的例子來自中國的金融業(3)。如果你在銀行貸款信息中比較國有企業和民營企業,你會發現民企的效率比國企高。有的學者就把這個結論當真了。
但事實上“能拿到銀行貸款”是個很強的閾值,企業的“效率”和“風險擔保”這兩個因素必須都很好才行。國企有國家的隱性擔保而民企沒有,所以民企的效率必須得高才能拿到貸款——那個學者沒有統計那些拿不到貸款的民企。
“高分低能”可能只是錯覺
最後咱們再說一個有點不容易看出來的例子:高分低能。
Google是個非常善於使用統計方法的公司,經常弄個“機器學習”之類。大概是2015 年,Google把機器學習用在了自己身上,它想看看從哪些因素能判斷一個員工是不是個能幹的好員工。
Google經常會招一些各大編程競賽的獲獎者。而機器學習發現,在編程競賽中得過獎,恰恰是一個說明這個員工工作能力不行的因素。
這不就是咱們中國人常說的“高分低能”嗎?Google自己也沒想明白這是為什麽(4),它猜測可能是因為競賽優勝者更善於快速解決問題,未必適合長期的項目。
但是伯克森悖論可以完美解釋這個現象,高分低能很可能只是錯覺。
一個科技博客的博主,埃里克·伯恩哈德森(Erik Bernhardsson),是這麽分析的 (5):
如果你考察世界上所有的人,顯然編程比賽成績和實際編程能力是絕對的正相關,能在比賽中拿獎說明你必定是個編程高手。
在理想情況下,Google招人應該只看實際能力,而不管這個人是不是獲獎者,那麽它招到的人應該是下面這張圖中紅色的那些點——
圖中橫坐標代表實際能力,縱坐標代表比賽成績,每一個點代表一個程序員。Google的理想招法是在實際能力的某一個閾值上豎著切一刀,只要右邊那些點。
而對這些紅色點來說,比賽成績和實際能力仍然是正相關。你不看比賽成績招人也能招到很多比賽成績好的人,因為比賽真的能反映水平,這沒問題。
那為什麽Google招到的人中,比賽成績和實際能力是負相關的呢?因為Google在招一個人之前沒有辦法精確知道這個人的實際能力,它不得不把比賽成績作為一項重要參考指標,所以它招人其實是像下面這張圖這樣的——
就好像關蓉蓉考察潛在交往對象一樣,Google選擇的是分布圖中右上角的那些人。而對那些人來說,比賽成績和實際能力有個假的負相關,典型的伯克森悖論。
出現這個現象的根本原因是能進Google的已經都是優秀程序員。你拿優秀的人和優秀的人比,因為其中有些人是靠比賽成績突出而顯得優秀,所以你會產生比賽成績好反而能力弱的感覺。
其實就算根本沒有一個“比賽能力會削弱實際能力”的機制,僅僅是統計分布,就足以讓你產生這個感覺了。
所以“高分低能”是一個合法的感覺,但是是個偏見。當你面對一個成績特別出色的人才的時候,不應該假設他實際能力不行。
了解了伯克森悖論,下一次再聽說涉及到能力、人品、長相、運氣的各種“負相關”論斷,你都應該保持戒心。
生活中有很多這樣的民間智慧,比如什麽“寒門出貴子”,什麽“為富不仁”,什麽“仗義每從屠狗輩,負心多是讀書人”,什麽“殺人放火金腰帶,修橋鋪路無屍骸”,都十分可疑。
平庸的寒門子弟、遵紀守法的富人、沒有英雄壯舉的屠狗輩、忠誠的讀書人和安享晚年的好心人,他們的新聞閾值太低,他們的事跡沒有四海傳揚。
你必須把這些人都統計上,才能得出正確的結論。
注釋
1. 圖片來自 Chris Wallace, Berkson's paradox Or, the danger of conditioning on a collider. https://observablehq.com/@cjwallace/berksons-paradox Dec 5, 2019. 第二張圖中的紅色線段是萬老師畫的。
2. J. D. Woodfine and D. A. Redelmeier, Berkson's paradox in medical care, Journal of Internal Medicine 16 March 2015.
3. 可能出自“數據seminar”,《什麽是"伯克森悖論",這種現象在生活中有什麽影響?》,https://www.zhihu.com/question/317966300/answer/968386116 但原始出處已經不可考。
4. Peter, Being good at programming competitions correlates negatively with being good on the job, https://catonmat.net/programming-competitions-work-performance
5. Erik Bernhardsson, Norvig's claim that programming competitions correlate negatively with being good on the job, erikbern.com, 2015-04-07.
萬維鋼 2020-03-01(原文出處)