
看懂《數據、謊言與真相》,用正確數據理解世界
2025 Jan 16 批判性思考
日常生活上的任何事物都是數據,而且是直觀、很容易被發現的。例如小嬰兒開始不正常的哭,媽媽就會開始注意哭的頻率,這便是數據科學。當你打開YouTube看你最喜歡的YouTuber的影片,發現底下有酸民留言,而且還有不少人按讚,這也是數據科學。然而,數據真的那麼值得信任嗎?它能準確反映真相,還是可能被用來製造謊言?
在《數據.謊言與真相》一書中,Google數據科學家用豐富的案例帶領我們走進數據的世界,揭露其中的力量與陷阱。
你可能可以比別人更快得知趨勢
身處在數位時代,我們舒舒服服的就可以穿著睡衣睡褲,躺在床上問Google問題,甚至近兩年還可以用ChatGPT、Perplexity等AI工具,幫助自己在幾秒內就找到想知道的答案。
試想一下,1000年前的人們要怎麼解決問題?他們要到家裡附近的圖書館查找答案,或是問長輩、村裡的長者,甚至是飛鴿傳書寄信問住在其他地區的家人,這些方法所要耗費的時間短則幾個小時,長則可能要數個月!
對了,關於1000年前解決問題的方法,是我剛剛去問了Perplexity才知道的解答,如果沒有這些數位工具,我可能也只能去圖書館慢慢翻書了。
隨著網路越來越普及,大家都漸漸學會如何使用網絡工具,這些已經不再稀奇。跟搜尋相比,我覺得更厲害的是我們可能可以比別人更快的知道趨勢。
Google搜尋量是新類型數據最強大的招式之一。現在如果我們想要得知某個地區最熱門的東西是什麼,相較於從前只能用填問卷或是街訪的方式,現在只要到Google trend查一下就知道結果了。且我們可以加上任何的filter,如地區、時間區段、各種類別等等,甚至還能自動推薦相關的搜尋字詞,供研究人員深入參考。例如我在寫文章的當下,台灣過去24小時最熱門的搜尋關鍵字是「台股」,最高聲量的地方是台北市,再來是桃園市及台中市,我還能得知相關的關鍵詞有陽明海運、長榮海運、00929等,也就是搜尋了「台股」的人們也些還搜尋了這些關鍵字。
我們可以運用Google Trend得知哪些是大家越來越關心的話題。同理可知,如果有一個地區即將開始流行傳染病,那Google Trend上也會開始有一些關於這個疾病症狀的搜尋出現,例如「一直咳嗽該怎麼辦?」、「黃鼻涕該怎麼解決?」、「頭暈目眩該吃什麼藥?」……等等。Google專家做過研究後,證實關於症狀的搜尋量的確就是流感傳播速度的重要指標,兩者呈現正相關。除此之外,作者曾與Google首席經濟學家做過研究,他們發現當美國房價上揚時,美國人常會搜尋「八成/二成房貸」、「新屋建商」等字詞。而房價走跌時,美國人則會搜尋「虧本出售過程」、「房貸餘額超過房價」等關鍵字。
有時在Google trend上搜尋你關心的數據,或許也能比其他人更早看出一些端倪。
你所不知道的世界幸福國家排名研究方式
我們天天在用的社群媒體也是一種新的數據類型。我們可以從平台上得知誰在尾牙抽中頭獎、誰分手了、誰正在哪個國家旅遊等等的資訊,這些資料也給了數據科學家一個研究的方向。他們可以從社群平台上估計一個國家每天的國民幸福指數。如果使用者的發文偏向正面,那麼這個國家當天就是快樂的,如果近況更新傾向於負面,那麼這個國家當天就是悲傷的。他們還發現聖誕節是一年當中最幸福的日子之一。這種研究的方式對我來說簡直像是發現新大陸,從沒想過可以這樣使用數據。
用新類型數據揭露真相
舊有的方式還會有個很大的問題:誠實性。當受訪者被訪問時,會刻意隱瞞那些讓自己覺得難堪的想法,他們不想讓別人知道自己骨子裡在想什麼,就算問卷調查是匿名的,人們還是會想保持自己良好的形象,這就是為什麼男生總喜歡謊報身高,多報個幾公分都好,而女生偏好隱瞞體重,總是比實際再輕個3公斤。不願說出真相的情況也說明了為何2016年的民調普遍都看不出川普(Donald Trump)將當選美國總統。當時的民調低估了川普的支持率,誤差達到了兩個百分點,或許有些人覺得尷尬,不想表明自己其實支持川普。
數位時代的網路搜尋則是另一回事,人們在網路上查找資料時就像是吃了誠實豆沙包。原因也很好理解,因為如果他們不誠實地問想知道的問題,那肯定不會找到他們想要的答案。書中提供了一個非常有趣的數據,在美國,「色情」的搜尋量多過於「天氣」,在這個結果之下,只有約25%的男性及8%的女性承認自己看色情片。
搜尋量有時甚至比主流、權威媒體更可信。書中以2015年在加州發生的大規模槍擊案為例。當天晚上媒體報導了其中一個槍手的名字聽起來就是穆斯林,接著加州關於穆斯林的最高搜尋量就變成了「殺死穆斯林」,並認定是恐怖攻擊,這大大加深了大家的仇恨值。為了平息眾怒,當時的總統歐巴馬(Barack Obama)後來發表了一場演說,向美國人民保證政府可以保護大家的安全,阻止恐攻。演說完後各大媒體都稱讚總統的演說有多麼激勵人心,覺得民眾的怒火可以成功被壓下來,但根據作者及其他專家的研究,與穆斯林有關的所有負面搜尋卻都在演說後大幅增加。
社群媒體是大家吹噓的好所在
相較之下,社群媒體的數據就不若搜尋結果那樣的具絕對參考性。Facebook、Instagram、Twitter(X)這些社交工具的確是最強大的數據來源之一,但因為平台的社交性,讓人天生的想把自己最亮麗的一面展現給別人看。人們不僅想讓家人、新朋友、舊朋友看他們最近去了哪些國家,還想分享自己又去哪個高級餐廳吃飯。對了,他們不僅到處旅遊、吃美食,還是個文青,喜歡在咖啡廳裡邊喝咖啡邊翻看不懂的英文、法文書,好讓自己在照片裡看起來博學多聞、更有知識。在社群平台上,整個世界永遠是如此的美好,但下了線之後的世界到底有幾分真實?
我們回到上述說明的世界幸福國家研究方式,因為這些研究的來源是社群平台的發文,數據可能也帶有些許的偏誤,我們應該謹慎的面對這些資訊,或許就用輕鬆、茶餘飯後的娛樂心情來解讀即可。
數據跟批判性思考與偏誤的關係是什麼?
尋找正確的數據
縱使大數據那麼厲害,我們也不可一昧的埋頭苦幹,如果尋找的方向是錯誤的,那一切的努力也都是白費力氣了。書中提到了一個錯誤運用數據的故事—賽馬。
賽馬界,一直以來都深受各方富豪的喜愛,他們競標馬匹,以求在比賽中獲得好成績並得到高額的獎金(順帶一提,台灣也曾經有賽馬場,位置在現今的成功嶺),這有點類似博弈結合比賽的模式給他們帶來很大的娛樂,但是衡量馬匹的價值的方法,一直以來都是個很大的謬誤。他們慣用的方式是看馬的血統,這匹馬的爸爸、媽媽、叔叔、阿姨是否曾經得過冠軍,決定了他是不是冠軍血統,跟冠軍血緣越接近的價格就越高。
這或許看起來很合理,我們常聽到所謂的「書香世家」,也就是爸爸媽媽都讀台大,那他們的小孩高機率也會是台大畢業。基因是原因之一,但更大的因素或許是環境,因為小孩有適合讀書的條件,有問題就可以得到解答,再借鑑爸媽、哥哥姊姊的方法跟經驗,增加了他考上好學校的機率。
你知道Marcus Jordan嗎?他是籃球之神Michael Jordan的小兒子。他的籃球天賦不足已讓他進入爸爸曾經統治的NBA,而是在大學畢業之後開設服裝品牌店,銷售Jordan牌鞋子及服飾。他的基因讓他注定無法打進籃球最高殿堂,成為品牌經營者或許是更符合他的天命的工作
每個人有自己的天賦,強項也跟爸媽不盡相同,這不但打破了子承父業的傳統,也造就地球的多樣性。
回到前面的賽馬故事,一位評估賽馬的小公司負責人塞德(Jeff Seder),經過了許多觀察跟紀錄後,發現馬匹左心室的大小,就是能否成為賽馬明星的關鍵預測因素。另一個重要器官是脾臟:脾臟小的馬根本無法在比賽中勝出。他甚至將馬匹奔馳的幾千支影片數位化,發現某些步態確實跟在比賽中勝出有關。他發現有些兩歲馬匹跑了八分之一哩後,會發出喘氣聲,這種跑沒多久就發出喘氣聲的馬,不會是賽馬名駒。他曾經幫助埃及啤酒巨擘扎耶特(Ahmed Zayat)留下一匹不被看好、準備被他賣掉的馬,後來這匹馬成為30年內最強的三冠王。
這告訴了我們尋找準確數據的重要性,在決定什麼才能當成數據時,必須保持開放的態度並懂得變通,尤其在一個傳統方法效率極差的領域,你就有機會用新數據帶來改變。
小心使用數據
除了尋找正確的數據,還要小心使用數據,不管是大的還是小的。寫到這裡,我們已經瞭解到了新型態的大數據有多麽美好,不僅能提供新的角度,也能讓我們檢視誠實的想法。但整個世界要是有那麼簡單就好了,如果使用Google Trend就能預測接下來所有的經濟走勢,那大家不就都變成少年股神了?
儘管大數據十分有用,但還是會有些疏漏,終究還是得搭配小數據相輔相成。
上述提到的賽德運用大數據挑選賽馬名駒的故事,其實他的公司還有位員工是他的秘密武器,這位員工「喜歡馬勝過於人」,她熟悉各種傳統評估賽馬的方式,包括親自檢查馬匹、看他們走路的姿態、評估身上的疤痕等等。運用傳統的小數據加上賽德新的大數據,讓他們得以找出勝出機率最高的馬匹。
大家熟悉的樂高(LEGO)的故事也告訴我們小數據的重要性。在2004年前,樂高公司太依賴大數據來做決策。誤以為消費者就是單一的越來越追求及時滿足,所以推出了更大更簡單的積木,以便用戶能快速完成得到滿足。然而這項決策卻失敗了,讓公司在聖誕期間銷售額暴跌31%。後來樂高組織了一個小團隊,深入用戶家庭進行實地觀察跟訪談,希望能更真實地貼近消費者。關鍵案例是一位11歲的德國男孩,他對一雙磨損的滑板鞋感到很自豪,代表他經過了許多的扎實的訓練,證明他是一位優秀的滑板選手。這個案例讓樂高重新專注核心價值,些微增加了樂高玩具的挑戰性,激發消費者的創造力,也讓用戶在建造完後得到很大的滿足感。這幫助了他們的業績止跌回升,重塑品牌形象。
讓數據幫助你理解世界
不只是公司運籌帷幄需要看數據,當我們在日常生活中接觸報導、文章、Line群組中看到某些數據,也應該先問自己這些數據是否為真,尤其在資訊戰盛行的這個時代,數據可能被刻意操控或斷章取義。因此當我們因為好奇而去查找任何資料時,還是必須培養批判性思維,隨時質疑數據的來源、背後的動機。
跟數據互動時,要擁有提出好問題的能力。數據就像是雙面刃,問對了問題,它能化身為火箭,幫助你展翅高飛;找錯了方向,它也可能把你拖垮,就像是樂高公司當年曾因策略偏差陷入財務危機一樣。
數據為我們提供了前所未有的洞察力,但也可能帶來誤導甚至偏見。若能擁有批判性思維、好奇心,搭配正確數據的幫助,定能大幅提升我們對世界的理解。