《精準預測》,預測什麼?(1)
《精準預測:如何從巨量雜訊中,看出重要的訊息?》是Nate Silver於2012年出版的作品,2013年9月中譯版上市。雖然書名翻譯為「精準預測」,但是原文書名是《The Signal and the Noise: Why So Many Predictions Fail—but Some
Don’t》,意即探討訊息、雜訊與預測成功與否之間的關聯性。
書中細分為十三章節,連同結論為十四等份,藉由預測失誤、電視名嘴現象、天氣預報、人工智能、棒球運動、德州撲克……等等項目來談統計學、談貝式定理、談「如何從巨量雜訊中,看出重要的訊息?」。
(IBM)公司指出:「2011年,全球網路人口突破 20億大關、手機用戶已達 40億人以上,還有超過一兆個彼此連結的設備。在這樣的背景下,資料以前所未見的速度快速增加,而且,未來 10年間全球資料量預計還將成長 44倍,也因為如此,現在無論哪個領域,幾乎都已出現因資料過於繁複而衍生海量資料(big data)問題。」
海量資訊(big
data)出現所誕生的新問題是,我們要如何面對與處理?這是一個幾乎超乎人腦能理解的龐然大物。在《精準預測》裡Nate Silver試圖以預測的角度來談資訊處理,談人類對資訊理解的速度趕不上資訊產生的速度所出現的矛盾要如何應付。
第一章:慘烈的泡沫危機
本章節以美國次貸危機為題來述說糟糕的預測將帶來怎樣慘烈的後果:除了衝擊美國本土房市,引起信用緊縮等問題之外,更引發了2008年金融海嘯,產生了世界級的金融危機。
在這一章節,探討漠視風險與信評錯估,甚至有些人性較陰暗一面的成分在。當信評失準,資產槓桿加上槓桿越舉越大後,投資人、信評機構與各銀行集團已無法按下終止鍵。大家都知道氣球總有撐破的那一天,但沒想到會嚴重到引發金融海嘯。
作者在這張所列舉的圖示1-7精確與精準特別有意思,以靶紙與彈痕來比喻,淺顯易懂地讓人了解追求精確下產生的錯誤信心(無法擊中靶心的神射手)。當精確的預測偽裝成準確的預測,連當時強大的美國經濟都因此動搖。
書讀自此,不禁眉頭緊皺,冷汗涔涔。
當然,我們可以事後諸葛地放馬後炮。如同作者所言,如果當美國信評機構(如書中的穆迪公司)面對次貸這樣的新產品出現時能擴大樣本,好比參考日本房產泡沫後極高的違約率,以信評機構的能力應該能大幅修改評估方式,至少能更貼近這個新金融商品該有的風險。
第二章:刺蝟、A型人格與名嘴
本章節談到政治預測,諸如薦舉候選人、當選機率、選票分布等等。並藉著美國政論節目:《麥克勞夫林團》中名嘴談論政治的現象,來討論作者所列舉個兩種人格特質:「狐狸與刺蝟」:雖然兩者皆是人格特質,而且並無好、壞之分,但從預測層面來講有「強、弱之別」。
刺蝟代表堅持、單一、自信,像個獵人追尋目標;狐狸代表包容、多元、謹慎,像一位採集者,收納各種樣本。刺蝟或許看來強烈、武斷、大膽而吸睛,但是狐狸的多元包容使他們更貼近事實(母體)。
可惜當群眾的目光被聚焦在刺蝟身上的時候,經常成功預測的狐狸便彷彿不存在了。
但是,刺蝟們把「事實和價值觀全部堆在一起,弄成模糊難辨的混合體」。他們用有偏見的眼光看待證據,僅看到他們想要的東西,而不是真實的存在。政治預測面臨「黨派意識問題」的時候,刺蝟容易因此若入陷阱,做出他們想要,而非接近事實的預測。於是,武斷、大膽而吸睛卻失去準度的言論頻繁從刺蝟嘴裡出現。
於是,我們知道像狐狸一樣思考是更好的預測「態度」,像是用機率思考、今天的預測就是我們餘生的第一個預測、盡可能尋求共識……等等。如同書裡所言:
狐狸般的預測者會看清,在預測世界的進展時,人類的判斷有不足之處。知道這些不足之處可以幫我們多做一些正確的預測,畢竟「要客觀並不容易」。
第三章:在棒球之前,只論輸贏
本章節以棒球為例,談運動預測,也算是《魔球》這本書發表之後的後續更新。《魔球》談到球探與統計專家的戰爭,可能越來越多老球探工作不保,但真的是這樣嘛?《魔球》出版後的十年,2004年紅襪隊在相隔86年之後贏得世界冠軍,就是同時注重統計與球探融合方式的成功展現。
此外這個章節也解答了一個問題,為什麼棒球比較容易透過統計機率預測?棒球提供的資料集也許是全世界最豐富的:過去一百四十年來在大聯盟球場上發生的事差不多全部都有人見則而精準的記錄下來,每年在大聯盟還有數百位球員在打球。
雖然棒球是團隊運動,但是棒球又是用非常有條理的方式進行:投手輪值投球,打者按打擊順序輪流上場,選手們都要為自己大部分的統計數字負責。如此,比較少牽涉到相對複雜、非線性的問題,要理出因果關係相對容易。
雖然我不怎麼關注棒球運動,但透過作者舉例還是可以理解做預測的關鍵在於發展工具和習慣,讓我們能經常地到達正確的地方蒐羅想法與資訊。透過資訊革命,球探與統計學的戰爭已經結束,整合的新時代已然展開。
第四章:最為準確的是天氣預報?
本章節以氣象預報為例,作者試圖展現人類聯合機器,通力合作來了解大自然的奧秘與複雜。但是有時我們預測大自然的方向,卻無人願意接受的時候,預報本身毫無意義,書中所列舉的卡崔娜颶風所造成的強烈風災便是例證,人類智慧與人為錯誤半點不矛盾地並存。
所有預測都帶有機率,即使是漸趨準確的氣象預報也不例外。「不確定性是氣象預測中的根本要素」、「要在一堆機率資料裡面下決策,要撤離嗎?是非題不是機率,這對地方管理人員造成很大的困難」將機率轉換成決策,從來不是一件容易的事情。
但是,一位預報員應該撇除個人榮譽、政治利益……等等因素,盡力做出最好的預測。但是,作者說,在其他領域的預測人員卻很難做到。
「人為」錯誤一直站在逐漸進步的技術對面,使勁的與之拔河。我想這也是本章節所要強調的重點。
第五章:訊號在哪裡?
上一章談颶風,本章節以地震為例來談預測。有別於氣象,我們對於地震的認識並不如氣象。並不是因為地震是地底發生的事情,而氣象只要抬頭就看得到。而是超級地震跟超級颶風相比,發生的次數實在稀少。我們應該感到慶幸,卻又苦於資料量不足。未能預測小型地震,跟漏失一個超級地震,將帶來天差地遠的結果。
於是,有限的資料變得極為重要,正因為太重要。所以產生了作者點出的另一個人為錯誤:「過度配適」,將雜訊也當成了訊號,卻忽視真正重要的那一個,導致對比真正的關係上出現更大的落差。更糟糕的是,與氣象預報相同,地震預測的結果也需要跟政治角力,這又增多了錯誤的可能性。
然而我們是可以樂觀期待的,雖說近千年以來地震預測幾乎沒有準確過,但氣象預報的精確性大幅度上升也是這幾十年來的事情。隨著技術進步與資料的累積,原本視為不可能的事情終會出現一線曙光。
第六章:經濟預測
這一章講述經濟預測,以美國經濟體來舉例。說實話並不容易懂,因為實際的經濟運作,其複雜程度不亞於氣候運作。
就其結論來說,面對這樣龐大、複雜且活生生的東西時,傳達其不確定性與審慎面對各種偏誤以及誤差範圍變得很重要。反過來說,當我們不願意面對固有風險,不願意讓預報員完整說明時,危險不會就此消失,而是會藏到經濟體裡,或者其他地方去。
第七章:模擬、模型與極限
本章節以流行性感冒之預測來談模型之於預測的重要性,並談到幾個應該避開的人為錯誤,例如自我實現與自我取消。
然而模型終究有其極限,宇宙模型無法取代真實宇宙。又好比書中的流感預測模型,「愚蠢的模型會帶來致命傷害」,尤其是醫學這樣對人命直接負責的領域,使得他們更加審慎的面對這種極限。
重要的是,模型再好用,也只是一種工具。謹慎的態度,也是統計學應用於其他領域做預測時必須好好參照的。
留言
張貼留言