書摘試讀--西瓜數據配適《不敗的數據學》 @ 臉譜出版部落格

挑選西瓜常用的方法是敲敲看，然後挑選聲音特別響亮的，這種聲音顯然產生自恰到好處的西瓜果肉特質。有了適當的量測工具，應該就有可能運用統計數字找到一個演算法，讓我們能夠從敲出的聲音預測任何一顆西瓜的成熟度。

我對這個問題格外感興趣，因為我曾經很想一探究竟，架了電路把一個很炫的加速器接在我的電腦上，好讓我能夠記錄西瓜的聲響。不過我只試了八顆西瓜——數據少得根本不足以做出準確的瓜熟預測系統。因此當我偶然看到一篇聲稱能準確預測西瓜成熟度的論文時，可以想見我多麼興奮：那篇論文中的聲音量測結果，能夠預測出99.9％的成熟度變化。

但我們來思考一下。在這項研究中，專家小組試吃了四十三顆西瓜，然後用成熟度1到5分為西瓜評分。他們用迴歸來預測各種不同聲音量測值的成熟度評分。迴歸方程式的準確度怎麼會這麼高？假如讓專家小組重新評分一次，可能也不會與「他們自己原先的評分」99.9％相符。主觀的評鑑不會那麼始終如一。無論多麼高明的程序，都不可能預測得這麼準確。

應該是有什麼地方弄錯了。我們仔細評斷一下他們所用的方法。

他們讓每顆西瓜以1到1,000赫的頻率振動，然後測量每個頻率下的相移（phase shift，基本上就是振動在西瓜裡傳遞所花的時間）。受測試的頻率有一千六百種，所以迴歸模型中有一千六百個變數，每一個變數與成熟度的關係都必須估計出來。

現在，有了比西瓜數還要多的變數，我就能配適一個「完美的」迴歸模型。正如任兩個數據點之間可以找到一條完美的配適直線，我們可以用一個有四十三個變數的方程式，完美配適四十三顆西瓜的量測值。這是嚴重的多此一舉。就算聲響與成熟度之間沒有任何關係，我也能配適一個100％準確預測四十三顆西瓜的迴歸方程式，它不單只會表明聲響和成熟度的實際關係（如果真的有關係存在），還將說明個別評分與量測值的隨機變化。我相信這個模型會完美配適——但若拿新的西瓜來測試，由於西瓜本身的量測誤差及主觀評價的因素，這個模型可能就不堪用了。

該研究的作者群設法用逐步迴歸（stepwise regression）避開這個問題，逐步迴歸是常用來選出迴歸中哪些變數最重要的程序，最簡單的形式是這樣的：一千六百個頻率量測值都先不用，做一千六百個假設檢定，判定哪個頻率與結果的關係最具有統計顯著性；加入這個頻率，接著再對其餘一千五百九十九個重複做這個步驟。繼續進行這個程序，做到沒有具統計顯著性的頻率為止。

逐步迴歸在許多科學領域上雖然很常用，但通常不是上策。你可能已經察覺到問題了：多重比較。可想而知，如果只加入具統計顯著性的變數，就避開了過度配適，不過要做這麼多顯著性檢定，勢必會製造很多偽陽性，所以你所選的一些變數將會是虛而不實的。逐步迴歸程序不保證總體偽陽性率，也不保證選出「最佳」變數組合，不論你怎麼定義「最佳」。（別的逐步程序則採用其他標準，而非統計顯著性，但還是會碰到很多同樣的問題。）

因此，儘管有統計顯著性的掩飾，逐步迴歸仍然容易受「過度配適」影響，產生出的方程式雖然跟數據配適得近乎完美，但在拿單獨的數據集來測試時卻有可能證實是無用的。為了測試，我隨便找了一些與成熟度根本零相關的西瓜量測值來模擬，然而逐步迴歸卻以99.9％的準確度跟數據配適。有那麼多變數可選，沒做出這麼高的準確度才令人意外。

逐步迴歸多半不會用在這般極端的情況，鮮少有一千六百個變數可供選擇，但即便是帶有幾十個變數的一百個觀測值，逐步迴歸依舊會產生誇大的準確度估計值與統計顯著性。

「真實性膨脹」是更隱微的問題。要記住，「統計上不顯著」的意思並不是「沒有任何效應」。你的研究如果檢定力不足、有太多變數可以選但數據太少，那麼你的數據可能就不足以讓你很可靠地辨別出每個變數的效應。只有當你運氣夠差、高估這些變數對結果的效應時，你才會把它們加進模型。（即使不用正規的逐步迴歸程序，也常常為了簡化模型，丟掉「不顯著」的變數，而引發同樣的問題。）

逐步迴歸有幾種形式。我在前面描述的版本稱為「向前選取」（forward selection）程序，因為它是從頭開始納入變數。另一種叫做「向後消去」（backward elimination）程序，一開始就放入所有一千六百個變數，然後每次剔除一個不具統計顯著性的變數。（在這個例子裡可能沒辦法做到：由於變數有一千六百個，但西瓜只有四十三個，因此沒有足夠多的數據來判定全部一千六百個變數的效應。在第一步你就會卡住了。）加入新變數所用的標準也可以變更；比較近代的程序不是用統計顯著性，而是改用像是赤池訊息準則（Akaike information criterion，日本統計學家赤池弘次創立發展，評估統計模型的複雜度和衡量統計模型「擬合」資料的優良性的一種標準）、貝氏訊息準則（Bayesian information criterion）等度量，這些準則不利於帶有較多變數的模型，由此減少過度配適。其他的形式則會根據不同的標準，在每一步增減變數，這些形式沒有一個會保證做出同樣的答案，所以針對相同數據的兩種分析結果有可能非常不一樣。

對於西瓜研究，這些因素綜合起來就會產生準確得難以置信的結果。迴歸模型該如何公正評定，避免這些問題？有一種做法是「交叉確認」（cross-validation）：只用一部分西瓜去配適模型，再測試這個模型預測其餘西瓜成熟度的成效。倘若這個模型過度配適，它在交叉確認過程中的表現會很差。有個常用的交叉確認方法是「留一交叉確認」（leave-one-out cross-validation），僅留一個數據點去配適模型，然後評判此模型預測該點的能力；對依次留下的其餘數據點，也重複做這個程序。西瓜研究聲稱他們做了留一交叉確認，但仍得到同樣難以置信的結果。我沒辦法看到數據，所以不確定這個方法是否真的有效。

儘管有這些缺點，逐步迴歸仍然很流行。它是直覺上很吸引人的演算法：選取那些有統計顯著效應的變數。不過，單獨選一個模型通常太過自信而顯得愚蠢。有那麼多變數可以選，通常也就有很多種變數的組合，會產生幾乎一樣好的預測結果。假如我要再挑四十三顆西瓜來測試，大概就會從一千六百種成熟度聲音預測變數中，選出與前次不同的子集。逐步迴歸會產生令人誤解的必然性——即斷言這二十或三十個變數正是成熟度的預測變數，但其他幾十個變數也能擔此重任。

當然，在某些情況下我們也許有理由相信只有少數幾個變數會影響結果。譬如你可能在找出導致某種罕見癌症的基因，而且有上千個候選基因，但你知道只有少數幾個是病因，這麼一來，你感興趣的就不是做出最佳預測，而是只想確定始作俑者。逐步迴歸還不是最好的工具；「最小絕對緊縮與選擇算子」（least absolute shrinkage and selection operator，縮寫為lasso，這個字有「套索」的意思）具有更好的數學性質，不會靠著宣稱統計顯著性來愚弄使用者。不過，「套索」並非刀槍不入，沒有完美無缺的自動化解決方案。

《不敗的數據學》從統計數字中看見真相的12堂思考訓練，不被造假及濫用的數字唬弄!

出版時間︰2018.03.15
作者︰艾力克斯‧萊因哈特 (Alex Reinhart)
定價︰380元

★★從謊言到武器，用統計的語言來思考，在複雜的資料中找出秩序與意義★★

1個數據，2種解答！如何聰明選擇數據？如何把數據藏起來？

如何將數據屈打成招？怎麼知道某個成果是靠操弄數據得來的？

如果知道有多少人的統計分析其實做錯了，你還會相信所謂專家學者的研究嗎？

★令人瞠目結舌的統計手法實證案例，從科學發現、經濟生活到日常的數據學

★做對分析、避免陷阱，讓你讀懂每一個數字，思考判斷不出錯

★數據分析網站、著名統計學家強力推薦，從此改變你對統計的看法，決斷無懈可擊

――――從本書中可以學到――――

●透視研究者竄改數據的手法，揭露捏造成果取信大眾的伎倆

●如何看穿不可信的資訊，找出遺漏的細節，避免偏誤

●問對問題，做對實驗設計，選對統計分析方法，然後堅持到底

●如何思考p值、顯著性、非顯著性、信賴區間和迴歸

●正確選擇樣本大小，避免偽陽性

●報告你所做的分析，發表你的數據和原始碼

●可依循的程序，可採取的防範措施，可用的分析軟體

▌統計會犯錯！我們需要蒐集多少數據才能看清現實的真貌？

優秀的研究帶來科學進展，而有好的統計分析才有優秀的研究。但統計分析要做得正確並不容易，就連最優秀、最聰明的人也不例外。如果你知道有多少科學家的分析其實做錯了，可能會嚇一跳。

資料分析是科學的基礎，也是數據時代鋪天蓋地襲來的浪潮。統計學提供了威力強大的工具，能夠在最複雜的資料裡找出秩序與意義。但在這些以科學之名進行的研究分析和理論中，究竟潛藏了多少極不應該出錯的謬誤？

數據解讀錯誤對現實世界的重大影響超乎想像。醫學臨床試驗主導了我們的醫療照護，確定強效新處方藥的安全性，犯罪學專家評估降低犯罪的不同方法，流行病學家設法減緩新疾病的傳播，市場行銷人員和業務經理努力找出最好的產品銷售方式——這一切歸結到底都是統計。但卻經常是做錯的統計。

▌透視謬誤的原形，「統計」讓你不失敗！

「謊言、他媽的謊言、統計數字」，很多已發表的研究結果屬於這三種謊言當中的一種。製藥產業似乎特別想要忽視那些證明自己的藥品沒有療效的已發表研究，來讓證據產生偏誤。遺漏的數據和刊登偏誤歪曲了我們對重要議題的見解。就連做得正確的統計分析也不可信任。藉由大量的技巧和分析方法，「將數據屈打成招」非常容易。如果沒有通靈能力，我們幾乎不可能知道某個「成果」是不是靠操弄數據得來的。

本書列舉大量案例，揭露資料分析中的謬誤有多麼常見，並以清晰明瞭的推理來說明這些錯誤是怎麼產生的，又應該如何避免。書中將檢視令人尷尬的統計錯誤和疏漏，深入了解導致這些疏失產生的誤解和科學政治，最後開始改進做統計分析的方法和看穿數據真相的方式。

任何需要做數據分析、不想被數字唬弄，以及所有想了解如何讓統計這項分析工具發揮最大效益的人，都應該讀讀本書！

【對本書的讚譽】

「珍貴的小書……很精采，門外漢也能讀懂。」

──阿爾伯托．開羅（Alberto Cairo），邁阿密大學計算科學中心視覺化計畫主任

「如果你分析帶有規則性的數據，但不確定分析得對不對，請來讀這本書。」

──邱南森（Nathan Yau），數據流網站（FlowingData）

「有趣又豐富的指南……清晰明瞭的彙整。」

──約翰．沃斯（John A. Wass），《科學計算》期刊（Scientific Computing）

「我絕對會向對醫學統計有興趣的人，以及不喜歡統計的醫學系學生或醫生推薦這本書！」

──卡緹．邦斯博士（Dr. Catey Bunce），摩菲眼科醫院國民醫療服務基金信託（Moorfields Eye Hospital NHS Foundation Trust）首席統計學家

「我非常喜歡這本書，也打算跟許多學生分享……精采極了。」

──妮可．拉齊威爾博士（Dr. Nicole Radziwill），詹姆斯麥迪遜大學（James Madison University）整合科技系助理教授

「我希望每位醫生都能讀一讀這本書。」

──艾瑞克．拉莫特博士（Dr. Eric LaMotte），華盛頓大學內科住院醫師訓練計畫

「很大膽的一本書，也很引人入勝……十分有趣，而且會從此改變你對統計的觀感。」

──班．洛斯克（Ben Rothke），資訊安全專業人員

「寫得很好又有趣的實用指南，書裡談的都是今天統計專業工作中最常遇到的問題。」

──Civil Statistician部落格

「凡是希望有機會了解研究結果的人，都應該把這本書當成寶貴的指南，這本書可幫助你正確理解。」

──珊卓拉．亨利―史托克（Sandra Henry-Stocker），ITworld網站

「任何一位數據科學家都該添購的重要藏書。除此之外，簡練的文字風格會抓住你的興趣，也會為你日後的計畫激發創意。強力推薦。」

──insideBIGDATA網站

目錄

序

致謝

前言

【第1章漫談統計顯著性】
▏p值的威力
━有通靈能力的統計
━奈曼╱皮爾森檢定
▏對區間要信賴

【第2章統計檢定力與檢定力不足的統計】
▏檢定力曲線
▏檢定力不足的嚴重威脅
━為什麼檢定力不足？
━錯誤的紅燈右轉政策
▏信賴區間與增強能力
▏真實性膨脹
━很小的極端

【第3章偽重複：聰明選擇數據】
▏偽重複實例
▏解釋偽重複
▏批次式生物學
▏同步偽重複

【第4章 P值與基本率謬誤】
▏基本率謬誤
━小測驗
━醫學檢驗中的基本率謬誤
━如何用抽菸統計數字騙人？
━拿起武器對抗基本率謬誤
▏要是一開始沒成功，就一試再試
▏腦造影中的混淆視聽資訊
▏控制偽發現率

【第5章誤判顯著性】
▏顯著性中的不顯著差異
▏盯著顯著性看

【第6章雙重數據】
▏循環論證式分析
▏向平均數迴歸
▏終止規則

【第7章連續性的錯誤處理】
▏不必要的二分法
▏統計檢定力不足
▏討厭的混淆變量

【第8章濫用模型】
▏從數據擬合出西瓜
▏相關性與因果關係
▏辛普森悖論

【第9章研究自由：美好的悸動？】
▏一點點自由是件危險的事
▏避免偏誤

【第10章人人都會犯錯】
▏無法重現的遺傳學
▏輕鬆做到重現性
▏實驗、沖洗乾淨、重做一次

【第11章把數據藏起來】
▏被扣押的數據
━分享障礙
━數據衰減
▏就只是漏掉細節
━我們知道自己不知道的那些數據
━結果報告偏誤
▏檔案櫃裡的科學
━未發表的臨床試驗
━看出報告偏誤
━強制公開

【第12章我們能夠做的事】
▏統計教育
▏統計出版
▏你的職責

參考資料

作者簡介

艾力克斯‧萊因哈特Alex Reinhart
美國卡內基美隆大學（Carnegie Mellon University）統計學講師和博士班學生。德州大學奧斯汀分校物理學士，研究如何利用統計學和物理學偵測放射性裝置的位置。

譯者簡介

畢馨云
清華大學數學系畢業，曾任科普書編輯十多年，目前為業餘交響樂團團員。譯有《這才是數學》、《科學酷媽的育兒大探險》、《氣候危機大預警》、《學數學，弄懂這39個數字就對了》、《工程之書》、《原來數學這麼漂亮》，另有譯作刊於《BBC知識》雜誌。