- Mar 29 Thu 2018 10:00
-
攻殼機動隊1.5 (攻殼機動隊 Complete Box 單書發售)
- Mar 27 Tue 2018 00:00
-
《福爾摩斯先生收》系列「【貝格街的紀念品】活動集點印花」活動說明
- Mar 20 Tue 2018 12:40
-
書摘試讀--辛普森悖論《不敗的數據學》

如果你要統計學家說說統計學上有趣的矛盾結果,他們通常會提到辛普森悖論(Simpson’s paradox)〔原注:辛普森悖論是皮爾森(Karl Pearson)和尤爾(Udny Yule)提出的,因此也正說明了史蒂格勒的命名定律(Stigler’s law of eponymy):沒有一個科學發現是以原發現者的名字來命名。這個命名定律則是莫頓(Robert Merton)提出的〕。只要數據當中由交絡變數造成的明顯趨勢,可以藉由數據的自然分組來消除或是翻轉,就會產生「辛普森悖論」。有很多例子,我們就從最通俗的開始看起。
- Mar 19 Mon 2018 10:00
-
書摘試讀--相關與因果《不敗的數據學》

當你用了多變量迴歸去建立某個結果的模型——譬如給定某人的體重、膽固醇等等,然後去推測那個人心臟病發作的機率——就會禁不住想要單獨解釋每一個變數。比方說,你可能會調查幾千人,問他們有沒有出現過心臟病發作並進行徹底的健檢,然後建立模型。接著,你根據這個模型來提供健康指示:你會說,減個幾公斤,一定要把膽固醇降到這個範圍內,遵照這些指示,你心臟病發作的風險就會降低30%!
- Mar 16 Fri 2018 12:34
-
書摘試讀--西瓜數據配適《不敗的數據學》

挑選西瓜常用的方法是敲敲看,然後挑選聲音特別響亮的,這種聲音顯然產生自恰到好處的西瓜果肉特質。有了適當的量測工具,應該就有可能運用統計數字找到一個演算法,讓我們能夠從敲出的聲音預測任何一顆西瓜的成熟度。
我對這個問題格外感興趣,因為我曾經很想一探究竟,架了電路把一個很炫的加速器接在我的電腦上,好讓我能夠記錄西瓜的聲響。不過我只試了八顆西瓜——數據少得根本不足以做出準確的瓜熟預測系統。因此當我偶然看到一篇聲稱能準確預測西瓜成熟度的論文時,可以想見我多麼興奮:那篇論文中的聲音量測結果,能夠預測出99.9%的成熟度變化。
但我們來思考一下。在這項研究中,專家小組試吃了四十三顆西瓜,然後用成熟度1到5分為西瓜評分。他們用迴歸來預測各種不同聲音量測值的成熟度評分。迴歸方程式的準確度怎麼會這麼高?假如讓專家小組重新評分一次,可能也不會與「他們自己原先的評分」99.9%相符。主觀的評鑑不會那麼始終如一。無論多麼高明的程序,都不可能預測得這麼準確。
應該是有什麼地方弄錯了。我們仔細評斷一下他們所用的方法。
他們讓每顆西瓜以1到1,000赫的頻率振動,然後測量每個頻率下的相移(phase shift,基本上就是振動在西瓜裡傳遞所花的時間)。受測試的頻率有一千六百種,所以迴歸模型中有一千六百個變數,每一個變數與成熟度的關係都必須估計出來。
現在,有了比西瓜數還要多的變數,我就能配適一個「完美的」迴歸模型。正如任兩個數據點之間可以找到一條完美的配適直線,我們可以用一個有四十三個變數的方程式,完美配適四十三顆西瓜的量測值。這是嚴重的多此一舉。就算聲響與成熟度之間沒有任何關係,我也能配適一個100%準確預測四十三顆西瓜的迴歸方程式,它不單只會表明聲響和成熟度的實際關係(如果真的有關係存在),還將說明個別評分與量測值的隨機變化。我相信這個模型會完美配適——但若拿新的西瓜來測試,由於西瓜本身的量測誤差及主觀評價的因素,這個模型可能就不堪用了。
該研究的作者群設法用逐步迴歸(stepwise regression)避開這個問題,逐步迴歸是常用來選出迴歸中哪些變數最重要的程序,最簡單的形式是這樣的:一千六百個頻率量測值都先不用,做一千六百個假設檢定,判定哪個頻率與結果的關係最具有統計顯著性;加入這個頻率,接著再對其餘一千五百九十九個重複做這個步驟。繼續進行這個程序,做到沒有具統計顯著性的頻率為止。
逐步迴歸在許多科學領域上雖然很常用,但通常不是上策。你可能已經察覺到問題了:多重比較。可想而知,如果只加入具統計顯著性的變數,就避開了過度配適,不過要做這麼多顯著性檢定,勢必會製造很多偽陽性,所以你所選的一些變數將會是虛而不實的。逐步迴歸程序不保證總體偽陽性率,也不保證選出「最佳」變數組合,不論你怎麼定義「最佳」。(別的逐步程序則採用其他標準,而非統計顯著性,但還是會碰到很多同樣的問題。)
因此,儘管有統計顯著性的掩飾,逐步迴歸仍然容易受「過度配適」影響,產生出的方程式雖然跟數據配適得近乎完美,但在拿單獨的數據集來測試時卻有可能證實是無用的。為了測試,我隨便找了一些與成熟度根本零相關的西瓜量測值來模擬,然而逐步迴歸卻以99.9%的準確度跟數據配適。有那麼多變數可選,沒做出這麼高的準確度才令人意外。
逐步迴歸多半不會用在這般極端的情況,鮮少有一千六百個變數可供選擇,但即便是帶有幾十個變數的一百個觀測值,逐步迴歸依舊會產生誇大的準確度估計值與統計顯著性。
「真實性膨脹」是更隱微的問題。要記住,「統計上不顯著」的意思並不是「沒有任何效應」。你的研究如果檢定力不足、有太多變數可以選但數據太少,那麼你的數據可能就不足以讓你很可靠地辨別出每個變數的效應。只有當你運氣夠差、高估這些變數對結果的效應時,你才會把它們加進模型。(即使不用正規的逐步迴歸程序,也常常為了簡化模型,丟掉「不顯著」的變數,而引發同樣的問題。)
逐步迴歸有幾種形式。我在前面描述的版本稱為「向前選取」(forward selection)程序,因為它是從頭開始納入變數。另一種叫做「向後消去」(backward elimination)程序,一開始就放入所有一千六百個變數,然後每次剔除一個不具統計顯著性的變數。(在這個例子裡可能沒辦法做到:由於變數有一千六百個,但西瓜只有四十三個,因此沒有足夠多的數據來判定全部一千六百個變數的效應。在第一步你就會卡住了。)加入新變數所用的標準也可以變更;比較近代的程序不是用統計顯著性,而是改用像是赤池訊息準則(Akaike information criterion,日本統計學家赤池弘次創立發展,評估統計模型的複雜度和衡量統計模型「擬合」資料的優良性的一種標準)、貝氏訊息準則(Bayesian information criterion)等度量,這些準則不利於帶有較多變數的模型,由此減少過度配適。其他的形式則會根據不同的標準,在每一步增減變數,這些形式沒有一個會保證做出同樣的答案,所以針對相同數據的兩種分析結果有可能非常不一樣。
對於西瓜研究,這些因素綜合起來就會產生準確得難以置信的結果。迴歸模型該如何公正評定,避免這些問題?有一種做法是「交叉確認」(cross-validation):只用一部分西瓜去配適模型,再測試這個模型預測其餘西瓜成熟度的成效。倘若這個模型過度配適,它在交叉確認過程中的表現會很差。有個常用的交叉確認方法是「留一交叉確認」(leave-one-out cross-validation),僅留一個數據點去配適模型,然後評判此模型預測該點的能力;對依次留下的其餘數據點,也重複做這個程序。西瓜研究聲稱他們做了留一交叉確認,但仍得到同樣難以置信的結果。我沒辦法看到數據,所以不確定這個方法是否真的有效。
儘管有這些缺點,逐步迴歸仍然很流行。它是直覺上很吸引人的演算法:選取那些有統計顯著效應的變數。不過,單獨選一個模型通常太過自信而顯得愚蠢。有那麼多變數可以選,通常也就有很多種變數的組合,會產生幾乎一樣好的預測結果。假如我要再挑四十三顆西瓜來測試,大概就會從一千六百種成熟度聲音預測變數中,選出與前次不同的子集。逐步迴歸會產生令人誤解的必然性——即斷言這二十或三十個變數正是成熟度的預測變數,但其他幾十個變數也能擔此重任。
當然,在某些情況下我們也許有理由相信只有少數幾個變數會影響結果。譬如你可能在找出導致某種罕見癌症的基因,而且有上千個候選基因,但你知道只有少數幾個是病因,這麼一來,你感興趣的就不是做出最佳預測,而是只想確定始作俑者。逐步迴歸還不是最好的工具;「最小絕對緊縮與選擇算子」(least absolute shrinkage and selection operator,縮寫為lasso,這個字有「套索」的意思)具有更好的數學性質,不會靠著宣稱統計顯著性來愚弄使用者。不過,「套索」並非刀槍不入,沒有完美無缺的自動化解決方案。
- Mar 16 Fri 2018 10:00
-
書摘2_《超工業時代:工業、服務業的下一步——全球價值鏈如何革命性重組,催生前所未見的經濟地理藍圖》

▍第五章 邁向超工業世界:改變的四大主軸
新生產世界在本質上是建立於舊工業社會的遺風之上,它深化了其原則,因此我稱之為「超工業」,而非「後工業」。這些原則遠早於英國的「工業革命」即存在,例如在威尼斯(Venise)和君士坦丁堡的兵工廠已具備工業化的原則,可說是現代工業的雛型。而且,儘管不如韋伯(Max Weber)的意,這些原則並非西方特有。
- Mar 15 Thu 2018 10:00
-
攻殼機動隊2 (攻殼機動隊 Complete Box 單書發售)
- Mar 15 Thu 2018 09:02
-
《不敗的數據學》從統計數字中看見真相的12堂思考訓練,不被造假及濫用的數字唬弄!
《不敗的數據學》從統計數字中看見真相的12堂思考訓練,不被造假及濫用的數字唬弄!
出版時間︰2018.03.15
作者︰艾力克斯‧萊因哈特 (Alex Reinhart)
定 價︰380元
★★從謊言到武器,用統計的語言來思考,在複雜的資料中找出秩序與意義★★
出版時間︰2018.03.15
作者︰艾力克斯‧萊因哈特 (Alex Reinhart)
定 價︰380元
★★從謊言到武器,用統計的語言來思考,在複雜的資料中找出秩序與意義★★
- Mar 14 Wed 2018 10:00
-
勘誤表《婚禮蛋糕天后賈桂琳的翻糖花裝飾技巧聖經》

親愛的讀者您好:
感謝您購買《翻糖花裝飾技法聖經》,因作業疏失,內文P.37〈山茶花〉的製作花朵步驟1~6文字誤植到P.33〈秋牡丹〉的步驟,十分抱歉。附上正確步驟文字及勘誤表如下,正確版圖文PDF頁面可至以下網址下載,謝謝您!
- Mar 07 Wed 2018 10:25
-
書摘1_《超工業時代:工業、服務業的下一步——全球價值鏈如何革命性重組,催生前所未見的經濟地理藍圖》
- Mar 06 Tue 2018 10:00
-
《超工業時代:工業、服務業的下一步——全球價值鏈如何革命性重組,催生前所未見的經濟地理藍圖》
《超工業時代:工業、服務業的下一步——全球價值鏈如何革命性重組,催生前所未見的經濟地理藍圖》
出版時間︰2018.03.06
作 者︰皮耶.維勒茲(Pierre Veltz)
定 價︰280元
▍本書榮獲法國2017年年度經濟類書籍獎(Prix du livre dEconomie 2017)▍
「我們並不是生活在工業時代的尾聲,而是處在一個新型工業社會孵化的階段。」
- Mar 03 Sat 2018 10:57
-
試閱《血色階梯下的證人》

事發以前
如果是在清朗的晨間,陽光會穿透污點斑斑的窗玻璃,照得地面看起來像灑滿血跡。
但現在已過了晚上八點,唯一的光源來自各樓層的壁燈,幽微的光線照亮了一灘緩緩擴散的瀝青,或是焦油。
在黑暗中,血看起來並不像血。
驅使她踉蹌奔下樓梯的腎上腺素已經退去,她感覺自己全身的骨頭像是都被拔了出來。她幾乎站都站不住,一再向前窺探的同時,必須抓著樓梯扶手的金屬中柱作為支撐。
五樓的燈滅了。
當平凡的日常場景突然變成災難現場,就像從零瞬時加速到六十哩,大腦需要一段很長的時間來處理突如其來的意外,才能夠對刺激作出適當的反應。當她看出噴濺到一樓牆上和門上的黑點,還有逐漸擴散的那一灘黑色物質,她可以感受到處理過程正在她體內緩慢進行。
一開始她認為他會沒事的,只是一點瘀傷,只是撞到頭。但是不對,流的血太多了。
四樓的燈滅了。
在那之後,時間彷彿凍結的片刻中,她依稀聽見一連串聲音:門栓猝然鎖上、下樓的沉重腳步聲震動著樓梯、前門磨損的嘎吱聲和甩上時的重響。但現在只剩一片寂靜。教堂似乎也屏住氣息,等著看她會怎麼做。
她搖晃地向他移近一步。
那股味道,聞起來像她的錢包塞滿銅幣的時候。
他看起來好難受。他為什麼不移動一下腿,好讓腰部的姿勢別那麼扭曲呢?她的影子投下時,他為什麼沒有轉頭過來?他為什麼不出聲叫她?
她在他身邊跪下,握起他的手。襯著緩緩浸透他頭髮和衣服的那片黑,他的手顯得純白。她試著叫喚他的名字,但喉嚨緊得像被人握拳扼住。她的思緒紛雜狂亂。她應該做些什麼事。對。她要打九九九︵譯註:英國的緊急警消電話號碼︶。
三樓的燈滅了。
他的嘴唇在顫動,眼睛也睜開了。她湊近過去,想要聽清楚他在說什麼,頭髮垂到了那灘黑色液體上。她扭著身子退開,髮尾掃過手腕,在白皮膚上畫出猩紅的線條。她現在看見血是從哪流出來的了。一陣細小的聲音從她雙唇間逸出。怖懼與震驚像卡車一般朝她疾速衝來。
二樓的燈滅了。
她得替他做些什麼事。此時此刻,他在這裡只能指望她了。她必須從口袋裡拿出手機、解鎖、鍵入號碼。但她無法放開他的手,不忍放他一個人在黑暗中飄零無依。
她的心跳飛快,像卡通人物狂奔著落下懸崖之前如輪子般快速動作的雙腿。
一樓的燈也滅了。
突然降臨的黑暗,以及她剛經歷的一切,讓她終於不禁放聲尖叫。而一旦開始尖叫,她便無法停止。





































































































































