在因子投資中,為何「多」不一定等於「好」?

在建立投資組合時,許多人可能會陷入「越多越好」的迷思,認為納入的因子越多,模型就越強大。然而,從統計學的角度來看,這種想法存在風險,過多的因子可能導致模型過度擬合(overfitting),反而降低了預測的準確性。

R² 與調整後 R² 的啟示

在評估迴歸模型的擬合度時,R²(決定係數)是一個常見的指標,它衡量的是因變數的總變異中可由自變數解釋的百分比。然而,R² 有一個顯著的缺點:每當在模型中加入新的自變數,無論其是否真的重要,R² 的值都只會增加或維持不變,這會誤導我們認為模型變得更好了。

為了解決這個問題,統計學家提出了「調整後 R²」(adjusted R²)。與 R² 不同,調整後 R² 會對新增的自變數進行懲罰。只有當新加入的變數對模型的解釋力達到一定門檻時(通常是其 t 統計量的絕對值大於 1),調整後 R² 的值才會增加。

如果加入解釋力不足的變數,反而會導致調整後 R² 下降。 因此,調整後 R² 成為一個更可靠的指標,幫助我們判斷是否應將新因子納入模型,避免只因因子數量增加而盲目樂觀。

AIC 與 BIC:在擬合度與簡潔性之間取得平衡

除了調整後 R²,赤池資訊量準則(AIC,Akaike’s information criterion)和貝氏資訊量準則(BIC,Schwarz’s Bayesian information criterion)也是衡量模型擬合度的重要工具。這兩個指標的共同點是,它們的值越低,代表模型的擬合效果越好。

這兩個指標都在模型的擬合優度和複雜度之間尋求平衡。 AIC 和 BIC 不僅會考量模型對數據的解釋能力,還會對模型的複雜度(即參數或因子的數量)施加懲罰。 其中,BIC 對於增加新變數的懲罰力度比 AIC 更強,因此更傾向於選擇較為精簡的模型。

在因子投資的應用上,這意味著:

  • AIC 更側重於模型的預測能力。
  • BIC 則更強調找到最精簡、最能解釋數據結構的模型。

結論:追求模型的穩健性而非複雜性

總結來說,因子投資的成功並不在於堆砌因子的數量。過多的因子會導致所謂的「數據挖掘」或「過度擬合」問題,模型可能在歷史回測中表現優異,但在實際預測未來時卻表現不佳。 這種模型只是捕捉了歷史數據中的雜訊,而非真實的市場規律。

因此,在建構因子投資模型時,我們應該更注重模型的穩健性和簡潔性。

透過調整後 R²、AIC 和 BIC 等統計指標,我們可以更客觀地評估每個因子的價值,避免納入不必要的變數,從而建立一個既有解釋力又不過度複雜的投資模型,這才是通往長期穩健回報的智慧之道。