答案在风中飘：当我们谈论过拟合时，到底在谈什么

<![CDATA[

前几天聊到国证自由现金流指数今年以来的表现，有读者留言，大意是这个指数 2024 年中改过规则，之前的指数数据都是规则回溯，过拟合的，不可信。

近两年修订的指数不少，尤其是 SmartBeta 指数。于是类似的声音越来越多。

“过拟合” 三个字几乎成了条件反射式的评价。

我理解这种警惕，这比盲信指数，是一种进步。

但是，一旦指数修订后的表现短时间不尽人意，不如历史数据那么光彩夺人时，就 “过拟合” 三个字喷之，未免过于简单粗暴。

鲍勃・迪伦在 1962 年写了一首歌，Blowin' in the Wind，歌词中问过一个著名的问题：How many roads must a man walk down, before you call him a man?(一个男人要走过多少路，才能被称为真正的男人？)。

这句话，其实也同样贴切我们的问题：一个指数要走过多少段样本外的路，你才肯正眼看它一下？

当然，上面这个问题，本质上是一个统计学样本量的问题，而本文想讨论的是更关键问题 —— 在它走完那些路之前，我们能不能做出投资的决策判断。

数据挖掘与过拟合

要回答这个问题，得先搞清楚 “过拟合” 到底是什么。

这个词这些年在指数圈被用得太泛了，只要指数回溯数据好看但发布后不行，你就能听到它，甚至仔细品味，怒气多过学理的讨论。

但它本来有更精确的含义。让我从一个相近的概念说起：数据挖掘。

统计学里有个经典的坑 —— 只要数据足够多、变量足够杂，你总能找到两组看起来高度相关的数据。

是的，我说的就是恐怖的数据挖掘 (Data Mining) 的坑。比如某个非洲小国的某样食品消耗量和标普 500 指数的年度走势相关性，可能高达 0.9 以上。

但没有人会根据这个来交易。

相关不等于因果。这是我在学社会统计学时，老师反复耳提面命的。当然，据说统计学最新发展，可以用极其复杂的方法从 “数据” 中算出因果，这个我就不懂了。

但至少正常情况下，只有相关性，但没有理论支持的两组数据，只能当做巧合 —— 毕竟，就像 “随机漫步” 理论常说的，只要给猴子足够多时间敲击打字机，总能打出一部莎士比亚，无巧不成书。

过拟合，其实类似，不过发生在策略构建层面。一般是通过不断穷举参数最佳结果、额外增加限制条件，让一个模型完美地 “贴合” 历史数据，但正因为对历史贴的太近，对未来就往往脆弱。

说一个多年前的上当经历。

很多年前，很流行分析家行情软件，上面有个选股系统，用户可以自己写公式回测。当时许多论坛都在分享公式。有一次我在论坛看到一个公式，胜率惊人。我当时特兴奋，以为发现了 “圣杯”。但下载装到自己电脑，每天跑一次，很长一段时间，没有任何信号。

拆开公式一看，被忽悠了！

这个选股公式，规则简单到只有一条，只在历史上某个特定的大涨日前入市 —— 以现代股民容易理解的方式，就是只在 2024 年 “9・24” 行情爆发前一天选股。

这显然是最离谱的过拟合。对未来没有任何预测能力，因为它 “学会” 的不是规律，而是答案本身。

早年券商金融分析师的研究报告，非常喜欢去探究 A 股中类似 MACD 等技术指标的最佳参数之类，也有点这个味道。

理解了这个极端案例，我们再回头看自由现金流指数，就能更冷静地判断：它的编制规则里，有没有这种 “记住答案” 的痕迹？

拆开自由现金流指数的规则

之前我汇总过几个自由现金流指数的规则，这里再贴一次，让我们看看看看它的编制规则到底做了什么。

核心选股逻辑其实大同小异：在市场中，筛选自由现金流率优秀的公司。

当然，往往还有一些筛选规则，也是争议的来源。

第一，剔除金融和房地产行业。

这是被质疑最多的一条，但在我看来，恰恰是无需讨论的。

这不是 A 股指数的发明。美国最知名的自由现金流 ETF——Pacer US Cash Cows 100（COWZ），同样剔除了金融和房地产。这是自由现金流这个概念本身不适合金融地产，不是为了让回测更好看。

第二，设置了一些基本的质量筛选。

比如要求连续几年自由现金流为正、剔除 ROE 稳定性差的企业等。

这些条件的目的是排除那些现金流偶然为正但基本面堪忧的公司。你很难说 “要求一家公司持续赚钱才能入选” 是什么过度拟合 —— 这更像是常识。

把指数的编制规则摊开来看，也许我能力有限，没能看出有什么 “恰好” 让这些年的回测曲线变好看的神秘参数。

样本内的指数数据，必然不如样本外的数据来的可信，这就是为何我对中证红利指数一直情有独钟的原因，毕竟它用 2014 年以来的规则发布后数据证明了自己。

但是，当我们要讨论 “A 股的自由现金流指数是过拟合产物” 的时候，科学的精神，是要指明究竟怀疑哪一条规则，拟合了哪一段历史，以实现无法复现的超额。这样讨论才有延展的空间。

鲁棒性与样本外

在程序化交易领域，检验一个策略是不是过拟合，有一个经典方法：鲁棒性测试。

原理很简单。如果一个动量策略的核心参数是 20，你把它改成 19 或者 21，如果回测结果天差地别，那大概率是过拟合了。

反过来，如果参数在一个合理范围内小幅变动，结果依然稳健，那说明策略捕捉到的可能是真实的规律。学术论文里验证动量因子有效性，通常要求 3 个月、6 个月、12 个月等多个回看期都有效，而不是只在某个特定时长上灵验，就是这个道理。

自由现金流指数的情况呢？几个 A 股自由现金流指数的编制规则大同小异但细节各有不同 —— 选股范围不完全一样，过滤条件松紧有别，加权方式也有差异 —— 但长期回测的表现方向是一致的。这本身就是一种天然的鲁棒性验证：规则没有精确到只有一种写法才能出好结果。

当然，还有一个反过来的问题同样值得讨论 —— 样本外表现 “暂时不好看”，等于策略就是废物吗？

这里值得提一个例子。

杰里米・西格尔在 2005 年出版了《投资者的未来》，用大量美股历史数据论证高股息策略的优越性。然而书出版没多久，在次贷危机之后，美股就迎来了一轮延续至今的成长股浪潮，高股息策略在相当长的时间里跑输大盘，迄今还没回过劲。

如果按 “样本外不行就是过拟合” 的标准，西格尔的结论早该被扔进废纸篓。但没有人会这么做 —— 因为那本书基于的是百年美股数据，背后有扎实的理论支撑，而成长股的强势更多是特定时代背景（低利率、科技革命）的产物，并不能反过来否定股息策略的长期逻辑。

这恰好说明一个容易被忽视的问题：样本外短期落后，和过拟合，是两件完全不同的事情。

一个策略可能因为市场风格轮动、宏观环境变化而阶段性跑输，但只要它的逻辑根基还在，它就仍然值得关注。而过拟合的策略，根基本来就不存在。

所以，面对一个修订过规则的指数，与其条件反射式地喊出 “过拟合”，不如多问几个具体的问题：每一条规则有没有独立的逻辑支撑？参数是否鲁棒？海外有没有可对照的长期实践？

这些问题不难回答，只是需要耐心，同时内心不带偏见。

鲍勃・迪伦那首歌里，每一段追问的结尾都是同一句：The answer is blowin' in the wind. 很多人把这句话理解为 “没有答案”。但也许还有另一种读法 —— 答案一直都在，只是你得愿意在风里站一会儿，才接得住。

本话题在雪球有34条讨论，点击查看。
雪球是一个投资者的社交网络，聪明的投资者都在这里。
点击下载雪球手机客户端 http://xueqiu.com/xz]]>

#答案在风中飘当我们谈论过拟合时到底在谈什么

答案在风中飘：当我们谈论过拟合时，到底在谈什么

Beste Casinos unbeschränkt 2026- Direkter Kollation unter einsatz von Hellboy Keine kostenlosen Einzahlungspins Tipps

Book Wikipedia

Chuchar aquele site Rush, jogue online na PokerStars Casino

发表回复取消回复

Beste Casinos unbeschränkt 2026- Direkter Kollation unter einsatz von Hellboy Keine kostenlosen Einzahlungspins Tipps

Book Wikipedia

Chuchar aquele site Rush, jogue online na PokerStars Casino

Play Book of Ra Free No Free download Demonstration

4月，中国芯片出口再次史诗级爆发

Beste Casinos unbeschränkt 2026- Direkter Kollation unter einsatz von Hellboy Keine kostenlosen Einzahlungspins Tipps

Searching for the forgotten heroes of World War Two

‘Somebody threatened to burn the school down’

Trump-Putin: Your toolkit to help understand the story

Business booming for giant cargo planes

王毅分别会见阿联酋总统中国事务特使、日本国际贸易促进协会会长

联合国：袭击试图获取食物援助的加沙平民的行径“令人发指”

韩国总统李在明正式宣誓就职

俄侦查委员会：俄两座桥梁被炸系乌克兰所为

第五届“中菲相知奖”颁奖仪式在马尼拉成功举行

你感兴趣的其他新闻

Beste Casinos unbeschränkt 2026- Direkter Kollation unter einsatz von Hellboy Keine kostenlosen Einzahlungspins Tipps

Book Wikipedia

Chuchar aquele site Rush, jogue online na PokerStars Casino

Play Book of Ra Free No Free download Demonstration

4月，中国芯片出口再次史诗级爆发

最新文章

图库

阅读更多相关

发表回复 取消回复

你感兴趣的其他新闻

标签云

最新文章

图库

发表回复取消回复