Deflated Sharpe Ratio：更严格的量化策略可信度测试

为什么普通 Sharpe ratio 会误导：选择偏差与多重检验

Sharpe ratio 是为比较已经选定的投资组合的风险调整表现而设计的，不是为了从大量候选者中选择策略。当它被用于选择时——实践中几乎总是这样——一个根本的统计问题就出现了。如果研究者测试一百个策略只报告最好的 Sharpe ratio，报告的数字不是策略真实表现的无偏估计；它是零预测力下的一百个随机变量中的最大值。

这种偏差的幅度随试验次数增长。十个独立检验下，零能力原假设下的预期最大 Sharpe 已经约为一点三，即使真实 Sharpe 是零。一百个检验下，预期最大值超过二点零。一个呈现 Sharpe 为二但不披露它是从一百次试验中选出的研究者，不是在展示能力；他们是在展示自己懂得如何跑很多次测试。

这种选择偏差被文件柜效应加剧：失败的策略被放弃和遗忘，而成功的策略被推广和营销。可见的策略群体因此是幸存者的有偏样本，真实的业绩分布包含了投资者从未见过的失败长尾。Deflated Sharpe Ratio 就是为精确修正这个问题而设计的。

Deflated Sharpe Ratio 的核心逻辑：调整研究自由度

Deflated Sharpe Ratio 问了一个比标准 Sharpe ratio 更严苛的问题。它不是问观察到的表现是否优于无风险基准，而是问给定进行的试验次数，观察到的表现是否优于我们预期的。换句话说，DSR 通过对产生它的搜索过程进行条件化来压缩观察到的 Sharpe。

数学公式概念上直接但计算密集。DSR 估计给定样本量、独立试验次数、收益偏度和峰度下，观察到的 Sharpe ratio 可能由机率生成的概率。如果这个概率很高，Sharpe 很可能被选择偏差膨胀，不应被信任。如果概率很低，Sharpe 可能真正反映了能力。

直觉同样重要。DSR 认识到，单一测试策略的 Sharpe 为二，比从一百个候选者中选为最佳表现者的策略的 Sharpe 为二令人印象深刻得多。压缩过程量化了这种直觉，产生一个反映结果真实统计显著性而非其原始幅度的调整指标。

组合爆炸：试验次数如何膨胀 Sharpe

试验次数与 Sharpe 膨胀之间的关系不是线性的；它是组合性的。一个有五个参数、每个测试十个水平的策略，生成十万种组合。即使这些组合都没有任何真正的 alpha，所有组合中的预期最大 Sharpe 将显著高于任何单个组合的 Sharpe。这就是策略研究中多重检验问题的本质。

膨胀的严重程度取决于测试策略之间的相关性。如果所有十万种组合高度相关，独立试验的有效数量远小于十万，Sharpe 膨胀相应较轻。如果组合不相关，膨胀是最大的。实践中，大多数策略搜索涉及中度相关的变体，独立试验的有效数量介于总数和真正不同想法的数量之间。

估计有效试验次数的实务启发法是按相关性对测试策略进行聚类，计算聚类数而非单个变体数。如果十万种组合坍缩成二十个不同聚类，有效试验次数更接近二十而非十万。这种聚类方法为 DSR 计算提供了更现实的基础，防止研究者高估或低估选择偏差的严重程度。

非正态收益：偏度与峰度增加进一步扭曲

标准 Sharpe ratio 假设收益服从正态分布，这个假设在大多数金融市场中惨烈失效，在加密领域尤其如此。当收益有偏或肥尾时，Sharpe ratio 成为策略质量更不可靠的指南。一个产生持续小额收益、偶尔夹杂大额亏损的策略会显示出欺骗性的高 Sharpe ratio，因为标准差衡量把小额收益当成降低整体波动，即使尾部风险很大。

DSR 将收益分布的高阶矩纳入其计算，提供更完整的策略风险 profile 图景。对偏度的调整认识到负偏增加了标准差所暗示的大额亏损概率。对峰度的调整认识到肥尾增加了极端事件的频率，无论正面还是负面。两者结合产生一个更好地反映策略真实风险调整表现的压缩指标。

在加密策略评估中，峰度经常超过十且偏度往往强烈为负，DSR 调整可能是戏剧性的。一旦纳入高阶矩和试验次数，原始 Sharpe 为二可能压缩到一点二或更低。这种压缩不是惩罚；它是修正。原始 Sharpe 是人工偏高的，因为它忽略了收益分布的重要特征。

计算逻辑：从公式到直觉

Deflated Sharpe Ratio 源自 Probabilistic Sharpe Ratio，后者本身通过添加考虑高阶矩和样本量的项建立在标准 Sharpe ratio 之上。关键洞见是 Sharpe ratio 估计的标准误差不仅取决于样本量，还取决于偏度和峰度。更高的峰度增加标准误差，使估计更不精确。负偏度也增加标准误差，因为极端亏损创造了关于真实分布的更多不确定性。

DSR 通过将观察到的 Sharpe 与给定有效试验次数和收益分布高阶矩下零能力原假设下预期的 Sharpe ratio 分布进行比较来调整观察到的 Sharpe。如果观察到的 Sharpe 显著高于这个预期分布，DSR 会很高，表明结果可能是真实的。如果观察到的 Sharpe 在纯粹机率可以产生的范围内，DSR 会很低，表明结果可能是虚假的。

实务解释是直接了当的。DSR 高于零点九五表明，即使在调整多重检验和非正态性后，观察到的 Sharpe 在传统百分之五水平上也是统计显著的。DSR 低于零点五表明结果不显著，不应被信任。零点五到零点九五之间的值代表灰色地带，需要进一步调查但无法得出确定性结论。

PBO 与样本外测试：可信度三重奏

DSR 最适合作为包含两个额外组件的全面可信度评估的一部分：回测过拟合概率和样本外验证。三者共同形成一个三部曲，解决研究可靠性问题的不同方面。DSR 告诉你调整选择偏差和非正态性后观察到的 Sharpe 是否统计显著。PBO 告诉你研究过程本身产生虚假赢家的可能性有多大。样本外测试告诉你优势能否在新数据面前存活。

回测过拟合概率特别有价值，因为它聚焦于研究过程而非任何单个策略。PBO 基于搜索空间的组合结构和策略在不同数据分区上的表现，估计回测中最佳表现策略被过拟合的概率。高 PBO 不意味着选中的策略不好；它意味着选择它的过程可能产生假阳性，结果应该受到相应的怀疑。

样本外测试提供最终的现实检验。无论统计调整多么复杂，知道策略是否有效的唯一方法是在研究过程中未使用的数据上测试它。样本期应该足够长以提供有意义的统计评估，且应该包括至少一个与样本内期间不同的市场状态。如果策略通过了这个测试，DSR、PBO 和样本外结果的组合提供了强大的信心基础。

DSR 的局限性：它不能修复什么

DSR 是强大的工具，但不是万灵药。它修正选择偏差、多重检验和非正态性，但无法修正其他形式的研究不当行为或糟糕做法。如果数据本身有缺陷、如果回测包含前视偏差、或者如果研究者从事了试验次数未能捕捉的数据窥探，DSR 将产生仍然过于乐观的调整指标。

DSR 还假设研究者准确报告进行的试验次数。如果研究者测试了一千个策略但只报告一百个，DSR 计算将基于低估的试验次数，产生仍然过高的压缩数字。这种报告问题是任何自报指标固有的，只能通过对研究过程的独立审计来解决。

最后，DSR 不解决执行成本。一个策略可能在毛收益上有高 DSR，但一旦纳入真实交易成本、滑点和融资费用，DSR 可能很低甚至为负。压缩过程运作于报告的收益序列，如果该序列不反映投资者实际承担的成本，DSR 将高估策略的可部署价值。DSR 是策略可信度的必要条件，但不是充分条件。

实践框架：如何在尽职调查中使用 DSR

总是连同原始 Sharpe ratio 一起计算 DSR。如果 DSR 低于零点五，无论 headline Sharpe 如何，都把策略当作未经证明的。
要求披露测试的策略变体总数，包括参数扫描、规则变化和替代资产范围。
通过聚类相关变体估计有效试验次数。报告原始试验次数和有效独立试验次数。
连同 DSR 报告偏度和峰度。如果峰度超过五或偏度低于负零点五，DSR 调整尤其重要。
计算研究过程的 PBO。如果 PBO 超过百分之五十，无论单个策略质量如何，研究工作流程可能产生假阳性。
保留至少百分之二十的数据用于样本外测试。只在保留集上测试最终选中的策略。
在成本调整后收益上重新计算 DSR。高毛 DSR 配低净 DSR 表明策略还没有准备好部署。
为资金配置设定最低 DSR 阈值。零点九五的阈值提供传统统计显著性；零点九九的阈值提供对假阳性的更强保护。

本文仅用于教育与研究交流，不构成投资建议。所有交易策略都可能在不同市场环境下失效。