幸存者偏差(Survivorship bias),另译为“生存者偏差”或“存活者偏差”,驳斥的是一种常见的逻辑谬误,这个被驳斥的逻辑谬误指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。这东西的别名有很多,比如“沉默的数据”、“死人不会说话”等等。
在量化策略创建过程中一定要避免引入这种偏差—幸存者偏差:
如果用当前Russell 3000指数成分股回测过去30年信用风险因子(用Merton distance to default来量化)的表现,为统一标准,方便回测,剔除所有数据长度短于30年数据的股票,回测结果表明:信用风险越高,回报越好。
这是最简单的错误,目前的指数成分股中只有20%的股票在过去30年中始终是Russell 3000成分股。破产、退市、表现不佳的股票定期都会被剔除出。也就是说我们在拿过去30年中表现最好的那些公司进行回测,即便当时的信用风险高,当你知道谁会幸存下来时,在信用风险高,陷入困境时买入,当然收益非常高。若考虑进那些破产、退市、表现不佳的股票后,结论完全相反,投资高信用风险企业的收益率长期远低于信用稳健的企业。
下面举几个例子,来形象解释地解释一下什么是幸存者偏差:
1、假设你问这样的一个问题:“喜欢约炮的人结婚后是否对配偶更加不忠?”
婚前有约炮经历且婚后对配偶不忠的人一般不会回答此问题,因为一旦诚实回答,会给自己所属群体造成很不利的影响。
而那些婚前有过约炮经历但是洗心革面忠于配偶的人会回答这个问题,甚至不排除有人很文艺的说正是因为婚前阅人无数所以婚后反而经得起诱惑。
2、假设你问这样一个问题:“恋爱经历多会使一个人爱无能(即对下一份感情不够纯真)么?
那些恋爱经历多且感情纯真度逐渐递减的人会选择沉默,因为他们若都来回答此问题,会使得恋爱经历多的人被人贬斥。
那些恋爱经历多但在每一段恋爱中都投入真感情的人会跳出来回答这个问题,他们可能还会顺便指责那些计较别人恋爱经历多的人很low。
3、假设你问这样一个问题:“男同性恋在性生活方面是否混乱?”
那些频繁更换性伴侣的男同会选择沉默不语。
那些有长期固定性伴侣的男同会跳出来发言,并扬言除了爱同性之外,他们与异性恋无任何不同。
4、假设你问这样一个问题:“XX专业就业是否很差?”
该专业混得好的人就会跳出来说自己在这个领域发展得很好,说不定还要骂一句“没有差专业,只有差学生”
该专业混得很差的人可能会不好意思回答问题,因为害怕被喷“没有差专业,只有差学生。”
上面四个问题,问题越敏感,幸存者偏差越强。第4个问题最不敏感,所以幸存者偏差会弱一些。第1—3个问题的“幸存者偏差效应”极强,敢于以亲身经历跳出来回答问题的都是该群体中能力或道德相对上乘的人,根本不具备普遍代表性。