本文介绍了一种新的,融合变点识别、股票降维和机器学习技术的量化产品持仓拟合方法。经检验,该方法的周度收益预测能力强,中证500指增产品周收益预测偏差为0.02%。
在有效拟合的基础上,开发出了一套量化产品分析与监控的应用。该应用能有效补齐现存量化产品评估方法的短板。
变点定义:反向运动/剧烈运动
通过识别变点,获取高信息含量的数据点。变点有以下两种定义:资产的收益率呈现异号特征;资产的波动性显著高于其长期平均水平。
股票降维:聚类/分类
股票数量庞大,无法直接用以拟合产品收益。尝试两种股票降维方法,第一是按照回溯期内股票收益率进行分类;第二是将股票回溯期内CNE6风险因子视为票的特征,对股票按照特征进行聚类。
持仓拟合:SLP/OLS
尝试用带约束,不带激活函数和偏置项的单层感知机和带约束的最小二乘求解产品在各类股票上的权重。
拟合性能&落地应用
经测试,该方法的拟合性能强,产品预测能力强。对中证500指增,中证1000指增和沪深300指增产品的周收益预测平均偏差为0.02%,-0.09%,0.14%。在此基础上,开发出产品风格拆解、事件监控、风险监控和纯Alpha收益估计的实践应用。
风险提示
模型风险:由于模型构建、参数估计、假设条件及其应用等方面存在的不确定性或错误,导致模型预测结果与实际情况产生显著偏离。
历史数据不代表未来:市场和环境随时间变化,历史数据不能完全代表未来趋势,尤其当市场结构、政策环境或投资者行为发生突变时,基于历史数据训练的模型可能失效。
神经网络随机风险:神经网络有初始化随机性、训练路径随机性等风险。训练过程中采用了固定种子和多次训练的方式,但无法完全消除随机性。
目前,主流的量化产品评估方法主要侧重于对其历史业绩曲线的分析,例如计算夏普比率、信息比率等指标,并对历史业绩排名进行线性外推。此外,投资者还会运用线性回归方法,将业绩归因于各种风格因子,以便对产品进行全面评价。
这种评估方法存在一定的局限性,投资者难以区分历史业绩的优劣是由偶然因素还是管理人的专业水平所导致。因此,基于历史表现进行未来业绩预测存在较大的不确定性。同时,在评估私募量化产品时,由于净值数据的公开频率较低,数据样本较少,线性回归方法的准确性和时效性也受到限制。
量化产品的特点包括持股数量众多、个股权重较低,且投资决策主要依赖于模型生成,相较于人为决策,对模型的依赖程度更高。此外,私募量化产品的持仓信息并不定期公开。因此,传统的主动管理型基金评估方法并不适用于量化产品的评估。
综上所述,亟需开发一种能够定量分析量化产品业绩构成,并在一定程度上预测短期业绩的评估方法。这将有助于投资者更深入地了解和判断所投资的产品,从而做出更准确的投资决策。
基于变点识别的量化产品持仓拟合方法思路如下。
首先,通过定义变点来识别具有高信噪比的数据,这一过程有助于筛选出对拟合持仓具有关键影响的数据点。
然后,对股票进行特征聚类,这一步骤旨在减少用于拟合持仓的资产数量,从而减少需要求解的参数数量,从而减少数据样本量的要求,提高模型使用最新数据进行持仓拟合的时效性。
接下来,利用降维后的资产收益率进行线性加权,以拟合产品的收益率。这些权重反映了各类资产在投资组合中的仓位。最后,结合各类资产的仓位和风格暴露,计算产品的整体风格暴露、监测事件以及纯Alpha收益估计等。
分析框架的工程化应用是最终目标。该应用有助于投资人深入了解产品的收益构成和量化产品的特征,为投资人提供更为精确的投资决策依据。
通过定义变点来识别具有高信息含量的数据。自定义的变点有如下两种情形。
第一种情形:将回溯期平均划分为两个长度相等的时间段。在这两个时间段内,如果资产的收益率呈现异号特征,即一个时间段内收益率为正而另一个时间段内为负,则定义为变点。这种情况通常表明资产在所考察的时间区间内经历了一个转折点。这种前后相的股价运动趋势,可能揭示了市场动态的变化,而且蕴含了丰富的可识别信息。
第二种情形:在回溯期内,资产的波动性显著高于其长期平均水平。波动性可以通过收益率的标准差来量化。当标准差显著增大时,表明市场经历了较大的价格波动,这可能是由于市场情绪的剧烈变化、经济数据的意外发布或其他影响市场的重大事件。这种市场走势也蕴含了丰富的可识别信息。
假设量化指增产品的可投股票域为中证全指成分股(公募量化产品由于更严格的限制,可投股票域更清晰,本套方法论的适用性更强)。由于中证全指成分股数量多,如果用全部股票去拟合量化基金的仓位,面临数据样本少,且时效性差的问题,不具备可操作性。因此,需要对股票进行降维处理。本文尝试了两种降维方法,第一种是按照回溯期内股票收益率进行分类;第二种是将股票回溯期内CNE6风险因子视为股票的特征,对股票按照特征进行聚类。聚类算法使用K-MEANS。
2.3.1 单层感知机
得到股票的分类/聚类后,使用带约束,不带激活函数和偏置项的单层感知机,拟合各类股票收益率与被分析的基金收益率,确定各类股票的权重。本文涉及的量化产品仅为指数增强型产品。本文使用的单层感知机结构表达式如下。
针对指数增强型产品,可以默认其接近满仓。因此,在进行拟合时,无需考虑仓位对拟合结果的影响,仅需对各类资产权重的求和约束在[0.95, 0.99]范围内,单类资产的权重约束为[0, 0.5]。
2.3.2 最小二乘回归
使用同2.3.1节相同的约束条件,目标函数同最小二乘回归,求解各类股票的权重,优化算法为SLSQP(Sequential Least Squares Programming)。找到满足约束条件的解的频率非常低,因此无法使用最小二乘回归求解。
本研究中所采用的产品评估方法均基于对产品持有各类股票权重的精确模拟之上。目前,主流的量化指增产品主要为沪深300指数增强,中证500指数增强,中证1000指数增强。分别针对这三类产品进行拟合准确性的评估。
表1、表2分别展示了不同降维方法对最终拟合性能的影响。从收益率预测偏差的角度来看,Barra聚类方法和收益率分类方法的性能相差不大。从预测收益率和实际收益率的相关性来看,Barra聚类的效果更佳。下文详细展示了Barra聚类基础上的拟合方法性能。
图5、图6分别展示了拟合方法在沪深300指增产品上的性能。2020年6月28日至2024年3 月31日,平均而言,拟合方法在沪深300上的周收益率预测偏差为0.14%,累计预测偏差为27%。预测收益率和实际收益率相关性为0.73。
3.1.2 中证500指数增强产品
图7、图8分别展示了拟合方法在中证500指增产品上的性能。2020年6月28日至2024年3 月31日,平均而言,拟合方法在中证500指增产品的周收益率预测偏差为0.02%,累计预测偏差为2%。预测收益率和实际收益率相关性为0.90。
图9、图10分别展示了拟合方法在中证1000指增产品上的性能。2020年6月28日至2024年3月31日,平均而言,拟合方法在中证1000指增产品的周收益率预测偏差为-0.09%,累计预测偏差为-17%。预测收益率和实际收益率相关性为0.93。
利用Barra-CNE6因子模型,对股票、指数和量化产品的风格特征进行精确的量化描述。
首先,通过第2节介绍的方法论,获取量化产品在不同类型股票上的持仓权重。基于这些权重和股票的风格,可以进一步计算量化产品在时序上的风格变化。
用相同的思路对宽基指数的风格进行计算。通过宽基指数的成分股权重和成分股风格数据,我们能够确定宽基指数的风格特征。由此,可以在不同的时间截面上,对比量化产品与宽基指数之间的风格偏离度。
通过这种比较,可以清晰地识别量化产品相对于市场基准的风险敞口以及是否能够有效地捕捉到潜在的超额收益。
第3节所述的拟合模型,在正常时间段内,收益率的预测效果良好。在部分时间段内,收益率的预测和真实收益率之间的偏差较大,超过了2个标准差,则认为该时间段内有事件发生。这些事件包括但不限于:产品当周有大额申赎、被动的风险模型和策略调整(如净值接近预警平仓线)、被限制交易等情况。
以某私募量化产品为例,模型预测2024年2月25日当周,产品预测收益率为12.91%,产品实际收益率为10.43%,低于模型预测2.48%,差距超过2个标准差。模型提示有事件发生。后经证实,确有事件发生。
当众多量化产品在同一时间点集体触发事件信号时,这通常表明市场正经历一段不同寻常的时期。这种现象类似于一个风险预警系统,它为投资者提供了一个机会,使其能够提前感知到潜在的市场变动,及时进行风险评估和策略调整。通过这种集体的信号输出,投资者可以更迅速地识别市场趋势和潜在的风险点,从而采取更为主动和有针对性的应对措施,以保护投资免受潜在的市场波动的影响。
图14展示了不同类型的指增产品在各个时间点所发出的事件信号数量。集体信号有四次,分别是2021年2月,2021年11月,2022年5月和2024年2月。
Alpha收益被定义为量化管理人通过其专业管理技能所获得的超额收益,它主要源自选股能力和择时能力的结合,这两种能力在产品的调仓决策中得到体现。
模型预测收益与实际收益之间的差异可以归结为三个核心因素:模型估计的资产权重与实际资产权重之间的差异、外部突发事件的影响,以及产品在当期的调仓行为导致的资产权重变动。
长期来看,调整了外部事件造成的影响后,如果管理人的调仓行为导致实际的产品收益高于模型的预测收益,则认为管理人有Alpha能力。
4.3.1 估计值与真实值的偏差
模型估计的资产权重与真实的资产权重之间有偏差。由于这种偏差在长期内难以准确预测,需要做出一个强假设:从长期角度来看,估计的股票权重与实际股票权重之间的偏差是中心对称分布的,其正负效应在累积后趋于平衡,因此,这部分偏差的长期累积影响可以视为较小。
4.3.2 外部事件造成的偏差
外部事件会对管理人的管理行为造成冲击,从而影响产品的净值表现,造成预测收益和真实收益之间的较大幅度偏离。
在4.2节中,介绍了一种通过比较预测收益与实际收益的标准差来侦测这些事件的方法。
4.3.3 当期调仓造成的偏差
由于模型预测的收益率是在过去样本的基础上估计资产权重得到的,当期的调仓会导致资产权重发生变化,从而引起预测偏差。
4.3.4 Alpha收益的估计方法
预测收益与真实收益的偏差 = 模型估计的偏差 + 外部事件的偏差 + 调仓造成的偏差
长期而言,一旦调整了外部事件的影响,如果管理人的调仓行为导致产品的实际收益超过了模型预测的收益,这表明管理人具备Alpha能力。
为了消除外部事件的影响,在侦测到事件发生的当周,使用过去一个季度的周度平均偏差来替代模型估计的偏差,从而确保对Alpha能力的评估更为准确和公正。
本研究提出了一种新的分析框架,专为量化产品定制。该框架融合了变点识别、股票降维以及机器学习技术,旨在提供一种更为精确、实时的量化产品分析方法。与传统的业绩外推方法相比,这一框架在持仓拆分、收益预测和事件检测等方面展现出显著的优势和更高的效率。
经测试验证,该框架在量化产品周度收益预测方面表现出色。在对沪深300、中证500和中证1000指数增强产品的周度收益预测中,平均误差分别达到了0.14%、0.02%和-0.09%,这一高精度的拟合结果充分证明了框架的有效性和可靠性。
在确认框架的有效性基础上,进一步开发了一系列实用的功能,以满足实际应用的需求。这些功能主要包括:量化产品的周度收益率预测,为投资决策提供数据支持;产品风格分析,深入理解产品的市场行为和风险敞口;产品事件监测,及时发现并预警潜在的市场风险;以及产品的纯Alpha估计,评估管理人超越市场基准的能力。此外,通过对市场中群体的事件监测,该框架还能实现风险预警,帮助投资者在风险初现端倪时就迅速察觉并采取相应的应对措施。
模型风险:由于模型构建、参数估计、假设条件及其应用等方面存在的不确定性或错误,导致模型预测结果与实际情况产生显著偏离。
历史数据不代表未来:市场和环境随时间变化,历史数据不能完全代表未来趋势,尤其当市场结构、政策环境或投资者行为发生突变时,基于历史数据训练的模型可能失效。
神经网络随机风险:神经网络有初始化随机性、训练路径随机性等风险。训练过程中采用了固定种子和多次训练的方式,但无法完全消除随机性。
报告作者:
陈奥林 从业证书编号 S1230523040002
陆达 从业证书编号 S1230122070032
详细报告请查看2023年4月12日发布的浙商证券金融工程专题报告《机器学习与因子(五):基于变点识别的量化产品分析》
本公众号为浙商证券金工团队设立。本公众号不是浙商证券金工团队研究报告的发布平台,所载的资料均摘自浙商证券研究所已发布的研究报告或对报告的后续解读,内容仅供浙商证券研究所客户参考使用,其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,使用本公众号内容应当寻求专业投资顾问的指导和解读,浙商证券不因任何订阅本公众号的行为而视其为浙商证券的客户。
本公众号所载的资料摘自浙商证券研究所已发布的研究报告的部分内容和观点,或对已经发布报告的后续解读。订阅者如因摘编、缺乏相关解读等原因引起理解上歧义的,应以报告发布当日的完整内容为准。请注意,本资料仅代表报告发布当日的判断,相关的研究观点可根据浙商证券后续发布的研究报告在不发出通知的情形下作出更改,本订阅号不承担更新推送信息或另行通知义务,后续更新信息请以浙商证券正式发布的研究报告为准。
本公众号所载的资料、工具、意见、信息及推测仅提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,浙商证券及相关研究团队不就本公众号推送的内容对最终操作建议做出任何担保。任何订阅人不应凭借本公众号推送信息进行具体操作,订阅人应自主作出投资决策并自行承担所有投资风险。在任何情况下,浙商证券及相关研究团队不对任何人因使用本公众号推送信息所引起的任何损失承担任何责任。市场有风险,投资需谨慎。
浙商证券及相关内容提供方保留对本公众号所载内容的一切法律权利,未经书面授权,任何人或机构不得以任何方式修改、转载或者复制本公众号推送信息。若征得本公司同意进行引用、转发的,需在允许的范围内使用,并注明出处为“浙商证券研究所”,且不得对内容进行任何有悖原意的引用、删节和修改。
廉洁从业申明:
我司及业务合作方在开展证券业务及相关活动中,应恪守国家法律法规和廉洁自律的规定,遵守相关行业准则,遵守社会公德、商业道德、职业道德和行为规范,公平竞争,合规经营,忠实勤勉,诚实守信,不直接或者间接向他人输送不正当利益或者谋取不正当利益。