一种智能选股模型的选股方法与流程

专利查询2024-1-19 96

1.本发明涉及股票技术领域，尤其涉及一种智能选股模型的选股方法。

背景技术：

2.alpha选股模型是量化投资领域的一类重要的模型，寻找存在较好alpha收益的个股，从而进行股票资产配置，构建投资组合，选股的问题可以转化为“排序”问题，通过对个股的收益潜力进行评估，从而得出排名，进而得到优质的alpha股票，传统量化领域中常用的选股模型是多因子模型，也就是通过一些特定的线性因子指标来对股票进行排序，但是随着数据量和数据特征的不断增加和复杂化，传统的线性模型已经不能很好的处理一些复杂的问题，所以，和机器学习相结合的一类方法开始逐步受到人们的重视；
3.目前的一些预测模型结构简单，对特征提取不充分，股票关系数据获取的难度较大，获取的数据信息类型和覆盖范围有限，导致数据获取频率较低，不利于在线的股票预测，因此，本发明提出一种智能选股模型的选股方法以解决现有技术中存在的问题。

技术实现要素：

4.针对上述问题，本发明的目的在于提出一种智能选股模型的选股方法，该智能选股模型的选股方法通过更为复杂的神经网络模型在隐层特征空间内建模股票相关关系，从而挖掘出更为深层次且全面的关系信息，进而帮助提高股票预测表现。
5.为实现本发明的目的，本发明通过以下技术方案实现：一种智能选股模型的选股方法，包括以下步骤：
6.步骤一、从开放的股票数据平台上获取股票的交易序列特征和技术指标序列特征，并将序列特征作为数据输入导入选股模型；
7.步骤二、特征预处理，将获取的各个特征在时间维度上进行z-score标准化处理；
8.步骤三、特征预处理后根据股票数据的特点构建长短期记忆型循环神经网络，然后利用神经网络进行基础的时序特征提取；
9.步骤四、基础时序特征提取后基于转码器网络模型建立关系型转码器网络模型结构，利用关系型转码器网络模型提取股票关系信息，并根据提取的信息建立自适应动态互交特点的股票特征提取网络；
10.步骤五、完成关系信息提取后，从隐层特征空间获取个股之间的关联性，利用关联性信息在不同股票之间进行特征共享和互交，完成互交后在自身的原有特征的基础上加入其他相关股票的有效信息，获得丰富有效的特征表示形式；
11.步骤六、在步骤五中获得的特征表示形式基础上进行选股信号预测，生成预测选股号。
12.进一步改进在于：所述步骤一中所述的股票的交易序列和技术指标序列数据为日频时间序列化特征，通过每日的数据更新进行整个选股预测模型的日频在线更新预测。
13.进一步改进在于：所述步骤二中z-score标准化处理具体为将得到的序列特征数
据，按照序列化数据进行预处理，按照日频时间序列的分布方式，将特征序列化，再按照每支个股的时间维度进行特征标准化处理，得下式
14.特征标准化处理后数值＝(特征原始数值-特征均值)/特征标准差。
15.进一步改进在于：所述步骤三中基础的时序特征提取由三个全连接神经网络构成的时需转码器网络实现的，且时需转码器网络在个股的时间维度上计算，不涉及其他股票，其中三个全连接神经网络的隐层节点数均为32个。
16.进一步改进在于：所述步骤四中关系型转码器网络由三个全连接神经网络构成，关系型转码器网络进行股票维度计算，利用提取的个股时序特征信息进行股票之间的互交，其中三个全连接神经网络的隐层节点数均为64个。
17.进一步改进在于：所述步骤五中的特征共享和互交过程具体为通过提取包括股票自身在内的所有股票对于该股票的信息贡献程度，并由信息贡献程度决定通过市场上个股的信息来辅助该股票的特征学习和预测过程的方法。
18.进一步改进在于：所述步骤六中选股信号预测使用的是股票排序预测，具体是基于个股未来一段时间内的超额收益幅度给个股排名进行预测，挑选出收益表现好的股票进行投资组合的构建。
19.本发明的有益效果为：本发明使用长短期记忆型循环神经网络对股票的相关性信息进行自适应抽取建模，以提取到的关系信息在个股维度实现信息交互，从而提高对个股特征的提取能力，进而提高模型的预测精度，解决目前的预测模型结构简单导致的特征提取不充分的问题；
20.本发明使用神经网络对股票关系信息进行自动抽取，数据抽取效率更高，解决了目前预测模型数据获取难度大和收集效率低的问题。
附图说明
21.图1为本发明选股模型选股方法流程图。
22.图2为本发明实施例三选股模型输出结果图。
23.图3为本发明实施例三策略净值收益累积曲线图。
24.图4为本发明实施例三策略超额收益累计曲线图。
25.图5为本发明实施例三每日超额收益分布图。
26.图6为本发明实施例三模型预测结果信息系数分布图。
具体实施方式
27.为了加深对本发明的理解，下面将结合实施例对本发明做进一步详述，本实施例仅用于解释本发明，并不构成对本发明保护范围的限定。
28.实施例一
29.根据图1所示，本实施例提供了一种智能选股模型的选股方法，包括以下步骤：
30.步骤一、从开放的股票数据平台上获取股票的交易序列特征和技术指标序列特征，并将序列特征作为数据输入导入选股模型，其中股票的交易序列和技术指标序列数据为日频时间序列化特征，通过每日的数据更新进行整个选股预测模型的日频在线更新预测；
31.步骤二、特征预处理，将获取的各个特征在时间维度上进行z-score标准化处理，具体为将得到的序列特征数据，按照序列化数据进行预处理，按照日频时间序列的分布方式，将特征序列化，再按照每支个股的时间维度进行特征标准化处理，得下式
32.特征标准化处理后数值＝(特征原始数值-特征均值)/特征标准差；
33.步骤三、特征预处理后根据股票数据的特点构建长短期记忆型循环神经网络，然后利用三个全连接神经网络构成的时需转码器网络进行基础的时序特征提取，时需转码器网络在个股的时间维度上计算，不涉及其他股票，其中三个全连接神经网络的隐层节点数均为32个；
34.步骤四、基础时序特征提取后基于转码器网络模型建立关系型转码器网络模型结构，利用关系型转码器网络模型提取股票关系信息，并根据提取的信息建立自适应动态互交特点的股票特征提取网络；
35.关系型转码器网络由三个全连接神经网络构成，关系型转码器网络进行股票维度计算，利用提取的个股时序特征信息进行股票之间的互交，其中三个全连接神经网络的隐层节点数均为64个；
36.步骤五、完成关系信息提取后，从隐层特征空间获取个股之间的关联性，利用关联性信息在不同股票之间进行特征共享和互交，具体为通过提取包括股票自身在内的所有股票对于该股票的信息贡献程度，并由信息贡献程度决定通过市场上个股的信息来辅助该股票的特征学习和预测过程的方法；
37.完成互交后在自身的原有特征的基础上加入其他相关股票的有效信息，获得丰富有效的特征表示形式；
38.步骤六、在步骤五中获得的特征表示形式基础上进行选股信号预测，生成预测选股号，其中选股信号预测使用的是股票排序预测，具体是基于个股未来一段时间内的超额收益幅度给个股排名进行预测，挑选出收益表现好的股票进行投资组合的构建。
39.实施例二
40.本实施例提供了一种智能选股模型的选股方法，包括：
41.个股的筛选
42.在全a股的所有上市股票中，去除当前已知的停盘股票，去掉面临退市风险的st股票，以及上市总时长不超过1年的股票。
43.输入数据
44.模型输入输入为股票特征数据，包含股票日频交易序列数据和量化指标数据，特征的详细描述信息如下：
45.每日开盘价格，为个股在单个交易日的开盘时价格；
46.每日收盘价格，为个股在单个交易日的收盘时价格；
47.每日最高价格，为个股在单个交易日内的盘中最高价格；
48.每日最低价格，为个股在单个交易日内的盘中最低价格；
49.每日前复权价格，为个股在单个交易日的收盘价格按前复权计算后的价格；
50.每日交易额，为个股在单个交易日内的全部交易额(交易金额总额)；
51.每日交易量，为个股在单个交易日内的全部交易量(笔数)；
52.每日价格变动值，为本个交易日较上个交易日的收盘价格变化值；
53.每日价格变动幅度，为本个交易日较上个交易日的收盘价格变化百分比；
54.5日交易均价，为按照移动平均方法计算的前5个交易日的平均价格；
55.10日交易均价，为按照移动平均方法计算的前10个交易日的平均价格；
56.20日交易均价，为按照移动平均方法计算的前20个交易日的平均价格；
57.股票所在行业标注，为标注个股所在行业分类的数值，按照二级行业划分。
58.特征处理
59.原始数据得到后，按照序列化数据进行预处理，按照日频时间序列的分布方式，将特征序列化，再按照每支个股的时间维度进行特征标准化处理，具体方法为：
60.特征标准化处理后数值＝(特征原始数值-特征均值)/特征标准差
61.标准化处理后的数值作为特征提取模型的输入，每次按60个交易日(约三个月)的时间窗口取出时间序列特征。
62.特征提取模型
63.个股时序特征提取模型，时序转码器网络由三个全连接神经网络构成，分别称作q、k和v网络，三个网络的隐层节点个数都设定为32个，q和k网络的激活函数设置为relu函数，而v网络的设置为tanh函数，该网络只在个股的时间维度上进行计算，不涉及其他股票的信息，特征提取层之后连接一个dropout层，遗忘比率设置为0.5；
64.股票关系信息提取网络，关系型转码器网络，由三个全连接神经网络构成，分别称作qs、ks和vs网络，三个网络的隐层节点个数都设定为64个，qs和ks网络的激活函数设置为relu函数，而vs网络的设置为tanh函数，该网络进行的是股票维度的计算，利用前面已经提取的个股信息进行股票之间的交互过程，不再涉及个股内部的特征提取，最后输出的特征为信息共享后的个股特征表示。
65.训练数据
66.训练数据为中国a股市场所有上市股票数据，时间范围为2015年到2021年。
67.训练方法
68.模型的训练过程使用的是adam优化器，训练数据的采样方法是滑动窗口式数据采样，每一段训练数据长度为1年，约240个交易日，之后的一个月约20个交易日为验证集合，通过验证集合上的误差下降趋势判断是否停止训练，再之后的一个月数据为测试集合，由此不断向后滑动完成训练和测试。
69.在线使用
70.在指定某一个交易日后，按照特征需要取出前60个交易日的历史数据作为输入，个股数量非固定，模型得出未来收益排名结果，作为选股模型的输出结果，以此进一步的构造投资和交易策略。
71.实施例三
72.根据说明书附图2、3、4、5、6所示，本实施例对一种智能选股模型的选股方法作出了验证，包括一下操作：
73.首先是模型的输出形式，模型以选股任务为目标，目的是挑选出具有更加出色的收益潜力的个股。股票的挑选过程本质上可以等价为一个排序过程，如果可以按照个股的未来期望收益为标准，对股票进行排名后，即可挑选出相对最为优质的股票。这个排序过程的输出形式为“打分”过程，即模型根据股票未来期望回报的水平为其进行评分，根据评分
大小即可得出排序结果。如说明书附图2为模型的输出结果示意图。
74.在得到选股的评分以及最终的排序结果后，为挑选出的股票构建投资组合策略，从而实现信号到投资收益的转换。在2016年到2020年的5年时间内的全a股数据上进行回测交易实验，在评估模型效果上，构造多种可视化图表，使用多种评测指标，同时考虑模型在收益能力、风险控制和投资质量等多个方面的表现。
75.交易策略设定：在得到个股的排序结果后，按照排名结果选择排名最高的前10只个股进行交易，每10个交易日进行一次调仓，个股的仓位分配为等仓位分配，即所有个股按照相等的比例得到资金分配。
76.累计回报曲线：指按照投资策略进行连续交易，在计算交易成本的前提下，策略在全部持有期结束后得到的累计回报变化情况，直接体现了投资策略的收益能力。为了更好的体现模型的效果，我们选用了市场的平均收益作为对比标准，如说明书附图3中的下方曲线，上方的曲线表示的是策略的累计收益曲线(收益计算采用的是复利计算方式)。
77.从累计收益曲线的对比中可以看出，模型的选股结果能够挑选出优质的个股进行投资，投资策略也可以得到较为明显的超越市场基准收益的回报，从收益表现可视化对比的角度，证明了所提出的模型的有效性。
78.超额收益水平：超额收益表示的是策略收益超过市场基准收益的水平，体现了主动型投资策略领先于市场平均水平的程度，同样也是有力的证明策略有效性的指标和依据。如说明书附图4展示的是策略的累计超额收益曲线，即按照每日的超额收益进行复利累积，在整个持有期内所得到的累计超额回报的变化趋势。
79.从说明书附图4中可以看出，策略能够稳定的给出超越市场基准水平的收益回报，并且趋势非常稳定，证明了模型在选股预测和主动投资方面的有效性，说明书附图5展示的是策略的每日超额收益分布情况，从说明书附图5中可以看出，策略在大部分时间都可以得到正值的超额收益回报，并且收益幅度相较来说也较为明显。
80.选股准确性：选股的准确性一般可以用信息系数(information coefficient，一般记作ic),来进行衡量，信息系数指的是个股收益与排名结果之间的相关系数，范围为-1到1，如果相关系数越大越接近于1，表示预测越准确，对于a股市场而言，可盈利的策略的样本外ic水平为5％以上。如说明书附图6展示的是在这个持有期范围内，模型给出的选股结果的信息系数分布情况。
81.从说明书附图6的结果中可以看出，模型在大部分时间的信息系数大部分时间处于正值范围，并且大部分时间的信息系数数值都高于5％，说明模型在大部分时间下是存在有效的选股信号。此外，有约40％左右的天数的单日信息系数超过了10％，说明模型的选股信号的强度超过了目前市场上一般策略的平均水平(5％)。进一步的验证了提出的利用股票关系信息的选股模型的有效性。
82.以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术特征：
1.一种智能选股模型的选股方法，其特征在于包括以下步骤：步骤一、从开放的股票数据平台上获取股票的交易序列特征和技术指标序列特征，并将序列特征作为数据输入导入选股模型；步骤二、特征预处理，将获取的各个特征在时间维度上进行z-score标准化处理；步骤三、特征预处理后根据股票数据的特点构建长短期记忆型循环神经网络，然后利用神经网络进行基础的时序特征提取；步骤四、基础时序特征提取后基于转码器网络模型建立关系型转码器网络模型结构，利用关系型转码器网络模型提取股票关系信息，并根据提取的信息建立自适应动态互交特点的股票特征提取网络；步骤五、完成关系信息提取后，从隐层特征空间获取个股之间的关联性，利用关联性信息在不同股票之间进行特征共享和互交，完成互交后在自身的原有特征的基础上加入其他相关股票的有效信息，获得丰富有效的特征表示形式；步骤六、在步骤五中获得的特征表示形式基础上进行选股信号预测，生成预测选股号。2.根据权利要求1所述的一种智能选股模型的选股方法，其特征在于：所述步骤一中所述的股票的交易序列和技术指标序列数据为日频时间序列化特征，通过每日的数据更新进行整个选股预测模型的日频在线更新预测。3.根据权利要求1所述的一种智能选股模型的选股方法，其特征在于：所述步骤二中z-score标准化处理具体为将得到的序列特征数据，按照序列化数据进行预处理，按照日频时间序列的分布方式，将特征序列化，再按照每支个股的时间维度进行特征标准化处理，得下式特征标准化处理后数值＝(特征原始数值-特征均值)/特征标准差。4.根据权利要求1所述的一种智能选股模型的选股方法，其特征在于：所述步骤三中基础的时序特征提取由三个全连接神经网络构成的时需转码器网络实现的，且时需转码器网络在个股的时间维度上计算，不涉及其他股票，其中三个全连接神经网络的隐层节点数均为32个。5.根据权利要求1所述的一种智能选股模型的选股方法，其特征在于：所述步骤四中关系型转码器网络由三个全连接神经网络构成，关系型转码器网络进行股票维度计算，利用提取的个股时序特征信息进行股票之间的互交，其中三个全连接神经网络的隐层节点数均为64个。6.根据权利要求1所述的一种智能选股模型的选股方法，其特征在于：所述步骤五中的特征共享和互交过程具体为通过提取包括股票自身在内的所有股票对于该股票的信息贡献程度，并由信息贡献程度决定通过市场上个股的信息来辅助该股票的特征学习和预测过程的方法。7.根据权利要求1所述的一种智能选股模型的选股方法，其特征在于：所述步骤六中选股信号预测使用的是股票排序预测，具体是基于个股未来一段时间内的超额收益幅度给个股排名进行预测，挑选出收益表现好的股票进行投资组合的构建。

技术总结
本发明公开一种智能选股模型的选股方法，包括步骤一、交易序列特征数据和技术指标序列特征数据的获取，步骤二、特征标准化处理，步骤三、基础的时序特征的提取，步骤四、提取股票关系信息并建立自适应动态互交特点的股票特征提取网络，步骤五、完成不同股票之间进行特征共享和互交，步骤六、产生选股预测信号并生成选股预测号；本发明使用长短期记忆型循环神经网络对股票的相关性信息进行自适应抽取建模，以提取到的关系信息在个股维度实现信息交互，从而提高对个股特征的提取能力，进而提高模型的预测精度，使用神经网络对股票关系信息进行自动抽取，数据抽取效率更高。数据抽取效率更高。数据抽取效率更高。

技术研发人员：谭营马涛
受保护的技术使用者：北京智谭科技有限公司
技术研发日：2021.12.06
技术公布日：2022/3/8

专利

最新回复(0)