基于词属性位置关系与贝叶斯的少样本金融文本分类系统

1.本发明涉及机器学习、金融两个交叉领域，具体是一种机器学习及其优化提升学习的方法应用于金融领域内针对上市公司发布的重大公告及新闻信息的快速识别与分拣。

背景技术：

2.现阶段人工智能正逐步涉足各个行业领域，并为其发展提供了新的可能。金融领域，作为实时数据产生最大的行业之一，同样步入“ai+金融”时代。作为金融领域的重要任务之一，快速、准确对金融公告/新闻进行识别与分拣是非常有意义与价值的。目前已知的基于传统规则、传统机器学习范式为技术基础的识别与分拣系统，存在以下不足：
3.(1)目前大部分的金融文本分类方法大多基于大量标注文本进行训练，无法处理只有少量样本的金融文本识别与分拣。
4.(2)在传统机器学习的方法中并没有考虑到金融文本中不同属性词之间的位置关系，而针对同一组金融词汇，将它们打乱后重新排列，通常会表达出不同的含义，因此，金融文本中不同属性词汇的位置关系，针对金融文本的识别于分拣任务而言，是必不可少的文本特征信息。

技术实现要素：

5.针对以上不足，本发明提出一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统，用于对金融文本的快速、准确的识别与分拣，该系统包括数据库模块，文本信息处理模块，贝叶斯算法模块，贝叶斯参数优化模块以及显示模块；文本信息处理模块引入了三种不同的外部词汇：公司名词库，动词词库，其它财经词库，并将不同词汇属性的位置关系作为贝叶斯的提升算法模块的一种输入数据，和文本词特征，字特征结合以提升贝叶斯的提升算法模块对金融文本的预测精度。该系统在少量样本金融文本分类的任务中，首次提出不同词汇类型的位置关系属性，用于增强金融文本的特征信息，提高了文本分类的准确率，可广泛用于对研报，新闻等文本的快速分类。
6.本发明的目的是通过以下技术方案来实现的：一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统。包括数据库模块，文本信息处理模块，贝叶斯算法模块，贝叶斯参数优化模块，显示模块以及以下工作步骤：
7.步骤1：从数据库中获取公司名词库e，动词词库v，其它财经词库f，并分别为它们建立字典树。从数据库中获取初始金融数据文本，构成金融文本集。
8.步骤2：采用“正/逆向最大分词法”将金融文本集中每一条文本的公司名e＝{e1,e2,e3,
……
}，触发词(动词)v＝{v1,v2,v3,
……
}和其他财经词汇f＝{f1,f2,f3,
……
}抽取出来；删除其他财经词汇中与公司名和触发词重叠的词。
9.步骤3：对从金融文本集中每一条文本的公司名e＝{e1,e2,e3,
……
}，触发词(动词)v＝{v1,v2,v3,
……
}和其他财经词汇f＝{f1,f2,f3,
……
}构建九种不同类型的词位置关系：
10.·
在金融文本中，若触发词紧挨在公司名后面出现，则将其标志为p(v|e)。
11.·
在金融文本中，若公司名紧挨在公司名后面出现，则将其标志为p(e|e)。
12.·
在金融文本中，若其它财经词汇紧挨在公司名后面出现，则将其标志为p(e|e)。
13.·
在金融文本中，若其他财经词汇紧挨在触发词后面出现，则将其标志为：p(f|v)。
14.·
在金融文本中，若触发词紧挨在触发词后面出现，则将其标志为：p(v|v)。
15.·
在金融文本中，若公司名紧挨在触发词后面出现，则将其记为：p(e|v)。
16.·
在金融文本中，若公司名紧挨在其它财经词汇后面出现，则将其记为：p(e|f)。
17.·
在金融文本中，若触发词紧挨在其他财经词汇后面出现，则将其记为：p(v|f)
18.·
在金融文本中，若其他财经词汇紧挨在其他财经词汇后面出现，则将其记为：p(f|f)
19.步骤4：分别计算金融文本d中的第j个词tj在类别ci中的概率计算公式为：
[0020][0021]
式中num
c,tj
表示类别c中词tj的个数，|vo|表示不同词的个数。
[0022]
步骤5：分别计算词t
j+1
的属性紧挨在词tj的属性后面出现在类别ci中的概率中的概率计算公式为：
[0023][0024]
式中表示词t
j+1
的属性紧挨在词tj的属性后面出现在类别c中的次数。
[0025]
步骤6：由步骤3，4，5构建贝叶斯算法模块的文本分类模型的计算公式：
[0026][0027]
式中λi为类别ci的调整参数。式中表示金融文本d中的第j个词tj在类别ci中的概率，由步骤3计算得到；表示词t
j+1
的属性紧挨在词tj的属性后面出现在类别ci中的概率，由步骤4计算得到。
[0028]
步骤7：查找适合的λ参数使得模型f的预测更为准确，采取的参数拟合方法为高斯模型。
[0029]
λ
*
＝argminf(λ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0030]
对贝叶斯算法模块中的{λ1,λ2,λ3,
……
}参数在(0,1)的范围内进行参数值搜索，当模型的预测精度无法继续提升时，停止λi的参数搜索。
[0031]
步骤8：根据步骤7得到的贝叶斯模型对步骤1，2处理好的金融文本类型进行预测。
[0032]
步骤9：将步骤8获得的分拣结果输入显示模块进行显示。
附图说明
[0033]
图1一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统功能模块图。
具体实施方式
[0034]
下面根据附图和实施例进一步说明本发明：
[0035]
参考图1，数据库模块与1与文本信息处理模块2相连，贝叶斯算法模块3依次与文本信息处理模块2、参数优化模块5，显示模块4依次相连。
[0036]
所述数据库模块1包含通过从互联网或实际需求获得的金融文本及相关词库信息。
[0037]
文本信息处理模块2用于构建不同词的词属性位置关系，构建方式如下：
[0038]
在引入了数据库中获取的公司名词库，动词词库，其它财经词库后，对各词库分别建立了字典树，采用“正/逆向最大分词法”将金融文本集中每一条文本的公司名e＝{e1,e2,e3,
……
}，触发词(动词)v＝{v1,v2,v3,
……
}和其他财经词汇f＝{f1,f2,f3,
……
}抽取出来；并根据金融文本中不同属性的实体词，构建了九种不同类型的词位置关系：
[0039]
·
在金融文本中，若触发词紧挨在公司名后面出现，则将其标志为p(v|e)。
[0040]
·
在金融文本中，若公司名紧挨在公司名后面出现，则将其标志为p(e|e)。
[0041]
·
在金融文本中，若其它财经词汇紧挨在公司名后面出现，则将其标志为p(f|e)。
[0042]
·
在金融文本中，若其他财经词汇紧挨在触发词后面出现，则将其标志为：p(f|v)。
[0043]
·
在金融文本中，若触发词紧挨在触发词后面出现，则将其标志为：p(v|v)。
[0044]
·
在金融文本中，若公司名紧挨在触发词后面出现，则将其记为：p(e|v)。
[0045]
·
在金融文本中，若公司名紧挨在其它财经词汇后面出现，则将其记为：p(e|f)。
[0046]
·
在金融文本中，若触发词紧挨在其他财经词汇后面出现，则将其记为：p(v|f)
[0047]
·
在金融文本中，若其他财经词汇紧挨在其他财经词汇后面出现，则将其记为：p(f|f)
[0048]
贝叶斯算法模块3用于对金融文本和词属性位置关系进行文本类别预测，主要采用以下步骤完成：
[0049]
首先分别计算金融文本d中的第j个词tj在类别ci中的概率计算公式为：
[0050][0051]
式中num
c,tj
表示类别c中词tj的个数，|vo|表示不同词的个数。
[0052]
接着计算词t
j+1
的属性紧挨在词tj的属性后面出现在类别ci中的概率中的概率计算公式为：
[0053][0054]
式中表示词t
j+1
的属性紧挨在词tj的属性后面出现在类别c中的次数。
[0055]
之后可得文本分类模型的主要计算公式为:
[0056][0057]
式中λi为类别ci的调整参数。式中表示金融文本d中的第j个词tj在类别ci中的概率；表示词t
j+1
的属性紧挨在词tj的属性后面出现在类别ci中的概率。
[0058]
最后由参数优化模块5高斯模型对贝叶斯模型的参数进行寻优，得到最后的改进的贝叶斯提升算法模型模块，并由该模块预测金融文本的类型。
[0059]
显示模块4将贝叶斯提升算法模块3得到的结果通过显示屏进行输出显示。

技术特征：
1.一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统，其特征在于：数据库模块，文本信息处理模块，贝叶斯算法模块，贝叶斯参数优化模块，显示模块。该系统的工作步骤如下：步骤1：从数据库中获取公司名词库e，动词词库v，其它财经词库f，并分别为它们建立字典树。从数据库中获取初始金融数据文本，构成金融文本集。步骤2：采用“正/逆向最大分词法”将金融文本集中每一条文本的公司名e＝{e1，e2，e3，......}，触发词(动词)v＝{v1，v2，v3，......}和其他财经词汇f＝{f1，f2，f3，......}抽取出来；删除其他财经词汇中与公司名和触发词重叠的词。步骤3：对从金融文本集中每一条文本的公司名e＝{e1，e2，e3，......}，触发词(动词)v＝{v1，v2，v3，......}和其他财经词汇f＝{f1，f2，f3，.....}构建以下九种不同类型的词位置关系：(a)在金融文本中，若触发词紧挨在公司名后面出现，则将其标志为p(v|e)。(b)在金融文本中，若公司名紧挨在公司名后面出现，则将其标志为p(e|e)。(c)在金融文本中，若其它财经词汇紧挨在公司名后面出现，则将其标志为p(f|e)。(d)在金融文本中，若其他财经词汇紧挨在触发词后面出现，则将其标志为：p(f|v)。(e)在金融文本中，若触发词紧挨在触发词后面出现，则将其标志为：p(v|v)。(f)在金融文本中，若公司名紧挨在触发词后面出现，则将其记为：p(e|v)。(g)在金融文本中，若公司名紧挨在其它财经词汇后面出现，则将其记为：p(e|f)。(h)在金融文本中，若触发词紧挨在其他财经词汇后面出现，则将其记为：p(v|f)(i)在金融文本中，若其他财经词汇紧挨在其他财经词汇后面出现，则将其记为：p(f|f)步骤4：分别计算金融文本d中的第j个词t
j
在类别c
i
中的概率计算公式为：式中，num
c，tj
表示类别c中词t
j
的个数，|vo|表示不同词的个数。步骤5：分别计算词t
j+1
的属性紧挨在词t
j
的属性后面出现在类别c
i
中的概砗中的概砗计算公式为：式中，表示词t
j+1
的属性紧挨在词t
j
的属性后面出现在类别c中的次数。步骤6：由步骤3，4，5构建贝叶斯算法模块的文本分类模型的计算公式：式中，λ
i
为类别c
i
的调整参数。式中表示金融文本d中的第j个词t
j
在类别c
i
中的概率，由步骤3计算得到；表示词t
j+1
的属性紧挨在词t
j
的属性后面出现在类别c
i
中的概率，由步骤4计算得到。
步骤7：查找适合的λ参数使得模型f的预测更为准确，采取的参数拟合方法为高斯模型。λ
*
＝argmin f(λ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)对贝叶斯算法模块中的{λ1，λ2，λ3，......}参数在(0，1)的范围内进行参数值搜索，当模型的预测精度无法继续提升时，停止λ
i
的参数搜索。步骤8：根据步骤7得到的贝叶斯模型对步骤1，2处理好的金融文本类型进行预测。步骤9：将步骤8获得的分拣结果输入显示模块进行显示。

技术总结
本发明公开了一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统。该系统基于词属性位置关系和改进的贝叶斯算法实现金融文本的分类任务，主要包括文本信息处理模块和基于贝叶斯的提升算法模块，文本信息处理模块引入了三种不同的外部词汇：公司名词库，动词词库，其它财经词库，并将不同词汇属性的位置关系作为贝叶斯的提升算法模块的一种新的输入数据，和文本词特征，字特征结合以提升算法模块对金融文本的预测精度。此外，本系统在少量样本金融文本分类的任务中，首次提出不同词汇类型的位置关系属性，用于增强金融文本的特征信息，提高了文本分类的准确率。提高了文本分类的准确率。提高了文本分类的准确率。

技术研发人员：刘兴高李栓刘静王文海张志猛张泽银
受保护的技术使用者：浙江大学
技术研发日：2021.11.09
技术公布日：2022/3/7

专利

最新回复(0)