1.本发明属于大数据技术领域,尤其涉及自然语言处理技术领域,具体是指一种用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质。
背景技术:
2.自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。简单来说,自然语言处理的过程就是让机器去理解人的文本或语言,其中如翻译、语音识别、语义理解、智能问答,知识图谱等都属于nlp的范畴。
3.自计算机诞生伊始,人类就致力于让机器来理解我们语言。随着人工智能、计算机科学、信息工程、统计学、甚至语言学等学科知识的不断进步,目前nlp已经拥有了大量的商业应用,如机器翻译(google翻译、有道翻译等)、知识图谱(以google为代表的搜索引擎)、智能问答(apple的siri、亚马逊的alexa以及各种智能机器人)等等。
4.但是,金融领域的nlp目前仍处于探索阶段,金融本身是一个专业性很高的领域,很多词汇在金融语境下会产生特殊含义,所有的子问题都会有一个独特的理解方式,而且金融领域衡量处理结果的方式也与其他领域不同。因此,金融领域的nlp需要准备特殊的训练数据集,而目前nlp所有方法都是基于大量的数据集基础上,数据集的缺乏也是目前nlp在金融领域所面临的最大问题之一,这也是金融领域高度的专业性与深度导致的。
5.针对金融领域的舆情分析,目前金融资讯类信息十分丰富,比如各种公告、新闻、年报等信息,我们难以靠人工阅读、分析所有相关的资讯,但这类数据对事件分析、决策辅助、监控预警的重要性却愈发显著。甚至我们可以通过nlp相关技术在金融领域实现对市场未来的走势一定的预见性。对于纷繁复杂的资讯类数据,我们可以通过nlp相关技术对资讯中的主要描述对象进行判断,进而基于资讯进一步判断其主要描述对象的情感极性,这样可以有效的帮助我们识别、过滤有效资讯,而非盲目的去全盘接受。
技术实现要素:
6.本发明的目的是克服了上述现有技术的缺点,提供了一种能够有效过滤价值信息的用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质。
7.为了实现上述目的,本发明的用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质如下:
8.该用于实现金融领域实体识别和情感分析的方法,其主要特点是,所述的方法包括以下步骤:
9.(1)采集金融领域多方数据源,进行文本数据的解析处理;
10.(2)根据预设的实体名称,对解析后的文本数据进行名称要素的抽取;
11.(3)基于所抽取的名称要素在整篇文本中的词频统计结果,进行实体识别判断;
12.(4)基于上述步骤(3)获取到的一个或多个实体,通过训练模型进行细粒度情感分析判断;
13.(5)基于上述步骤(3)和(4)获取的结果,将对应的文本打上判断识别后的标签。
14.较佳地,所述的多方数据源包括但不限于金融领域中的新闻类、资讯类以及公告类的数据。
15.较佳地,所述的步骤(1)具体为:
16.对采集到的金融领域多方数据进行包括但不限于去除html标签、统一转为utf-8编码的文本解析操作。
17.较佳地,所述的步骤(2)具体包括以下步骤:
18.(2.1)预先设置包括但不限于公司名称、股票名称以及债券名称的实体名称;
19.(2.2)采用bilstm+crf算法训练的抽取模型进行文本数据的要素抽取。
20.较佳地,所述的步骤(2.2)具体包括以下步骤:
21.(2.2.1)针对采集到的每一句文本中的每一字符,通过glove词向量获得每一个字符的向量表征;
22.(2.2.2)通过双向lstm网络层获取每一个字符所属标记的概率分布情况;
23.(2.2.3)通过crf层获取各个标记之间的转移概率;
24.(2.2.4)通过维特比算法从所有可能的标记路径中解析出每个字符的标记概率和标记转移概率之和最大的最优路径,以获取所需的文本要素信息。
25.较佳地,所述的抽取模型中设置的模型训练参数预设值包括:
26.学习率learning_rate、最长序列长度max_seq_length以及bilstm隐层神经元个数hidden_size,其中,
27.所述的学习率learning_rate的参数预设值设置为0.001;
28.所述的最长序列长度max_seq_length的参数预设值设置为200;
29.所述的bilstm隐层神经元个数hidden_size的参数预设值设置为128。
30.较佳地,所述的抽取模型将在每一个的模型训练当中不断优化,并通过累计训练积累的语料库对所述的抽取模型中的实体进行二次校对,以避免实体名称不完整。
31.较佳地,所述的步骤(3)具体为:
32.对进行消歧处理后获取的实体名称进行词频统计处理,并结合相应实体在文本中的位置信息,确定最终的一个或多个实体。
33.较佳地,所述的步骤(4)具体为:
34.对获取到的一个或多个实体,逐个结合原文文本通过doc-level target dependence lstm训练模型完成细粒度情感分析判断。
35.较佳地,所述的步骤(4)具体包括以下步骤:
36.(4.1)对获取到的文本筛选出包含实体或实体简称的句子;
37.(4.2)基于实体或实体简称在句子中的位置,将每一句话拆分为左半句和右半句;
38.(4.3)每一个左半句和右半句都需经过独立的bilstm网络进行训练;
39.(4.4)将训练完成后的左右两个bilstm网络输出结果进行合并,重复上述步骤直到所有句子均拆分和训练完毕;
40.(4.5)将每一个句子拆分合并后的训练结果进行聚合处理;
41.(4.6)通过所述的doc-level target dependence lstm训练模型中的线性层以及softmax层对每一个句子中的实体进行正面、中性、负面的情感标签概率统计;
42.(4.7)根据上述步骤的概率统计结果,选择概率值最大的情感标签作为当前该实体的细粒度情感分析结果。
43.较佳地,所述的doc-level target dependence lstm训练模型中设置的模型训练参数预设值包括:
44.最大句子个数max_n_sents、最长序列长度max_seq_length、bilstm隐层神经元个数hidden_size、损失函数类型loss、focal loss权重_0alpha、focal loss权重_1gamma,其中,
45.所述的最大句子个数max_n_sents的参数预设值设置为5;
46.所述的最长序列长度max_seq_length的参数预设值设置为200;
47.所述的bilstm隐层神经元个数hidden_size的参数预设值设置为128;
48.所述的损失函数类型loss的参数预设值设置为focal;
49.所述的focal loss权重_0alpha的参数预设值设置为0.2;
50.所述的focal loss权重_1gamma的参数预设值设置为2。
51.该用于实现金融领域实体识别和情感分析的装置,其主要特点是,所述的装置包括:
52.处理器,被配置成执行计算机可执行指令;
53.存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
54.该用于实现金融领域实体识别和情感分析的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
55.该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
56.采用了本发明的该用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质,对于纷繁复杂的各类数据,利用自然语言处理相关技术对各类数据中的主要描述对象进行判断,进而基于相关文本数据进一步判断其主要描述对象的情感极性,从而有效的帮助我们识别、过滤有效资讯,而非盲目的去全盘接受,将可利用资源的商业价值发挥到最大,以便于用户更好的利用和识别。
附图说明
57.图1为本发明的用于实现金融领域实体识别和情感分析的方法的流程图。
58.图2为本发明的用于实现金融领域实体识别和情感分析的方法进行名称要素提取的示意图。
59.图3为本发明的用于实现金融领域实体识别和情感分析的方法的细粒度情感分析模型架构图。
具体实施方式
60.为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
61.在详细说明根据本发明的实施例前,应该注意到的是,在下文中,术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
62.请参阅图1所示,该用于实现金融领域实体识别和情感分析的方法,其中,所述的方法包括以下步骤:
63.(1)采集金融领域多方数据源,进行文本数据的解析处理;
64.(2)根据预设的实体名称,对解析后的文本数据进行名称要素的抽取;
65.(3)基于所抽取的名称要素在整篇文本中的词频统计结果,进行实体识别判断;
66.(4)基于上述步骤(3)获取到的一个或多个实体,通过训练模型进行细粒度情感分析判断;
67.(5)基于上述步骤(3)和(4)获取的结果,将对应的文本打上判断识别后的标签。
68.作为本发明的优选实施方式,所述的多方数据源包括但不限于金融领域中的新闻类、资讯类以及公告类的数据。
69.作为本发明的优选实施方式,所述的步骤(1)具体为:
70.对采集到的金融领域多方数据进行包括但不限于去除html标签、统一转为utf-8编码的文本解析操作。
71.作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
72.(2.1)预先设置包括但不限于公司名称、股票名称以及债券名称的实体名称;
73.(2.2)采用bilstm+crf算法训练的抽取模型进行文本数据的要素抽取。
74.请参阅图2所示,作为本发明的优选实施方式,所述的步骤(2.2)具体包括以下步骤:
75.(2.2.1)针对采集到的每一句文本中的每一字符,通过glove词向量获得每一个字符的向量表征;
76.(2.2.2)通过双向lstm网络层获取每一个字符所属标记的概率分布情况;
77.(2.2.3)通过crf层获取各个标记之间的转移概率;
78.(2.2.4)通过维特比算法从所有可能的标记路径中解析出每个字符的标记概率和标记转移概率之和最大的最优路径,以获取所需的文本要素信息。
79.作为本发明的优选实施方式,所述的抽取模型中设置的模型训练参数预设值包括:
80.学习率learning_rate、最长序列长度max_seq_length以及bilstm隐层神经元个数hidden_size,其中,
81.所述的学习率learning_rate的参数预设值设置为0.001;
82.所述的最长序列长度max_seq_length的参数预设值设置为200;
83.所述的bilstm隐层神经元个数hidden_size的参数预设值设置为128。
84.作为本发明的优选实施方式,所述的抽取模型将在每一个的模型训练当中不断优
化,并通过累计训练积累的语料库对所述的抽取模型中的实体进行二次校对,以避免实体名称不完整。
85.作为本发明的优选实施方式,所述的步骤(3)具体为:
86.对进行消歧处理后获取的实体名称进行词频统计处理,并结合相应实体在文本中的位置信息,确定最终的一个或多个实体。
87.作为本发明的优选实施方式,所述的步骤(4)具体为:
88.对获取到的一个或多个实体,逐个结合原文文本通过doc-level target dependence lstm训练模型完成细粒度情感分析判断。
89.请参阅图3所示,作为本发明的优选实施方式,所述的步骤(4)具体包括以下步骤:
90.(4.1)对获取到的文本筛选出包含实体或实体简称的句子;
91.(4.2)基于实体或实体简称在句子中的位置,将每一句话拆分为左半句和右半句;
92.(4.3)每一个左半句和右半句都需经过独立的bilstm网络进行训练;
93.(4.4)将训练完成后的左右两个bilstm网络输出结果进行合并,重复上述步骤直到所有句子均拆分和训练完毕;
94.(4.5)将每一个句子拆分合并后的训练结果进行聚合处理;
95.(4.6)通过所述的doc-level target dependence lstm训练模型中的线性层以及softmax层对每一个句子中的实体进行正面、中性、负面的情感标签概率统计;
96.(4.7)根据上述步骤的概率统计结果,选择概率值最大的情感标签作为当前该实体的细粒度情感分析结果。
97.作为本发明的优选实施方式,所述的doc-level target dependence lstm训练模型中设置的模型训练参数预设值包括:
98.最大句子个数max_n_sents、最长序列长度max_seq_length、bilstm隐层神经元个数hidden_size、损失函数类型loss、focal loss权重_0alpha、focal loss权重_1gamma,其中,
99.所述的最大句子个数max_n_sents的参数预设值设置为5;
100.所述的最长序列长度max_seq_length的参数预设值设置为200;
101.所述的bilstm隐层神经元个数hidden_size的参数预设值设置为128;
102.所述的损失函数类型loss的参数预设值设置为focal;
103.所述的focal loss权重_0alpha的参数预设值设置为0.2;
104.所述的focal loss权重_1gamma的参数预设值设置为2。
105.该用于实现金融领域实体识别和情感分析的装置,其中,所述的装置包括:
106.处理器,被配置成执行计算机可执行指令;
107.存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
108.该用于实现金融领域实体识别和情感分析的处理器,其中,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
109.该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
110.在本发明的一具体实施方式中,为了更好的识别、过滤金融领域各种丰富且复杂的资讯类信息,本发明提出了一种用于实现金融领域实体识别和情感分析的方法,具体步骤如下:
111.步骤s1,整合新闻类、公告类等多方数据源。部分数据源仅是简单爬取网页内容,需要先进行去除html标签、统一转为utf-8编码等文本解析操作。
112.步骤s2,根据预先设计的实体名称,如公司名称、债券名称等,通过bilstm+crf算法训练的抽取模型完成文本数据的要素抽取。模型抽取过程如图2所示,其中每个句子中每一个字符,先通过glove词向量获得其向量表征,然后通过双向lstm网络层获得每一个标记的概率分布,最后通过条件随机场-维特比算法从所有可能的标记路径中解析出最优路径。
113.模型训练初始参数如表1,目前对于初始参数的设定,主要基于经验值,在后续优化调整中采用网格搜索方法。
114.表1
115.参数名参数中文名参数预设值learning_rate学习率0.001max_seq_length最长序列长度200hidden_sizebilstm隐层神经元个数128
116.步骤s3,基于所抽取要素在整篇资讯中的词频统计,进行主体识别判断。
117.规则1.通过不断优化实体抽取模型的准确度之外,也会通过积累的语料库对抽取的实体进行二次校对,避免实体名称不全。
118.规则2.根据实体消歧之后的公司名称、债券名称进行词频统计,同时结合实体在资讯中的位置信息,确定最终的一个或多个主体。
119.步骤s4,基于步骤s3获取的一个或多个主体,逐个实体结合资讯原文,通过doc-level target dependence lstm训练的模型完成细粒度情感分析判断,本文所涉及情感标签包括正面、中性、负面。模型训练初始参数如表2,目前对于初始参数的设定,主要基于经验值,在后续优化调整中采用网格搜索方法。
120.表2
121.参数名参数中文名参数预设值max_n_sents最大句子个数5max_seq_length最长序列长度200hidden_sizebilstm隐层神经元个数128loss损失函数类型focalalphafocal loss权重_00.2gammafocal loss权重_12
122.《effective lstms for target-dependent sentiment classification》论文提出的td-lstm模型是基于target在原文中的位置,把原文拆分成左、右两部分,左右两部分分别经过不同的bilstm,然后再合并、输出对应的情感标签。所用的数据集是semeval-2014 task 4,只是句子级数据集。
123.而我们所面临的实际数据集更多是篇章级,一个主体在文章中会出现多次,我们对td-lstm模型进行了针对性的改造,提出了doc-level target dependence lstm模型结
构,如图3所示。首先从全文中筛选出包含主体或主体简称的句子,然后基于主体在句子中位置,把每一句话拆分为左、右半句,每半句都要经过一个独立的bilstm网络,所以每一个句子需要经过两个bilstm网络,并将左、右两个bilstm网络输出结果合并,最后把每一个句子经过bilstm网络之后的结果做聚合,最后通过线性层、softmax层转为正面、中性、负面情感标签的概率分布,并取最大概率的情感标签。
124.步骤s5,根据步骤s3、步骤s4获取的结果,先识别出资讯的主体,并基于资讯和主体打上正负面的情感标签。
125.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
126.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。
127.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
128.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
129.在本说明书的描述中,参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
130.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
131.采用了本发明的该用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质,对于纷繁复杂的各类数据,利用自然语言处理相关技术对各类数据中的主要描述对象进行判断,进而基于相关文本数据进一步判断其主要描述对象的情感极性,从而有效的帮助我们识别、过滤有效资讯,而非盲目的去全盘接受,将可利用资源的商业价值发挥到最大,以便于用户更好的利用和识别。
132.在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
技术特征:
1.一种用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的方法包括以下步骤:(1)采集金融领域多方数据源,进行文本数据的解析处理;(2)根据预设的实体名称,对解析后的文本数据进行名称要素的抽取;(3)基于所抽取的名称要素在整篇文本中的词频统计结果,进行实体识别判断;(4)基于上述步骤(3)获取到的一个或多个实体,通过训练模型进行细粒度情感分析判断;(5)基于上述步骤(3)和(4)获取的结果,将对应的文本打上判断识别后的标签。2.根据权利要求1所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的多方数据源包括但不限于金融领域中的新闻类、资讯类以及公告类的数据。3.根据权利要求2所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(1)具体为:对采集到的金融领域多方数据进行包括但不限于去除html标签、统一转为utf-8编码的文本解析操作。4.根据权利要求1所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(2)具体包括以下步骤:(2.1)预先设置包括但不限于公司名称、股票名称以及债券名称的实体名称;(2.2)采用bilstm+crf算法训练的抽取模型进行文本数据的要素抽取。5.根据权利要求4所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(2.2)具体包括以下步骤:(2.2.1)针对采集到的每一句文本中的每一字符,通过glove词向量获得每一个字符的向量表征;(2.2.2)通过双向lstm网络层获取每一个字符所属标记的概率分布情况;(2.2.3)通过crf层获取各个标记之间的转移概率;(2.2.4)通过维特比算法从所有可能的标记路径中解析出每个字符的标记概率和标记转移概率之和最大的最优路径,以获取所需的文本要素信息。6.根据权利要求5所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的抽取模型中设置的模型训练参数预设值包括:学习率learning_rate、最长序列长度max_seq_length以及bilstm隐层神经元个数hidden_size,其中,所述的学习率learning_rate的参数预设值设置为0.001;所述的最长序列长度max_seq_length的参数预设值设置为200;所述的bilstm隐层神经元个数hidden_size的参数预设值设置为128。7.根据权利要求4所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的抽取模型将在每一个的模型训练当中不断优化,并通过累计训练积累的语料库对所述的抽取模型中的实体进行二次校对,以避免实体名称不完整。8.根据权利要求7所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(3)具体为:对进行消歧处理后获取的实体名称进行词频统计处理,并结合相应实体在文本中的位
置信息,确定最终的一个或多个实体。9.根据权利要求8所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(4)具体为:对获取到的一个或多个实体,逐个结合原文文本通过doc-level target dependence lstm训练模型完成细粒度情感分析判断。10.根据权利要求9所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(4)具体包括以下步骤:(4.1)对获取到的文本筛选出包含实体或实体简称的句子;(4.2)基于实体或实体简称在句子中的位置,将每一句话拆分为左半句和右半句;(4.3)每一个左半句和右半句都需经过独立的bilstm网络进行训练;(4.4)将训练完成后的左右两个bilstm网络输出结果进行合并,重复上述步骤直到所有句子均拆分和训练完毕;(4.5)将每一个句子拆分合并后的训练结果进行聚合处理;(4.6)通过所述的doc-level target dependence lstm训练模型中的线性层以及softmax层对每一个句子中的实体进行正面、中性、负面的情感标签概率统计;(4.7)根据上述步骤的概率统计结果,选择概率值最大的情感标签作为当前该实体的细粒度情感分析结果。11.根据权利要求10所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的doc-level target dependence lstm训练模型中设置的模型训练参数预设值包括:最大句子个数max_n_sents、最长序列长度max_seq_length、bilstm隐层神经元个数hidden_size、损失函数类型loss、focal loss权重_0alpha、focal loss权重_1gamma,其中,所述的最大句子个数max_n_sents的参数预设值设置为5;所述的最长序列长度max_seq_length的参数预设值设置为200;所述的bilstm隐层神经元个数hidden_size的参数预设值设置为128;所述的损失函数类型loss的参数预设值设置为focal;所述的focal loss权重_0alpha的参数预设值设置为0.2;所述的focal loss权重_1gamma的参数预设值设置为2。12.一种用于实现金融领域实体识别和情感分析的装置,其特征在于,所述的装置包括:处理器,被配置成执行计算机可执行指令;存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现权利要求1至11中任一项所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。13.一种用于实现金融领域实体识别和情感分析的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至11中任一项所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1至11中任一项所述的用于实现金融领域实体识别和情感分析的方法的各个步骤。
技术总结
本发明涉及一种用于实现金融领域实体识别和情感分析的方法,其中,该方法包括:采集金融领域多方数据源,进行文本数据的解析处理;根据预设的实体名称,对解析后的文本数据进行名称要素的抽取;基于所抽取的名称要素在整篇文本中的词频统计结果,进行实体识别判断;基于上述获取到的一个或多个实体,通过训练模型进行细粒度情感分析判断;基于上述获取的结果,将对应的文本打上判断识别后的标签。本发明还涉及一种相应的装置、存储器及其计算机可读存储介质。采用了本发明的该用于实现金融领域实体识别和情感分析的方法、装置、存储器及其计算机可读存储介质,基于文本信息判断出其主要描述对象的情感极性,能够为海量数据带来可观的使用价值。可观的使用价值。可观的使用价值。
技术研发人员:俞枫 梅龙
受保护的技术使用者:国泰君安证券股份有限公司
技术研发日:2021.12.14
技术公布日:2022/3/8