1.本技术涉及数据处理技术领域,具体而言,涉及一种噪音数据识别方法、装置、终端及存储介质。
背景技术:
2.模型广泛应用于各种领域,但是在建模之前,数据会存在大量噪声,这个时候就需要对数据进行去噪处理。尤其是,如何对高维向量化后的数据进行去噪工作成为亟待解决的问题。
3.目前,一般采用标准差去噪法、分箱去噪法、dbscan去噪法或孤立森林去噪法,对高维向量化后的数据进行去噪。
4.但是,采用上述方法进行高维向量化后的数据去噪效果差。
技术实现要素:
5.本技术的主要目的在于提供一种噪音数据识别方法、装置、终端及存储介质,以解决相关技术中对高维向量化后的数据进行去噪存在效果差的问题。
6.为了实现上述目的,第一方面,本技术提供了一种噪音数据识别方法,包括:
7.对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量;
8.利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合;
9.基于实体特征集合和噪音特征集合,确定目标权重;
10.基于目标权重和噪音实体识别算法,确定噪音实体。
11.在一种可能的实现方式中,对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量,包括:
12.对初始实体信息依次进行低维空间向量化和高维空间向量化,得到初始实体特征向量和初始噪音特征向量;
13.利用损失函数对初始实体特征向量和初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量。
14.在一种可能的实现方式中,利用损失函数对初始实体特征向量和初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量,包括:
15.确定初始实体特征向量和初始噪音特征向量对应的损失权重;
16.利用损失权重扩大初始实体特征向量和初始噪音特征向量之间的距离,得到目标实体特征向量和目标噪音特征向量。
17.在一种可能的实现方式中,利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合,包括:
18.若目标实体特征向量小于或等于预设实体特征向量,将目标实体特征向量进行汇总以确定实体特征集合;
19.若目标噪音特征向量大于预设噪音特征向量,将目标噪音特征向量进行汇总以确定噪音特征集合。
20.在一种可能的实现方式中,基于实体特征集合和噪音特征集合,确定目标权重,包括:
21.确定实体特征集合对应的第一向量数目和噪音特征集合对应的第二向量数目;
22.若第一向量数目大于或等于第二向量数目,将实体特征集合中所有向量的和作为目标权重;
23.若第一向量数目小于第二向量数目,将噪音特征集合中所有向量的和的负值作为目标权重。
24.在一种可能的实现方式中,基于目标权重和噪音实体识别算法,确定噪音实体,包括:
25.将目标权重代入噪音实体识别算法,确定噪音实体。
26.第二方面,本发明实施例提供了一种噪音数据识别装置,包括:
27.预处理模块,用于对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量;
28.集合确定模块,用于利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合;
29.权重确定模块,用于基于实体特征集合和噪音特征集合,确定目标权重;
30.噪音识别模块,用于基于目标权重和噪音实体识别算法,确定噪音实体。
31.在一种可能的实现方式中,预处理模块包括:
32.向量化子模块,用于对初始实体信息依次进行低维空间向量化和高维空间向量化,得到初始实体特征向量和初始噪音特征向量;
33.特征处理子模块,用于利用损失函数对初始实体特征向量和初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量。
34.第三方面,本发明实施例提供了一种终端,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上任一种噪音数据识别方法的步骤。
35.第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上任一种噪音数据识别方法的步骤。
36.本发明实施例提供了一种噪音数据识别方法、装置、终端及存储介质,包括:对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量,然后利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合,再基于实体特征集合和噪音特征集合,确定目标权重,最后基于目标权重和噪音实体识别算法,确定噪音实体。本发明对初始实体信息进行高维度的向量化,可有效区分实体特征向量和噪音特
征向量,再利用深度学习算法对实体特征向量和噪音特征向量进行进一步区分,最后将目标权重代入噪音实体识别算法中,可有效区分真实特征偏多的核心实体和噪音特征偏多的噪音实体,从而提高噪音实体识别的效果,进而提高后续模型处理的精确度。
附图说明
37.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
38.图1是本发明实施例提供的一种噪音数据识别方法的实现流程图;
39.图2是本发明实施例提供的实体从低维空间向高维空间映射的示意图;
40.图3是本发明实施例提供的基于损失函数确定实体对应的目标特征向量的示意图;
41.图4是本发明实施例提供的基于实体对应的特征集合确定目标权重的示意图;
42.图5是本发明实施例提供的一种噪音数据识别装置的结构示意图;
43.图6是本发明实施例提供的终端的示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
46.应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
47.应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
48.应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含a、b和c”、“包含a、b、c”是指a、b、c三者都包含,“包含a、b或c”是指包含a、b、c三者之一,“包含a、b和/或c”是指包含a、b、c三者中任1个或任2个或3个。
49.应当理解,在本发明中,“与a对应的b”、“与a相对应的b”、“a与b相对应”或者“b与a相对应”,表示b与a相关联,根据a可以确定b。根据a确定b并不意味着仅仅根据a确定b,还可
以根据a和/或其他信息确定b。a与b的匹配,是a与b的相似度大于或等于预设的阈值。
50.取决于语境,如在此所使用的“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。
51.下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
52.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
53.在一个实施例中,如图1所示,提供了一种噪音数据识别方法,包括以下步骤:
54.步骤s101:对初始实体信息依次进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量;
55.步骤s102:利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合;
56.步骤s103:基于实体特征集合和噪音特征集合,确定目标权重;
57.步骤s104:基于目标权重和噪音实体识别算法,确定噪音实体。
58.具体的,深度学习(dl,deep learning)是机器学习(ml,machine learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(ai,artificial intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助,它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。本发明基于深度学习算法可学习实体特征向量的特性和噪音特征向量的特性,从而对目标实体特征向量和目标噪音特征向量进行分类,可有效区分目标实体特征向量和目标噪音特征向量,进而提高目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合的准确度。
59.本发明实施例提供了一种噪音数据识别方法,包括:对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量,然后利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合,再基于实体特征集合和噪音特征集合,确定目标权重,最后基于目标权重和噪音实体识别算法,确定噪音实体。本发明对初始实体信息进行高维度的向量化,可有效区分实体特征向量和噪音特征向量,再利用深度学习算法对实体特征向量和噪音特征向量进行进一步区分,最后将目标权重代入噪音实体识别算法中,可有效区分真实特征偏多的核心实体和噪音特征偏多的噪音实体,从而提高噪音实体识别的效果,进而提高后续模型处理的精确度。
60.在一实施例中,步骤s101包括:
61.步骤s201:对初始实体信息依次进行低维空间向量化和高维空间向量化,得到初始实体特征向量和初始噪音特征向量。
62.结合图2,本发明中的向量化包括低维空间向量化和高维空间向量化。由于低维空间向量化只能识别出初始实体信息中的实体信息,并不能明显识别出噪音信息,因此需要对初始实体信息依次进行低维空间向量化和高维空间向量化,从而得到初始实体特征向量
(图2中的实线箭头)和初始噪音特征向量(图2中的虚线箭头)。
63.步骤s202:利用损失函数对初始实体特征向量和初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量。
64.具体的,首先需确定初始实体特征向量和初始噪音特征向量对应的损失权重,然后利用损失权重扩大初始实体特征向量和初始噪音特征向量之间的距离,得到目标实体特征向量和目标噪音特征向量。本专利中通过引入损失函数(即实体高维向量损失函数)的方法,在无监督条件下降低噪音特征,提升有效特征的空间表示,从而减少噪音向量在最终实体分类结果的影响。
65.进一步的,结合图3说明确定目标实体特征向量i'和目标噪音特征向量j'的过程,具体如下:
66.损失函数的设计,即设计一个针对单一特征维度的损失函数,公式如下:
[0067][0068]
其中,z代表原特征向量在单一维度中的取值,e为自然常数。损失函数的作用在于为初始实体特征向量i(即图3中的i1和i2)和初始噪音特征向量j(即图3中的j1-j5)添加一个损失权重ω,进而利用损失权重ω使得在同一空间中的初始实体特征向量i和初始噪音特征向量j的特征距离进一步扩大,从而能够更容易地确定目标实体特征向量i'(即图3中的i'1和i'2)和目标噪音特征向量j'(即图3中的j'1-j'5)。
[0069]
通过上个实施例得到目标实体特征向量和目标噪音特征向量后,还需利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,以确定目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合。
[0070]
在一实施例中,步骤s102包括:若目标实体特征向量小于或等于预设实体特征向量,将目标实体特征向量进行汇总以确定实体特征集合;若目标噪音特征向量大于预设噪音特征向量,将目标噪音特征向量进行汇总以确定噪音特征集合。
[0071]
在一实施例中,步骤s103包括:
[0072]
步骤s301:确定实体特征集合对应的第一向量数目和噪音特征集合对应的第二向量数目。
[0073]
其中,第一向量数目是指实体特征集合中包含的目标实体特征向量总个数,第二向量数目是指噪音特征集合中包含的目标噪音特征向量总个数。
[0074]
步骤s302:若第一向量数目大于或等于第二向量数目,将实体特征集合中所有向量的和作为目标权重;
[0075]
步骤s303:若第一向量数目小于第二向量数目,将噪音特征集合中所有向量的和的负值作为目标权重。
[0076]
下面以图4为例对确定目标权重进行说明,具体如下:
[0077]
(1)通过图4中的左侧图可知实体特征集合中包括目标实体特征向量i’1、目标实体特征向量i’2和目标实体特征向量i’3,即实体特征集合中的目标实体特性向量的总数目∑i=2;噪音特征集合中包括目标噪音特征向量j’3和目标噪音特征向量j’4,即噪音特征集合中的目标噪音特征向量的总数目为∑j=2。通过上述可知第一向量数目大于第二向量数目,则目标权重
[0078]
(2)通过图4中的右侧图可知实体特征集合中包括目标实体特征向量i’1,即实体特征集合中的目标实体特征向量的总数目∑i=1;噪音特征集合中包括目标噪音特征向量j’1、目标噪音特征向量j’2、目标噪音特征向量j’3、目标噪音特征向量j’4和目标噪音特征向量j’5,即噪音特征集合中的目标噪音特征向量的总数目为∑j=5。通过上述可知第一向量数目小于第二向量数目,则目标权重=j’1+j’2+j’3+j’4+j’5。
[0079]
需要说明的是,本技术中的j'与j’代表同一含义,i'与i’代表同一含义。
[0080]
在一实施例中,步骤s104包括:将目标权重代入噪音实体识别算法,确定噪音实体。
[0081]
具体的,将目标权重代入噪音实体识别算法中,将可以有效区分目标实体特征偏多的核心实体和目标噪音特征偏多的噪音实体,从而有效进行噪音实体识别。
[0082]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0083]
以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
[0084]
图5示出了本发明实施例提供的一种噪音数据识别装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,一种噪音数据识别装置包括预处理模块51、集合确定模块52、权重确定模块53和噪音识别模块54,具体如下:
[0085]
预处理模块51,用于对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量;
[0086]
集合确定模块52,用于利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合;
[0087]
权重确定模块53,用于基于实体特征集合和噪音特征集合,确定目标权重;
[0088]
噪音识别模块54,用于基于目标权重和噪音实体识别算法,确定噪音实体。
[0089]
在一种可能的实现方式中,预处理模块51包括:
[0090]
向量化子模块,用于对初始实体信息依次进行低维空间向量化和高维空间向量化,得到初始实体特征向量和初始噪音特征向量;
[0091]
特征处理子模块,用于利用损失函数对初始实体特征向量和初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量。
[0092]
在一种可能的实现方式中,特征处理子模块包括:
[0093]
参数确定单元,用于确定初始实体特征向量和初始噪音特征向量对应的损失权重;
[0094]
目标向量确定单元,用于利用损失权重扩大初始实体特征向量和初始噪音特征向量之间的距离,得到目标实体特征向量和目标噪音特征向量。
[0095]
在一种可能的实现方式中,集合确定模块52包括:
[0096]
第一集合确定子模块,用于若目标实体特征向量小于或等于预设实体特征向量,将目标实体特征向量进行汇总以确定实体特征集合;
[0097]
第二集合确定子模块,用于若目标噪音特征向量大于预设噪音特征向量,将目标
噪音特征向量进行汇总以确定噪音特征集合。
[0098]
在一种可能的实现方式中,权重确定模块53包括:
[0099]
向量数目确定子模块,用于确定实体特征集合对应的第一向量数目和噪音特征集合对应的第二向量数目;
[0100]
第一判断子模块,用于若第一向量数目大于或等于第二向量数目,将实体特征集合中所有向量的和作为目标权重;
[0101]
第二判断子模块,用于若第一向量数目小于第二向量数目,将噪音特征集合中所有向量的和的负值作为目标权重。
[0102]
在一种可能的实现方式中,噪音识别模块54包括:
[0103]
噪音识别子模块,用于将目标权重代入噪音实体识别算法,确定噪音实体。
[0104]
图6是本发明实施例提供的终端的示意图。如图6所示,该实施例的终端6包括:处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62。处理器60执行计算机程序62时实现上述各个噪音数据识别方法实施例中的步骤,例如图1所示的步骤101至步骤104。或者,处理器60执行计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块/单元51至54的功能。
[0105]
本发明还提供一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
[0106]
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。另外,该asic可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(rom)、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0107]
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
[0108]
在上述设备的实施例中,应理解,处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0109]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种噪音数据识别方法,其特征在于,包括:对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量;利用深度学习算法对所述目标实体特征向量和所述目标噪音特征向量进行分类,得到所述目标实体特征向量对应的实体特征集合和所述目标噪音特征向量对应的噪音特征集合;基于所述实体特征集合和所述噪音特征集合,确定目标权重;基于所述目标权重和噪音实体识别算法,确定噪音实体。2.如权利要求1所述的噪音数据识别方法,其特征在于,所述对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量,包括:对所述初始实体信息依次进行低维空间向量化和高维空间向量化,得到初始实体特征向量和初始噪音特征向量;利用损失函数对所述初始实体特征向量和所述初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量。3.如权利要求2所述的噪音数据识别方法,其特征在于,所述利用损失函数对所述初始实体特征向量和所述初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量,包括:确定所述初始实体特征向量和所述初始噪音特征向量对应的损失权重;利用所述损失权重扩大所述初始实体特征向量和所述初始噪音特征向量之间的距离,得到所述目标实体特征向量和所述目标噪音特征向量。4.如权利要求3所述的噪音数据识别方法,其特征在于,所述利用深度学习算法对所述目标实体特征向量和所述目标噪音特征向量进行分类,得到所述目标实体特征向量对应的实体特征集合和所述目标噪音特征向量对应的噪音特征集合,包括:若所述目标实体特征向量小于或等于预设实体特征向量,将所述目标实体特征向量进行汇总以确定所述实体特征集合;若所述目标噪音特征向量大于预设噪音特征向量,将所述目标噪音特征向量进行汇总以确定所述噪音特征集合。5.如权利要求4所述的噪音数据识别方法,其特征在于,所述基于所述实体特征集合和所述噪音特征集合,确定目标权重,包括:确定所述实体特征集合对应的第一向量数目和所述噪音特征集合对应的第二向量数目;若所述第一向量数目大于或等于所述第二向量数目,将所述实体特征集合中所有向量的和作为所述目标权重;若所述第一向量数目小于所述第二向量数目,将所述噪音特征集合中所有向量的和的负值作为所述目标权重。6.如权利要求5所述的噪音数据识别方法,其特征在于,所述基于所述目标权重和噪音实体识别算法,确定噪音实体,包括:将所述目标权重代入所述噪音实体识别算法,确定所述噪音实体。7.一种噪音数据识别装置,其特征在于,包括:
预处理模块,用于对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量;集合确定模块,用于利用深度学习算法对所述目标实体特征向量和所述目标噪音特征向量进行分类,得到所述目标实体特征向量对应的实体特征集合和所述目标噪音特征向量对应的噪音特征集合;权重确定模块,用于基于所述实体特征集合和所述噪音特征集合,确定目标权重;噪音识别模块,用于基于所述目标权重和噪音实体识别算法,确定噪音实体。8.如权利要求7所述的噪音数据识别装置,其特征在于,所述预处理模块包括:向量化子模块,用于对所述初始实体信息依次进行低维空间向量化和高维空间向量化,得到初始实体特征向量和初始噪音特征向量;特征处理子模块,用于利用损失函数对所述初始实体特征向量和所述初始噪音特征向量进行特征处理,得到目标实体特征向量和目标噪音特征向量。9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述噪音数据识别方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行所述计算机程序时实现如权利要求1至6中任一项所述噪音数据识别方法的步骤。
技术总结
本申请公开了一种噪音数据识别方法、装置、终端及存储介质。方法包括:对初始实体信息依次进行进行向量化和特征处理,得到目标实体特征向量和目标噪音特征向量;利用深度学习算法对目标实体特征向量和目标噪音特征向量进行分类,得到目标实体特征向量对应的实体特征集合和目标噪音特征向量对应的噪音特征集合;基于实体特征集合和噪音特征集合,确定目标权重;基于目标权重和噪音实体识别算法,确定噪音实体。本发明可有效区分真实特征偏多的核心实体和噪音特征偏多的噪音实体,从而提高噪音实体识别的效果,进而提高后续模型处理的精确度。度。度。
技术研发人员:沈浩 吴优
受保护的技术使用者:上海帜讯信息技术股份有限公司
技术研发日:2021.11.25
技术公布日:2022/3/8