1.本发明涉及国网大数据领域,具体涉及一种异常数据检测方法及系统。
背景技术:
2.标识一个设备资产的主要依据是对象类型字段,但实际数据中,这个字段可能输入了空格,随意字符(如0等),也可能输入了错误的代码。此外,不同单位、不同行业和不同人员对设备资产类型的编码并不统一,使得实际数据输入不准确的问题更加复杂。
3.目前的文本分类算法的技术方案包括从浅层学习到深度学习,浅层学习模型强调特征提取和分类器设计。一旦文本具有精心设计的特征,就可以通过训练分类器来快速收敛。在不需要领域知识的情况下,深度神经网络可以自动进行特征提取和学习。具体来说主要包括如下三种方式:
4.1.分类器方式:例如词袋bow,n-gram,术语频率倒排文档频率tf-idf等。建立特征集,然后使用分类算法。需要找到相关联的特征,需要很多特征工程,并且需要用到很多业务知识。
5.2.机器学习方式:例如svm、adaboost和随机森林等。通过这个设备资产的描述文本行分类,来判断是否为某设备,前提是设备描述的文本需正确且有代表性。
6.3.深度学习方式:对现有的设备资产描述文本,使用cnn,rnn和注意力机制等进行文本分类。许多研究人员通过改进cnn,rnn和注意力,或模型融合和多任务方法,提高了针对不同任务的文本分类性能。
7.现有技术中常采用fasttext是一个快速文本分类算法,其特点在于:在保持高精度的情况下加快了训练速度和测试速度;不需要预训练好的词向量,fasttext会自己训练词向量。如图3所示为fasttext模型架构,其中x1,x2,
…
,x
n-1
,xn表示一个文本中的n-gram向量,每个特征是词向量的平均值。fasttext是一种子词嵌入subword embedding算法,采用该算法需要做特征工程,分类效果依赖于有效特征的选取。
8.综上所述,现有技术中对异常数据检测过程复杂且准确率较低。
技术实现要素:
9.为了解决对异常数据检测过程复杂且准确率较低的问题,本发明提供了一种异常数据检测方法及系统,包括:
10.获取待分类的文本数据;将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;
11.其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;
12.所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。
13.优选的,所述深度神经网络的训练包括:
14.由待分类的文本数据、所述待分类的文本数据对应的类型以及由所述n-grams模型对所述文本数据进行预处理生成的词向量特征构建训练集;
15.由所述训练集中的待分类的文本数据和所述词向量特征作为所述深度神经网络的输入,所述待分类的文本数据对应的类型作为输出对所述深度神经网络进行训练得到训练好的深度神经网络。
16.优选的,所述将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型包括:
17.将所述待分类的文本数据输入所述分类模型中的n-grams模型进行预处理生成词向量特征;
18.将所述待分类的文本数据和所述词向量特征作为所述分类模型中的预先训练好的深度神经网络的输入;
19.由所述预先训练好的深度神经网络对所述待分类的文本数据和所述词向量特征进行加平方和平均处理,并经过层次softmax和负采样处理,输出所述待分类的文本数据的类型。
20.优选的,所述预先训练好的深度神经网络包括:输入层、隐藏层和输出层;
21.所述输入层,用于将所述待分类的文本数据和所述词向量特征输入到所述预先训练好的深度神经网络中,并传输至隐藏层;
22.所述隐藏层,用于对所述待分类的文本数据和所述词向量特征进行加平方和平均处理,并将处理结果传输至所述输出层;
23.所述输出层,用于对处理结果进行层次softmax和负采样处理,输出所述待分类的文本数据的类型。
24.优选的,述对处理结果进行层次softmax和负采样处理包括:
25.将处理结果采用负采样规则较大化正样本的概率,同时最小化负样本的概率降低所述层次softmax的计算量;
26.基于所述层次softmax中的softmax函数计算经所述负采样规则处理后的所述待分类的文本数据以及所述词向量特征的概率;
27.从所有概率中挑选出概率最大值,由所述概率最大值对应的类型作为所述待分类的文本数据的类型。
28.优选的,所述隐藏层通过下式进行加平方和平均计算:
[0029][0030]
式中,-logp(y|x)为负对数似然函数;xn为文本中第i个词的特征向量;y为分类类别;b为函数a的权重系数。
[0031]
优选的,所述softmax函数如下式所示:
[0032][0033]
式中,f(zj)是输出层的softmax函数;zj是是分类器前级输出单元的输出;i表示类别索引。
[0034]
优选的,所述负采样规则如下式所示:
[0035][0036]
式中,w为正样本的背景词;context(w)为正样本的中心词;表示当上下文为context(w)时,预测中心词为w的概率;是各词向量之和;t表示转秩;θu表示词对应的一个向量;lw表示词w的标签。
[0037]
基于同一发明构思本发明还提供了一种异常数据检测系统,包括:
[0038]
数据获取模块,用于获取待分类的文本数据;
[0039]
分类模块,用于将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;
[0040]
其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;
[0041]
所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。
[0042]
优选的,所述深度神经网络的训练包括:
[0043]
获取待分类的文本数据,以及所述待分类的文本数据对应的类型;
[0044]
由所述n-grams模型对所述文本数据进行预处理生成词向量特征;
[0045]
由所述待分类的文本数据、所述词向量特征和所述待分类的文本数据对应的类型构建训练集;
[0046]
由所述训练集中的待分类的文本数据和所述词向量特征作为所述深度神经网络的输入,所述待分类的文本数据对应的类型作为输出对所述深度神经网络进行训练,得到训练好的深度神经网络。
[0047]
与现有技术相比,本发明的有益效果为:
[0048]
本发明提供了一种异常数据检测方法,其特征在于,包括:获取待分类的文本数据;将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。本发明采用文本分类技术和异常数据检测方法对信息进行快速提取和分类,提高了检测异常数据的准确率。
附图说明
[0049]
图1是本发明提供的一种异常数据检测方法流程图;
[0050]
图2是本发明的n-gram模型哈希到buckets桶的示意图;
[0051]
图3是fasttext模型架构图;
[0052]
图4是本发明的分类模型操作示意图;
具体实施方式
[0053]
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的
说明。本发明利用文本分类技术,从设备资产数据库中提取文本信息,构建一种新的异常数据检测方法,目的是判断设备资产数据库中哪些是指定类型(例如轿车),并能够使用该方法处理任意新出现的格式相同的数据,根据描述、主数据对象类型、单位、数量等信息,判断该数据是不是指定类型(例如轿车)。
[0054]
实施例1:
[0055]
本发明提供一种异常数据检测方法,如图1所示:包括:
[0056]
步骤1:获取待分类的文本数据;
[0057]
步骤2:将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;
[0058]
其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;
[0059]
所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。
[0060]
在步骤1之前还包括:
[0061]
所述深度神经网络的训练包括:由待分类的文本数据、所述待分类的文本数据对应的类型以及由所述n-grams模型对所述文本数据进行预处理生成的词向量特征构建训练集;
[0062]
由所述训练集中的待分类的文本数据和所述词向量特征作为所述深度神经网络的输入,所述待分类的文本数据对应的类型作为输出对所述深度神经网络进行训练得到训练好的深度神经网络。
[0063]
其中,对处理结果进行层次softmax和负采样处理包括:
[0064]
将处理结果采用负采样规则较大化正样本的概率,同时最小化负样本的概率降低所述层次softmax的计算量;
[0065]
基于所述层次softmax中的softmax函数计算经所述负采样规则处理后的所述待分类的文本数据以及所述词向量特征的概率;
[0066]
从所有概率中挑选出概率最大值,由所述概率最大值对应的类型作为所述待分类的文本数据的类型。
[0067]
其中,所述隐藏层通过下式进行加平方和平均计算:
[0068][0069]
式中,-logp(y|x)为负对数似然函数;xn为文本中第i个词的特征向量;y为分类类别;b为函数a的权重系数。
[0070]
其中,所述softmax函数如下式所示:
[0071][0072]
式中,f(zj)为输出层的softmax函数;zj为分类器前级输出单元的输出;i为类别索引。
[0073]
其中,所述负采样规则如下式所示:
[0074][0075]
式中,w为正样本的背景词;context(w)为正样本的中心词:为当上下文为context(w)时,预测中心词为w的概率;为各词向量之和;t为转秩;θu为词对应的一个向量;lw为词w的标签。
[0076]
下面对异常数据检测方法详细介绍:
[0077]
在步骤1中的获取待分类的文本数据,其中的待分类的文本数据是进行分词、去重、去数字符号等预处理后的数据。步骤1:获取待分类的文本数据。
[0078]
与本发明最相近似的技术方案是fasttext算法。fasttext是一个快速文本分类算法,其特点在于:在保持高精度的情况下加快了训练速度和测试速度;不需要预训练好的词向量,fasttext会自己训练词向量。为了处理词顺序丢失的问题,本发明在fasttext增加了n-gram的特征。具体做法是把n-gram当成一个词,也用embedding向量来表示,在计算隐层时,把n-gram的embedding向量也加进去求和取平均。通过back-propagation算法,就可以同时学到词的embeding和n-gram的embedding了。具体实现上,由于n-gram的量远比word大的多,完全存下所有的n-gram也不现实。fasttext采用了hash桶的方式,把所有的n-gram都哈希到buckets个桶中,哈希到同一个桶的所有n-gram共享一个embedding vector,如图2所示。
[0079]
将待分类的文本数据采用n-gram模型生成词向量特征,具体实现过程如下:
[0080]
word2vec把语料库中的每个单词当成原子的,它会为每个单词生成一个向量。这忽略了单词内部的形态特征,比如:
″
book
″
和
″
books
″
,两个单词都有较多公共字符,即它们的内部形态类似,但是在传统的word2vec中,这种单词内部形态信息因为它们被转换成不同的id而丢失。为了克服这个问题,fasttext使用了字符级别的n-grams来表示一个单词。对于单词
″
book
″
,假设n的取值为3,则它的trigram有:
″
《bo
″
,
″
boo
″
,
″
ook
″
,
″
ok》
″
,其中,
″
《
″
表示前缀,
″
》
″
表示后缀。于是,我们可以用这些trigram来表示
″
book
″
这个单词,进一步,我们可以用这4个trigram的向量叠加来表示
″
apple
″
的词向量。
[0081]
由将文本数据生成词向量特征的n-gram模型和预先训练好的深度神经网络,得到分类模型。
[0082]
深度神经网络包括:输入层、隐藏层和输出层;
[0083]
所述输入层,用于将所述待分类的文本数据和所述词向量特征输入到所述预先训练好的深度神经网络中,并传输至隐藏层;
[0084]
所述隐藏层,用于对所述待分类的文本数据和所述词向量特征进行加平方和平均处理,并将处理结果传输至所述输出层;
[0085]
所述输出层,用于对处理结果进行层次softmax和负采样处理,输出所述待分类的文本数据的类型。
[0086]
上面图中xi表示的是文本中第i个词的特征向量,该模型的负对数似然函数如下:
[0087]
[0088]
式子中-logp(y|x)是负对数似然函数,xn是文本中第i个词的特征向量,y是分类类别。b是函数a的权重系数,上面式子中的矩阵a是词查找表,整个模型是查找出所有的词表示之后,取其加平方和平均,并对n-gram向量取其加平方和平均,用该平均值来代表文本表示,然后将这个文本表示输入到线性分类器中,也就是输出层的softmax函数。
[0089][0090]
其中f()是输出层的softmax函数,zj是是分类器前级输出单元的输出,i表示类别索引,总的类别个数为n。
[0091]
softmax的计算时间复杂度为0(kh),其中k是类别的数量,h是文本表示的维度。fasttext也利用了类别不均衡(一些类别出现次数比其他的更多),通过使用huffman算法建立用于表征类别的树形结构。因此,频繁出现类别的树形结构的深度要比不频繁出现类别的树形结构的深度要小,这也使得进一步的计算效率更高。另外,传统的词袋模型不能保存上下文的语义,n-grams模型能很好的保存上下文的语义。
[0092]
负采样规则:
[0093]
对于给定的正样本(context(w),w),要最大化g(w)=∏
u∈{w}∪neg(w)
p(u|context(w)),则:
[0094][0095]
w为正样本的背景词,context(w)为正样本的中心词,表示当上下文为context(w)时,预测中心词为w的概率;是各词向量之和,t表示转秩;θu表示词对应的一个向量,是个待训练参数;u∈w∪neg(w);lw表示词w的标签,即正样本的标签为1,负样本的标签为0。
[0096]
最终的损失函数就是l=log∏
w∈c
g(w)=∑
w∈c
log g(w),在负采样规则下有:
[0097][0098]
w为正样本的背景词,counter(u)为u的个数之和,d代表模型中的词典。
[0099]
在步骤2中将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型。
[0100]
步骤2中将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型包括:
[0101]
将所述待分类的文本数据输入所述分类模型中的n-grams模型进行预处理生成词向量特征;
[0102]
将所述待分类的文本数据和所述词向量特征作为所述分类模型中的预先训练好的深度神经网络的输入;
[0103]
由所述预先训练好的深度神经网络对所述待分类的文本数据和所述词向量特征进行加平方和平均处理,并经过层次softmax和负采样处理,输出所述待分类的文本数据的类型。
[0104]
具体实现过程如下:
[0105]
将文本数据输入到n-grams模型得到文本数据对应的词向量特征;
[0106]
n-grams模型表示文字或语言中的n个连续的单词组成序列。在进行自然语言分析时,使用n-gram模型将一个字符串更好的分割成含有多个词的、包含更好语义的标识符(tokens)。n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。常用的是二元的bi-gram和三元的tri-gram。
[0107]
然后将文本数据和词向量特征输入到深度神经网络的输入层,将文本数据的类型作为深度神经网络的输出,对深度神经网络进行训练,得到训练好的神经网络。
[0108]
在使用分类模型的时候,只需要将待分类的文本数据输入到分类模型,即可得到该文本数据对应的类别。
[0109]
实施例2:
[0110]
基于同一种发明构思本发明还提供了一种异常数据检测系统,包括:
[0111]
数据获取模块,用于获取待分类的文本数据;
[0112]
分类模块,用于将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;
[0113]
其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;
[0114]
所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。
[0115]
其中,所述深度神经网络的训练包括:
[0116]
获取待分类的文本数据,以及所述待分类的文本数据对应的类型;
[0117]
由所述n-grams模型对所述文本数据进行预处理生成词向量特征;
[0118]
由所述待分类的文本数据、所述词向量特征和所述待分类的文本数据对应的类型构建训练集;
[0119]
由所述训练集中的待分类的文本数据和所述词向量特征作为所述深度神经网络的输入,所述待分类的文本数据对应的类型作为输出对所述深度神经网络进行训练,得到训练好的深度神经网络。
[0120]
其中,所述分类模块包括:
[0121]
预处理子模块,用于将所述待分类的文本数据输入n-grams模型进行预处理生成词向量特征;
[0122]
数据分析子模块,用于将所述待分类的文本数据和所述词向量特征输入到预先训练好的深度神经网络的输入层;并由所述深度神经网络的隐含层对所述待分类的文本数据和所述词向量特征进行加平方和平均处理,并将处理结果传输至所述深度神经网络的输出层;由所述输出层经过层次softmax和负采样处理,输出所述待分类的文本数据的类型。
[0123]
下面是对一种异常数据检测系统的详细介绍:
[0124]
如图4所示,针对输入设备资产的描述文本数据及标注信息,构建一个带有输入层、隐含层、输出层的深度神经网络结构,输入层包括每个设备资产的描述文本中的多个单词及其n-gram特征,隐含层对多个词向量的加平方和平均及n-gram向量加平方和平均,输出层为层次softmax以及负采样。
[0125]
在进行最优化的求解过程中,从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。层次softmax是一种树形结构,每个叶子节点代表语料库中的一个词,于是每个词语都可以被唯一编码,并且其编码序列对应一个事件序列,用来解决从隐藏层到输出的softmax层计算量问题。
[0126]
负采样的作用是把语料中的一个词串的中心词替换为别的词,构造语料d中不存在的词串作为负样本。在这种策略下,优化目标变为了:较大化正样本的概率,同时最小化负样本的概率;在训练每个样本时,原始神经网络隐藏层权重的每次都会更新,而负采样只挑选部分权重做小范围更新,通过每次让一个训练样本仅仅更新一小部分的权重参数,从而降低梯度下降过程中的计算量。
[0127]
fasttext的hierarhical loss将所有的label,也就是所有的单词,放到一个哈夫曼树里面,出现频率越少的单词越接近叶子端。假设有一万个单词在词典里面,简单的softmax是一个10000类的分类问题;假设一个目标单词在哈夫曼树上面是01001位置(比如用0表示左子树,1表示右子树)那么在这个样本上的非类问题是5个binary分类问题,期望预测的单词在这条路径上每一个位置都更倾向于正确的方向。这种方法令fasttext极大增加了训练和预测的速度,并且由于加入了n-gram模型,考虑了单词之间的顺序问题,有效提高了准确率。
[0128]
基于虽然fasttext加入了n-gram模型以增加单词之间的顺序信息,但是总体context的长度受限导致对于大于context窗口大小的单词,无法捕捉更多的顺序信息。本发明与标准的fasttext的不同之处在于,进一步将fasttext映射层的加和平均方法改进为加平方和平均,在输出层将softmax改进为层次softmax以及负采样。
[0129]
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0130]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0131]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0132]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0133]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0134]
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
技术特征:
1.一种异常数据检测方法,其特征在于,包括:获取待分类的文本数据;将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。2.如权利要求1所述的方法,其特征在于,所述深度神经网络的训练包括:由待分类的文本数据、所述待分类的文本数据对应的类型以及由所述n-grams模型对所述文本数据进行预处理生成的词向量特征构建训练集;由所述训练集中的待分类的文本数据和所述词向量特征作为所述深度神经网络的输入,所述待分类的文本数据对应的类型作为输出对所述深度神经网络进行训练得到训练好的深度神经网络。3.如权利要求2所述的方法,其特征在于,所述将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型包括:将所述待分类的文本数据输入所述分类模型中的n-grams模型进行预处理生成词向量特征;将所述待分类的文本数据和所述词向量特征作为所述分类模型中的预先训练好的深度神经网络的输入;由所述预先训练好的深度神经网络对所述待分类的文本数据和所述词向量特征进行加平方和平均处理,并经过层次softmax和负采样处理,输出所述待分类的文本数据的类型。4.如权利要求3所述的方法,其特征在于,所述预先训练好的深度神经网络包括:输入层、隐藏层和输出层;所述输入层,用于将所述待分类的文本数据和所述词向量特征输入到所述预先训练好的深度神经网络中,并传输至隐藏层;所述隐藏层,用于对所述待分类的文本数据和所述词向量特征进行加平方和平均处理,并将处理结果传输至所述输出层;所述输出层,用于对处理结果进行层次softmax和负采样处理,输出所述待分类的文本数据的类型。5.如权利要4所述的方法,其特征在于,所述对处理结果进行层次softmax和负采样处理包括:将处理结果采用负采样规则较大化正样本的概率,同时最小化负样本的概率降低所述层次softmax的计算量;基于所述层次softmax中的softmax函数计算经所述负采样规则处理后的所述待分类的文本数据以及所述词向量特征的概率;从所有概率中挑选出概率最大值,由所述概率最大值对应的类型作为所述待分类的文本数据的类型。
6.如权利要求4所述的方法,其特征在于,所述隐藏层通过下式进行加平方和平均计算:式中,-log p(y|x)为负对数似然函数;x
n
为文本中第i个词的特征向量;y为分类类别;b为函数a的权重系数。7.如权利要求4所述的方法,其特征在于,所述softmax函数如下式所示:式中,f(z
j
)为输出层的softmax函数;z
j
为分类器前级输出单元的输出;i为类别索引。8.如权利要求5所述的方法,其特征在于,所述负采样规则如下式所示:式中,w为正样本的背景词;context(w)为正样本的中心词;为当上下文为context(w)时,预测中心词为w的概率;为各词向量之和;t为转秩;θ
u
为词对应的一个向量;l
w
为词w的标签。9.一种异常数据检测系统,其特征在于,包括:数据获取模块,用于获取待分类的文本数据;分类模块,用于将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。10.如权利要求9所述的系统,其特征在于,所述深度神经网络的训练包括:获取待分类的文本数据,以及所述待分类的文本数据对应的类型;由所述n-grams模型对所述文本数据进行预处理生成词向量特征;由所述待分类的文本数据、所述词向量特征和所述待分类的文本数据对应的类型构建训练集;由所述训练集中的待分类的文本数据和所述词向量特征作为所述深度神经网络的输入,所述待分类的文本数据对应的类型作为输出对所述深度神经网络进行训练,得到训练好的深度神经网络。
技术总结
本发明提供了一种异常数据检测方法及系统,包括:获取待分类的文本数据;将所述待分类的文本数据输入到预先构建的分类模型中,得到所述待分类文本数据对应的文本数据类型;其中,所述分类模型是基于将文本数据进行预处理的n-grams模型结合预先训练好的深度神经网络模型构建的;所述深度神经网络是以文本数据和n-grams模型对所述文本数据进行预处理后的数据作为输入,以所述文本数据对应的类型为输出进行训练得到的。本发明采用文本分类技术和异常数据检测方法对信息进行快速提取和分类,提高了检测异常数据的准确率。高了检测异常数据的准确率。高了检测异常数据的准确率。
技术研发人员:王路涛 陈振宇 武丽莎 杨畅 秦明 王家凯 吕宏伟 贾翠玲
受保护的技术使用者:国家电网有限公司大数据中心
技术研发日:2021.12.15
技术公布日:2022/3/8