1.本发明涉及自然语言处理、深度学习算法领域,尤其涉及一种结合深度学习的文本分类系统。
背景技术:
2.自然语言处理中的文本分类任务是具有重要意义的热点研究问题,应用非常广泛,逐渐有更多的国际组织开始关注并推动相关领域的发展。传统的文本分类技术是基于机器学习或者卷积神经网络的方法对编码后的文本进行特征的提取,从而进一步对提取出来的特征进行识别和分类。
3.在传统的文本分类任务中,从编码后的文本中提取到的特征对文本分类任务有着至关重要的影响。但是,传统的机器学习方法在提取文本特征时,针对每个文本都要进行学习,这造成了极大的计算开销和时间开销。并且,传统的机器学习算法也面临着分类准确率很难继续提高的瓶颈。而卷积神经网络提取文本特征的方法不能有效的考虑文本前后的语意联系,得到的结果也不尽如人意。所以,对于文本分类任务而言,研究的主要目标是提高特征提取的有效性以及文本分类的准确率。因此,这不仅具有重要的理论意义和实际意义,而且也是国际上自然语言处理文本分类任务中的难点和热点。
技术实现要素:
4.为了克服传统的文本分类任务的特征提取有效性低和分类准确率差的难题,本发明的目的在于提供一种实现有效提取文本特征和有效对文本进行分类的高准确率高效的文本分类系统。
5.本发明解决其技术问题所采用的技术方案是:一种高准确率高效的文本分类系统,包括数据库及上位机;数据库和上位机依次相连,所述数据包含已有的已经采集到的文本信息,所述的上位机包括:
6.数据预处理模块,用以对存储在数据库中的文本信息进行预处理,采用如下过程完成:
7.1.1从数据库中采集文本s作为训练样本;
8.1.2将文本s中所有的字符转换为小写,然后将文本切分为单词,对每个单词进行编码得到s={x1,x2,...,xn}。x1,x2,...,xn分别表示文本s中的第1,2,...,n个编码后的单词。
9.特征提取模块,用以搭建网络内部特征有机非线性组合的双向门控循环神经网络来提取经过数据预处理模块处理过的文本的特征,采用如下过程完成:
10.2.1搭建网络内部特征有机非线性组合的双向门控循环神经网络的两条通道:
[0011][0012]
[0013][0014][0015]
其中h
t-1
表示第t-1个子单元的候选状态,表示第t个子单元的输入,z
t
表示第t个子单元的遗忘门,w
zt
表示第t个子单元遗忘门的权重,r
t
表示第t个子单元更新门,w
rt
表示第t个子单元更新门的权重,表示第t个子单元的中间状态,w
t
表示第t个子单元计算候选状态的权重。tanh表示双曲正切函数,σ(
·
)表示激励函数,n表示子单元的个数。双向门控循环神经网络有两条通道,两条通道均有n个子单元,即每条通道子单元的个数与文本中单词个数相同。
[0016]
2.2搭建总的双向门控循环神经网络:
[0017]
2.2.1把编码后的文本s={x1,x2,...,xn}作为第一条通道的输入,且x1,x2,...,xn分别作为该通道第1,2,...,n个子单元的输入,该通道第n个子单元的候选状态作为该通道的最终结果,记为h
c1
。
[0018]
2.2.2把编码后的文本s={x1,x2,...,xn}作为第二条通道的输入,且xn,x
n-1
,...,x1分别作为该通道第1,2,...,n个子单元的输入,该通道第n个子单元的候选状态作为该通道的最终结果,记为h
c2
。
[0019]
2.2.3x表示提取出来的文本s的特征向量,表示串联操作,x1,x2,...,xm表示特征向量里的元素,m表示特征向量里元素的个数。
[0020]
分类模块,用以根据特征提取模块提取出的特征对文本进行分类,过程如下:
[0021]
3.1建立分类器,特征提取模块提取出的特征向量x={x1,x2,...,xm}作为分类器的输入,公式如下:
[0022][0023]
其中θ表示分类器模型的参数,y表示决策层的输出结果,j表示决策结果是第j个类别,θj表示第j个决策元的参数,θ
l
表示第l个决策元的参数,p(
·
)表示概率,k表示决策层的决策元的个数。决策层的输出为p={p1,p2,...,pk}。其中,p1,p2,...,pk分别表示文本s属于第1,2,...,k类的概率,p表示概率矩阵。
[0024]
3.2分类器的分类结果,公式如下:
[0025][0026]
re表示文本s的分类结果,k表示决策层决策元的个数。
[0027]
3.3训练分类器以得到分类器模型参数,分类器的损失函数如下:
[0028][0029]
其中,j(
·
)表示损失函数,y表示训练过程中对文本s的分类结果,θj表示第j个决策元的参数,λ表示惩罚因子,m表示特征向量的维度,θ
ij
表示连接分类器中连接特征向量第j个维度和第i个决策元的参数,k表示决策层决策元的个数。分类器根据损失函数,采用梯度下降法进行训练得到模型的参数。
[0030]
作为优选的一种方案:所述的上位机还包括:结果显示模块,用以将分类模块的分类结果在上位机上显示。
[0031]
本发明的有益效果主要表现在:使用网络内部特征有机非线性组合的双向门控循环神经网络进行特征提取,相较于传统的特征提取方法提取到的特征在分类时具有更好的分类效果,最终使得文本分类的准确率更高;基于双向门控循环神经网络的文本分类系统,在模型训练好后,分类的速度相较于传统的文本分类方法更快。
附图说明
[0032]
图1是本发明所提出的文本分类系统的功能结构图。
具体实施方式
[0033]
下面结合附图对本发明做进一步描述。本发明实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
[0034]
实施例1
[0035]
参照图1,一种高准确率高效的文本分类系统,包括数据库1及上位机2,数据库1和上位机2依次相连,所述数据1包含已有的已经采集到的文本信息,所述的上位机包括:
[0036]
数据预处理模块3,用以对存储在数据库中的文本信息进行预处理,采用如下过程完成:
[0037]
1.1从数据库中采集文本s作为训练样本;
[0038]
1.2将文本s中所有的字符转换为小写,然后将文本切分为单词,对每个单词进行编码得到s={x1,x2,...,xn}。x1,x2,...,xn分别表示文本s中的第1,2,...,n个编码后的单词。
[0039]
特征提取模块4,用以搭建网络内部特征有机非线性组合的双向门控循环神经网络来提取经过数据预处理模块处理过的文本的特征,采用如下过程完成:
[0040]
2.1搭建网络内部特征有机非线性组合的双向门控循环神经网络的两条通道:
[0041][0042][0043]
[0044][0045]
其中h
t-1
表示第t-1个子单元的候选状态,表示第t个子单元的输入,z
t
表示第t个子单元的遗忘门,w
zt
表示第t个子单元遗忘门的权重,r
t
表示第t个子单元更新门,w
rt
表示第t个子单元更新门的权重,表示第t个子单元的中间状态,w
t
表示第t个子单元计算候选状态的权重。tanh表示双曲正切函数,σ(
·
)表示激励函数,n表示子单元的个数。双向门控循环神经网络有两条通道,两条通道均有n个子单元,即每条通道子单元的个数与文本中单词个数相同。
[0046]
2.2搭建总的双向门控循环神经网络:
[0047]
2.2.1把编码后的文本s={x1,x2,...,xn}作为第一条通道的输入,且x1,x2,...,xn分别作为该通道第1,2,...,n个子单元的输入,该通道第n个子单元的候选状态作为该通道的最终结果,记为h
c1
。
[0048]
2.2.2把编码后的文本s={x1,x2,...,xn}作为第二条通道的输入,且xn,x
n-1
,...,x1分别作为该通道第1,2,...,n个子单元的输入,该通道第n个子单元的候选状态作为该通道的最终结果,记为h
c2
。
[0049]
2.2.3x表示提取出来的文本s的特征向量,表示串联操作,x1,x2,...,xm表示特征向量里的元素,m表示特征向量里元素的个数。
[0050]
分类模块5,用以根据特征提取模块提取出的特征对文本进行分类,过程如下:
[0051]
3.1建立分类器,特征提取模块提取出的特征向量x={x1,x2,...,xm}作为分类器的输入,公式如下:
[0052][0053]
其中θ表示分类器模型的参数,y表示决策层的输出结果,j表示决策结果是第j个类别,θj表示第j个决策元的参数,θ
l
表示第l个决策元的参数,p(
·
)表示概率,k表示决策层的决策元的个数。决策层的输出为p={p1,p2,...,pk}。其中,p1,p2,...,pk分别表示文本s属于第1,2,...,k类的概率,p表示概率矩阵。
[0054]
3.2分类器的分类结果,公式如下:
[0055][0056]
re表示文本s的分类结果,k表示决策层决策元的个数。
[0057]
3.3训练分类器以得到分类器模型参数,分类器的损失函数如下:
[0058][0059]
其中,j(
·
)表示损失函数,y表示训练过程中对文本s的分类结果,θj表示第j个决策元的参数,λ表示惩罚因子,m表示特征向量的维度,θ
ij
表示连接分类器中连接特征向量第j个维度和第i个决策元的参数,k表示决策层决策元的个数。分类器根据损失函数,采用梯度下降法进行训练得到模型的参数
[0060]
所述的上位机2还包括:结果显示模块6,将分类模块的分类结果在上位机显示。
[0061]
所述上位机2的硬件部分包括:i/o元件,用于数据的采集和信息的传递;数据存储器,存储运行所需的数据样本和运行参数等;程序存储器,存储实现功能模块的软件程序;运算器,执行程序,实现指定的功能;显示模块,显示设置的参数和检测结果。
技术特征:
1.一种高准确率高效的文本分类系统,包括数据库以及上位机,数据库和上位机依次相连,其特征在于:所述的数据库包含已经采集好的文本信息,所述的上位机包括:数据预处理模块,用以对存储在数据库中的文本信息进行预处理。特征提取模块,用以搭建网络内部特征有机非线性组合的双向门控循环神经网络来提取经过数据预处理模块处理过的文本的特征。分类模块,用以根据特征提取模块提取出的特征对文本进行分类。2.根据权利要求1所述一种高准确率高效的文本分类系统,其特征在于:数据预处理模块,采用如下过程完成:(2.1)从数据库中采集文本s作为训练样本;(2.2)将文本s中所有的字符转换为小写,然后将文本切分为单词,对每个单词进行编码得到s={x1,x2,...,x
n
}。x1,x2,...,x
n
分别表示文本s中的第1,2,...,n个编码后的单词。3.根据权利要求1所述一种高准确率高效的文本分类系统,其特征在于:特征提取模块,采用如下过程完成:(3.1)搭建网络内部特征有机非线性组合的双向门控循环神经网络的两条通道:(3.1)搭建网络内部特征有机非线性组合的双向门控循环神经网络的两条通道:(3.1)搭建网络内部特征有机非线性组合的双向门控循环神经网络的两条通道:(3.1)搭建网络内部特征有机非线性组合的双向门控循环神经网络的两条通道:t=2,3,...,n其中,h
t-1
表示第t-1个子单元的候选状态,表示第t个子单元的输入,z
t
表示第t个子单元的遗忘门,w
zt
表示第t个子单元遗忘门的权重,r
t
表示第t个子单元更新门,w
rt
表示第t个子单元更新门的权重,表示第t个子单元的中间状态,w
t
表示第t个子单元计算候选状态的权重。tanh表示双曲正切函数,σ(
·
)表示激励函数,n表示子单元的个数。双向门控循环神经网络有两条通道,两条通道均有n个子单元,即每条通道子单元的个数与文本中单词个数相同。(3.2)搭建总的双向门控循环神经网络,包括以下子步骤:(3.2.1)把编码后的文本s={x1,x2,...,x
n
}作为第一条通道的输入,且x1,x2,...,x
n
分别作为该通道第1,2,...,n个子单元的输入,该通道第n个子单元的候选状态作为该通道的最终结果,记为h
c1
。(3.2.2)把编码后的文本s={x1,x2,...,x
n
}作为第二条通道的输入,且x
n
,x
n-1
,...,x1分别作为该通道第1,2,...,n个子单元的输入,该通道第n个子单元的候选状态作为该通道的最终结果,记为h
c2
。(3.2.3)x表示提取出来的文本s的特征向量,表示串联操作,x1,x2,...,x
m
表示特征向量里的元素,m表示特征向量里元素的个数。4.根据权利要求1所述一种高准确率高效的文本分类系统,其特征在于:分类模块,采
用如下过程完成:(4.1)建立分类器,特征提取模块提取出的特征向量x={x1,x2,...,x
m
}作为分类器的输入,公式如下:j=1,2,3,...,k其中,θ表示分类器模型的参数,y表示决策层的输出结果,j表示决策结果是第j个类别,θ
j
表示第j个决策元的参数,θ
l
表示第l个决策元的参数,p(
·
)表示概率,k表示决策层的决策元的个数。决策层的输出为p={p1,p2,...,p
k
}。其中,p1,p2,...,p
k
分别表示文本s属于第1,2,...,k类的概率,p表示概率矩阵。(4.2)分类器的分类结果,公式如下:j=1,2,...,kre表示文本s的分类结果,k表示决策层决策元的个数。(4.3)训练分类器以得到分类器模型参数,分类器的损失函数如下:其中,j(
·
)表示损失函数,y表示训练过程中对文本s的分类结果,θ
j
表示第j个决策元的参数,λ表示惩罚因子,m表示特征向量的维度,θ
ij
表示连接分类器中连接特征向量第j个维度和第i个决策元的参数,k表示决策层决策元的个数。分类器根据损失函数,采用梯度下降法进行训练得到模型的参数。5.根据权利要求1所述一种高准确率高效的文本分类系统,其特征在于:所述上位机还包括:结果显示模块,用以将分类模块的分类结果在上位机上显示。
技术总结
本发明公开了一种高准确率高效的文本分类系统,包括数据库及上位机;数据库和上位机依次相连,所述数据包含已有的已经采集到的文本信息,所述的上位机包括数据预处理模块、特征提取模块、分类模块和结果显示模块。本发明具有分类准确率高、速度快的特点。速度快的特点。速度快的特点。
技术研发人员:刘兴高 廖屹琳 陈士超 王文海 张志猛 张泽银
受保护的技术使用者:浙江大学
技术研发日:2021.11.09
技术公布日:2022/3/7