本发明涉及人工智能,具体为一种基于人工智能的档案系统及方法。
背景技术:
1、随着信息技术的飞速发展,档案管理的重要性日益凸显,在各个领域,大量的信息被记录和保存为档案资料,涵盖了文字、图像、音频、视频等多种形式,传统的档案管理主要依赖人工操作和简单的计算机辅助,然而,随着档案数量的不断增加和种类的日益丰富,这种方式逐渐难以满足现代社会对高效、准确档案管理的需求;
2、现有的一种基于人工智能的档案系统及方法存在一定的缺陷,一方面,档案检索困难,面对数量庞大、种类繁多的档案资料,手工检索难度大且容易出错,耗费时间较多,尤其是档案室规模较大时,该问题更为突出,另一方面,在档案信息共享方面,现有的部分计算机管理系统仅仅将其作为存储资料的工具,信息的共享性能较差,缺乏有效的共享机制使得档案信息无法在不同部门、不同用户之间高效流转,无法真正发挥信息所具有的服务功能,这不仅阻碍了工作效率的提升,也限制了信息资源的充分利用,为此,我们提出一种基于人工智能的档案系统及方法。
技术实现思路
1、本发明的目的在于提供一种基于人工智能的档案系统及方法。
2、以解决上述背景技术中提出的问题,本发明提供如下技术方案:一种基于人工智能的档案系统,所述档案系统包括智能检索模块、信息共享优化模块、深度学习引擎和自适应分类模块;
3、所述智能检索模块利用自然语言处理与深度神经网络,结合词向量模型将检索请求和档案文本转化为向量形式,通过余弦相似度及引入时间衰减因子的相关性计算公式实现精准且具时效性的检索,检索出的相关档案数据会作为输入传递给深度学习引擎和自适应分类模块,所述信息共享优化模块采用融合量子随机数生成的高级加密标准改进算法,利用量子随机数生成器生成初始密钥,对档案信息分组加密并根据密钥长度和安全等级动态调整加密轮数,确保信息安全共享,所述深度学习引擎运用随机梯度下降算法对多层卷积神经网络进行训练,通过计算损失函数梯度和更新网络参数实现对档案数据的准确特征提取和模式识别,所述深度学习引擎从智能检索模块获取档案数据后进行特征提取,提取出的特征可以反馈给智能检索模块以优化检索结果,同时也可以为自适应分类模块提供更丰富的特征信息用于分类,所述自适应分类模块依据档案属性通过计算信息增益值动态调整分类策略,所述自适应分类模块接收深度学习引擎提取的特征信息以及智能检索模块提供的档案数据,综合考虑这些因素进行分类调整,使得档案分类更加合理高效,同时,分类结果也可以为智能检索模块提供更准确的检索范围和方向;
4、所述档案系统还包括数据清洗模块,对数值型数据采用z-score标准化方法,对文本型数据进行词干提取和停用词过滤。
5、作为本发明的进一步方案:所述智能检索模块设置有词向量模型,运用词向量模型将检索请求和档案文本转化为向量形式,通过余弦相似度计算检索请求和档案文本两者的相关性,同时,引入时间衰减因子来体现档案的时效性,对于较新的档案赋予更高的权重,通过相关性计算公式计算检索请求和档案文本两者的相关性得分,具体的相关性得分计算公式如下:
6、
7、其中:表示相关性得分,表示检索请求,档案文档,表示检索请求与档案文档的语义相似度,表示检索词在文档中的词频,表示文档的更新频率,λ为时间衰减系数,表示当前时间,表示档案创建时间, α、 β和 γ为可调整的权重参数;
8、通过相关性得分计算公式对检索结果进行倒序排序,优先展示相关性高且时效性强的档案。
9、作为本发明的进一步方案:所述信息共享优化模块采用融合了量子随机数生成的高级加密标准(aes)改进算法对共享的档案信息进行加密处理,在加密初始阶段,利用量子随机数生成器生成高度随机且不可预测的初始密钥,在加密过程中,首先将档案信息进行分组,每组128位,然后,通过结合量子密钥和传统密钥扩展算法生成多个轮密钥,加密轮数根据密钥长度和档案的安全等级动态调整,128位密钥进行15轮加密,192位密钥进行18轮加密,256位密钥进行20轮加密,在每一轮中,依次进行字节替换、行移位、列混淆和轮密钥加操作,确保档案信息在共享过程中的机密性和完整性,确定只有拥有正确密钥的用户能够通过相应的解密算法还原原始档案信息,从而实现安全可靠的信息共享。
10、作为本发明的进一步方案:所述深度学习引擎运用随机梯度下降(sgd)算法对多层卷积神经网络进行训练,首先,初始化网络参数,包括卷积核的权重和偏置,在每次迭代中,随机选取一小批档案数据作为训练样本,计算损失函数对网络参数的梯度,这里的损失函数使用熵损失函数,具体的损失函数公式如下:
11、
12、其中:表示损失值,表示真实标签,表示预测输出;
13、接着,根据学习率对参数进行更新,具体公式如下:
14、
15、其中:更新后的网络参数,当前的网络参数,损失函数的梯度;
16、通过不断迭代,使网络逐渐收敛,能够准确对档案数据进行特征提取和模式识别。
17、作为本发明的进一步方案:所述自适应分类模块通过计算档案的信息增益值来动态调整分类策略,首先,对于每个属性,计算其在当前分类下的信息熵,其中表示某一属性值出现的概率,然后,计算该属性对于分类的信息增益,具体的计算公式如下:
18、
19、信息增益, d表示数据集,表示属性 a取值为 v时的数据子集,表示数据集的信息熵,表示数据子集的信息熵;
20、对于计算的信息增益越大,说明该属性对于分类的贡献越大,依据信息增益值的大小,动态调整档案的分类层次和类别划分。
21、作为本发明的进一步方案:所述数据清洗模块运用数据标准化技术对原始档案数据进行清洗和规范化处理,对于数值型数据,采用z-score标准化方法,将数据转换为均值为0、标准差为1的分布,z-score标准化的计算公式如下:
22、
23、其中:表示标准化后的数值,表示原始数据值,表示数据均值,表示数据标准差;
24、对于文本型数据,通过词干提取和停用词过滤操作,去除冗余和无关信息。
25、作为本发明的进一步方案:所述智能检索模块还具备自动纠错功能,当用户输入的检索请求存在拼写错误和语义模糊时,通过编辑距离算法计算与正确检索词的相似度,首先,将用户输入的字符串转换为字符数组,然后通过动态规划的方法计算两个数组之间的编辑距离,编辑操作包括插入、删除和替换字符,根据编辑距离的大小,判断与可能的正确检索词的相似度,并进行自动纠错和优化,同时,结合上下文信息和历史检索记录,进一步提高纠错的准确性。
26、作为本发明的进一步方案:所述信息共享优化模块支持基于属性的访问控制(abac)策略,所述信息共享优化模块会根据用户的属性、环境属性、操作属性和对象属性来动态分配访问权限,首先,定义访问控制策略规则,然后,在用户发起访问请求时,提取相关的属性信息,并使用规则引擎对这些属性进行评估和匹配,如果匹配成功,则授予相应的访问权限,否则,拒绝访问。
27、作为本发明的进一步方案:所述深度学习引擎在进行特征提取时,采用局部二值模式(lbp)算法对档案图像数据进行特征提取,首先,将图像划分为若干个小区域,对于每个区域的中心像素,与其邻域像素进行比较,如果邻域像素值大于中心像素值,则标记为1,否则,标记为0,将这些标记值按照一定顺序组合成一个二进制数,转换为十进制数作为该区域的lbp值,然后,统计图像中不同lbp值出现的频率,形成特征向量,通过这种方式,可以有效捕捉档案图像数据的细节特征。
28、另外,本发明还提供了一种基于人工智能的档案方法,所述档案方法包括以下步骤:
29、步骤一、利用智能检索模块中的词向量模型,该模型经过深度神经网络的优化训练,将用户输入的检索请求和档案文本转化为向量形式,帮助准确地捕捉文本的语义特征,为后续的相关性计算提供基础;
30、步骤二、通过余弦相似度计算检索请求与档案文档的语义相似度,在计算过程中,结合自然语言处理技术对向量进行进一步的分析和优化,提高语义相似度计算的准确性;
31、步骤三、引入时间衰减因子以体现档案的时效性,对较新的档案赋予更高权重,考虑档案的时间特性,使得检索结果更加符合用户对最新信息的需求,通过动态调整时间衰减系数,可以根据不同的档案类型和应用场景,灵活地控制时效性对相关性得分的影响程度;
32、步骤四、按照相关性计算公式
33、计算检索请求和档案文本两者的相关性得分,通过相关性得分计算公式对检索结果进行倒序排序,优先展示相关性高且时效性强的档案,为用户提供最符合需求的检索结果。
34、采用上述技术方案,与现有技术相比,本发明的有益效果在于:
35、1.本发明通过智能检索模块利用自然语言处理技术,能够深入理解用户输入的检索请求的语义,深度神经网络则进一步强化了对复杂语义关系的分析能力,结合词向量模型,将检索请求和档案文本转化为高维向量,通过精确的余弦相似度计算及引入时间衰减因子的相关性计算公式,快速而准确地从海量档案库中筛选出最符合需求的档案,即使在规模庞大的档案室中,深度学习引擎也能通过对大量档案数据的训练,不断优化特征提取和模式识别能力,极大地提高检索的准确性和效率,节省大量时间并减少错误发生的可能性;
36、2.本发明通过信息共享优化模块采用融合量子随机数生成的高级加密标准改进算法,利用量子随机数生成器生成高度随机且不可预测的初始密钥,确保档案信息在共享过程中的安全性,在加密过程中,将档案信息进行分组,通过结合量子密钥和传统密钥扩展算法生成多个轮密钥,并根据密钥长度和档案的安全等级动态调整加密轮数,同时,智能检索模块与信息共享优化模块协同工作,使得档案信息能够在不同用户和系统之间高效流转,数据清洗模块为信息共享提供高质量的数据基础,真正发挥信息所具有的服务功能,促进各部门之间的协作与沟通,提高整体工作效率;
37、3.本发明通过自适应分类模块依据档案属性计算信息增益值动态调整分类策略,结合深度学习引擎提取的丰富特征信息,能够更加精准地对档案进行分类,在面对庞大且种类繁多的档案资料时,这种动态分类方式确保档案始终处于合理的分类体系中,方便用户快速定位所需档案,同时,深度学习引擎在特征提取时采用局部二值模式算法对档案图像数据进行处理,有效捕捉图像细节特征,进一步丰富了档案的特征信息,为档案的准确分类和高效检索提供了有力支持,大大提高了档案管理的整体效率和服务质量。
1.一种基于人工智能的档案系统,其特征在于:所述档案系统包括智能检索模块、信息共享优化模块、深度学习引擎和自适应分类模块;
2.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述智能检索模块设置有词向量模型,运用词向量模型将检索请求和档案文本转化为向量形式,通过余弦相似度计算检索请求和档案文本两者的相关性,同时,引入时间衰减因子来体现档案的时效性,对于较新的档案赋予更高的权重,通过相关性计算公式计算检索请求和档案文本两者的相关性得分,具体的相关性得分计算公式如下:
3.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述信息共享优化模块采用融合了量子随机数生成的高级加密标准(aes)改进算法对共享的档案信息进行加密处理,在加密初始阶段,利用量子随机数生成器生成高度随机且不可预测的初始密钥,在加密过程中,首先将档案信息进行分组,每组128位,然后,通过结合量子密钥和传统密钥扩展算法生成多个轮密钥,加密轮数根据密钥长度和档案的安全等级动态调整,128位密钥进行15轮加密,192位密钥进行18轮加密,256位密钥进行20轮加密,在每一轮中,依次进行字节替换、行移位、列混淆和轮密钥加操作,确保档案信息在共享过程中的机密性和完整性,确定只有拥有正确密钥的用户能够通过相应的解密算法还原原始档案信息,从而实现安全可靠的信息共享。
4.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述深度学习引擎运用随机梯度下降(sgd)算法对多层卷积神经网络进行训练,首先,初始化网络参数,包括卷积核的权重和偏置,在每次迭代中,随机选取一小批档案数据作为训练样本,计算损失函数对网络参数的梯度,这里的损失函数使用熵损失函数,具体的损失函数公式如下:
5.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述自适应分类模块通过计算档案的信息增益值来动态调整分类策略,首先,对于每个属性,计算其在当前分类下的信息熵,其中表示某一属性值出现的概率,然后,计算该属性对于分类的信息增益,具体的计算公式如下:
6.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述数据清洗模块运用数据标准化技术对原始档案数据进行清洗和规范化处理,对于数值型数据,采用z-score标准化方法,将数据转换为均值为0、标准差为1的分布,z-score标准化的计算公式如下:
7.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述智能检索模块还具备自动纠错功能,当用户输入的检索请求存在拼写错误和语义模糊时,通过编辑距离算法计算与正确检索词的相似度,首先,将用户输入的字符串转换为字符数组,然后通过动态规划的方法计算两个数组之间的编辑距离,编辑操作包括插入、删除和替换字符,根据编辑距离的大小,判断与可能的正确检索词的相似度,并进行自动纠错和优化,同时,结合上下文信息和历史检索记录,进一步提高纠错的准确性。
8.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述信息共享优化模块支持基于属性的访问控制(abac)策略,所述信息共享优化模块会根据用户的属性、环境属性、操作属性和对象属性来动态分配访问权限,首先,定义访问控制策略规则,然后,在用户发起访问请求时,提取相关的属性信息,并使用规则引擎对这些属性进行评估和匹配,如果匹配成功,则授予相应的访问权限,否则,拒绝访问。
9.根据权利要求1所述的一种基于人工智能的档案系统,其特征在于:所述深度学习引擎在进行特征提取时,采用局部二值模式(lbp)算法对档案图像数据进行特征提取,首先,将图像划分为若干个小区域,对于每个区域的中心像素,与其邻域像素进行比较,如果邻域像素值大于中心像素值,则标记为1,否则,标记为0,将这些标记值按照一定顺序组合成一个二进制数,转换为十进制数作为该区域的lbp值,然后,统计图像中不同lbp值出现的频率,形成特征向量,通过这种方式,可以有效捕捉档案图像数据的细节特征。
10.一种适用于权利要求1-9任一项基于人工智能的档案系统的基于人工智能的档案方法,其特征在于:所述档案方法包括以下步骤: