本发明属于全景图像视点轨迹研究,具体涉及一种基于人机同构的全景冗余视点过滤方法。
背景技术:
1、冗余视点过滤是一项基于眼动数据的计算机视觉任务。眼动轨迹数据记录了人类在观看图像的过程中关于头部和眼球运动的复杂信息,从而提供了对人类视觉行为的全面理解。这些视点数据可以分为两种不同的类型:注视和扫视。注视,即观众的目光集中在特定的区域,表示感兴趣区域。扫视是在两种注视之间的快速运动,表示不感兴趣的区域。全景图像冗余视点过滤旨在保留眼动数据中重要的注视点,过滤掉无意义的扫视点。通过头眼注视数据和图像分析技术的集成,研究人员可以探索人类对图像内不同区域、视觉兴趣点、视觉搜索策略等的注意力。
2、随着虚拟现实技术的不断发展,全景图像因其能够提供360°全景视图的能力而成为热门技术,但同时也给视点分类任务带来了巨大的挑战。传统方法依赖于手动计算视点数据流的低级特征,如速度和色散,然后使用预定义的阈值进行分类。随着深度学习的兴起,人们开始采用数据驱动的方法,通过卷积网络等模型学习眼动数据中更高级别的特征表示。
3、尽管传统的视点分类方法被广泛应用,但在处理丰富的全景场景时存在局限性,可能会影响分类的准确性和可推广性。全景图像与传统的2d图像不同,其具有独特的特征,需要在用户导航整个场景以定位感兴趣区域时频繁进行注视和扫视之间的转换。当仅使用视点运动特征进行分类,这种要求使得有效区分有意义的注视点和无意义的注视点变得复杂。
4、在人类视觉系统中,人类注意力的转移主要是由物体驱动的——注视应该反映对物体区域的注意,而扫视应该代表跨越非物体区域的过渡过程。现有的方法忽略了场景中的重要语义信息,限制了准确反映用户关注点与特定位置的上下文相关性的能力。因此,需要一种更有效的方法来进一步提高冗余视点过滤的准确性。
技术实现思路
1、本发明所为了解决背景技术中存在的技术问题,目的在于提供了一种基于人机同构的全景冗余视点过滤方法,通过渐进式自步学习、综合多模态信息;相较于现有方法,从人类视觉系统角度出发,专注于以物体为中心的注视序列,与全景视图中人类的注意力转移保持一致,从而丰富了虚拟现实和沉浸式技术中的用户体验,在没有人工标注数据的情况下,构建了一种全自动的方式,实现更加细粒度的视点过滤。
2、为了解决技术问题,本发明的技术方案是:
3、一种基于人机同构的全景冗余视点过滤方法,所述方法包括:
4、s1:获取多个全景图像及对应的用户观看全景场景的眼动轨迹,对眼动轨迹数据进行预处理并划分为训练集和测试集;
5、s2:利用视点分类算法对训练集中的视点进行初步的分类,设置多阈值来评估样本的可信度,并根据可信程度对训练样本进行划分,得到初步标注结果,包括可信的注视点、可信的扫视点、低可信的注视点和低可信的扫视点;
6、s3:构建视点分类模型,结合视点轨迹序列的运动特征和图像的语义信息,模拟人类在探索感兴趣区域过程中的认知和行为方式,通过学习序列之间的依赖关系和模式,得到优化后的第一视点分类模型;
7、s4:通过自步学习策略,渐进式地学习简单样本挖掘困难样本,学习标注为可信的视点轨迹对低可信的视点进行预测分类,挖掘可信样本;
8、s5:基于握手机制,当视点分类模型的预测结果与所述初步标注结果一致时,将预测结果增加到训练集中,在每个递进学习阶段,利用更新后的训练集指导当前模型重新训练,得到优化后的第二视点分类模型;
9、s6:重复步骤s3、s4和s5,不断迭代优化后模型的性能和泛化能力,得到优化后的第n视点分类模型;
10、s7:利用所述测试集对经过多次迭代第n视点分类模型进行性能和准确性评估。
11、本发明通过引入渐进式迭代自步学习机制,并结合图像场景语义信息,实现了对全景场景视点数据的准确分类。通过学习“可信”样本和挖掘“低可信”样本,不断进行自我学习和迭代优化,弥补了传统算法的不足,能够在复杂场景下更有效地过滤掉冗余视点。
12、本发明的分类方法设计了一个视点分类模型,基于人机同构的逻辑思维,模拟人在观看全景场景时的视觉行为。利用多模态技术,建模场景的语义信息与视点运动特征之间的内在联系,通过时序模型对视点进行分类和过滤。这种设计使得方法能够更精准地识别视点序列中的有意义注视点,从而提高了冗余视点过滤的准确性。
13、进一步,所述步骤s2包括:
14、s201:利用预设的视点分类算法对训练集中的扫描轨迹点进行初步视点类型分类,根据视点分类方法初步评估数据的可信度,所述视点分类算法采用idt算法作为基础模型;
15、s202:采用全自动多阈值划分策略,将数据集划分为可信的注视点、可信的扫视点、低可信的注视点和低可信的扫视点,利用可信的数据挖掘低可信的数据样本。
16、进一步,所述步骤s3包括:
17、s301:构建特征提取器,采用深度神经网络架构,包括多个卷积层、激活层和池化层,提取全景图像的全局特征;
18、s302:构建双多尺度图注意力模块,捕捉到从细节到全局的信息,通过在不同尺度上计算节点之间的注意力权重来进行特征传播和聚合,得到融合后的图像特征和视点运动特征;
19、s303:构建视点分类器,将融合后的图像特征和视点运动特征作为输入;考虑到视点序列的问题,采用lstm模型,通过记忆和更新隐藏状态,lstm能够有效地利用序列中的上下文信息,提取不同视点的更高级别特征,lstm通过其独特的门控机制,对数据进行选择性更新和输出,动态地提取和处理时间序列中的重要特征;通过多层lstm单元,模型能够识别时间序列中的复杂模式和结构,最终,通过全连接层和激活函数输出分类结果,并引入交叉熵损失函数来训练分类模型,得到优化后的第一视点分类模型。
20、进一步,所述步骤s4包括:
21、s401:基于自步学习策略,由简单到复杂的方式来学习样本数据特征;按照样本的可信等级,学习可信的视点数据,然后逐渐引入到低可信的视点数据,通过从易到难的学习模式,使模型能够逐步的提高分类能力,增强模型的泛化性;
22、s402:利用可信样本训练视点分类模型,并对低可信样本进行预测分类,然后,从低可信的样本中挖掘新的可信样本作为标签,指导当前阶段的学习。
23、进一步,所述步骤s5包括:
24、s501:低可信的样本的预测结果与初始标注的低可信的样本类别标签对比,当类别一致时,将新数据添加到训练样本集中;否则,仍视为低可信样本;
25、s502:在每个递进学习阶段,利用更新后的训练集指导当前模型重新训练,得到优化后的第二视点分类模型。
26、进一步,所述步骤s7包括:
27、s701:在每次训练阶段结束后,使用与训练样本分布不同的测试集来测试模型性能,评价指标包括准确度、连续性;
28、s702:根据性能评估的结果,调整模型的超参数,包括学习率、正则化系数,优化模型结构,改善模型的评估性能。
29、进一步,在所述步骤s3中:所述特征提取器基于去除全连接层的卷积神经网络resnet50构建;
30、利用所述步骤s301过程提取的特征图,将输入特征图x与通道尺寸一起被分成n个部分,对于每个分裂的部分,具有c0=cs个公共通道,并且第i个特征映射是xi∈rc0×h×w,各个特征在传递到两个不同的分支之前被融合,融合后的特征分别输入到两个分支,分别为位置注意模块和通道注意模块;
31、网络的第二部分执行以下操作:构建空间注意力矩阵,该矩阵模拟特征的任意两个像素之间的空间关系;注意力矩阵和原始特征之间的矩阵乘法;对所得矩阵和原始特征进行逐元素求和运算,最终将来自两个并行分支的特征连接生成最终输出;
32、通道注意模块用于有选择地加权每个通道的重要性,从而产生最佳输出特性,从原始特征a∈rc×h×w计算通道注意力图x∈rc×c,将a重塑为rc×n,然后在a和a的转置之间执行矩阵乘法,然后,应用softmax层来获得信道注意力图x∈rc×c,如等式所示:
33、
34、其中,xji测量第i个通道对第j个通道的影响,在x和a的转置之间执行矩阵乘法,并将其结果重塑为rc×h×w;
35、将结果乘以比例参数β,并对a执行元素求和运算,以获得最终输出e∈rc×h×w,如式所示:
36、
37、空间注意力模块,将由a∈rc×h×w表示的局部特征送入卷积层,生成两个新的特征映射b和c,其中b,c∈rc×h×w,将其重塑为rc×n,其中n=h×w是像素数;接下来,在c和b的转置之间进行矩阵乘法,并应用softmax层来计算空间注意图s∈rn×n;此操作如等式所示:
38、
39、其中,测量第i个位置对第j个位置的影响,接下来,将特征a输入到卷积层,以生成新的特征映射d∈rc×h×w并将其重塑为rc×n,在d和s的转置之间执行矩阵乘法,并将结果整形为rc×h×w,将其乘以比例参数α,并对特征a执行元素求和运算,以获得最终输出rc×h×w,如式所示:
40、
41、整个多比例尺预处理特征图可通过串联方式获得:
42、f=concat([e1j,e2j])
43、采用多模态融合技术进一步改进视点分类器的性能,考虑了视点运动特征,引入步骤s302得到的多尺度图像特征作为补充,将视点的时间和坐标信息输入到线性神经网络即全连接层中提取特征,通过将多尺度图像特征和视点运动特征进行融合,采用拼接的方式进行特征融合,输入到长短时记忆模块中,通过细胞状态和门控机制,在训练过程中,引入交叉熵损失函数作为目标函数,交叉熵损失函数衡量了模型输出与真实标签之间的差异,通过最小化损失函数,能够优化模型参数,使其能够更准确地预测视点的类别。
44、进一步,在所述步骤s4中,对低可信数据的预测结果与s202中低可信数据的初始类别标签进行对比;如果两者的类别标签都是注视点或者都是扫视点,将按照时间特征将它们加入到训练集的轨迹序列中,否则,如果两者的类别标签不一致,即一个是注视点而另一个是扫视点,仍然将其视为低可信样本;
45、在每个递进学习阶段,利用经过更新的训练集来指导视觉分类模型的重新训练,通过使用包含新数据的训练集,使模型不断地学习和适应新的视点特征,从而提高分类性能。
46、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述中任一项所述的一种基于人机同构的全景冗余视点过滤方法。
47、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述中任一项所述的一种基于人机同构的全景冗余视点过滤方法。
48、与现有技术相比,本发明的优点在于:
49、冗余视点过滤任务的目标是从眼动数据中去除扫视点,保留注视点。然而,眼动数据的标注通常是一项繁琐且主观的任务。传统的视点分类方法通常依赖人工标注的眼动数据作为监督信号,这不仅需要专业人员进行耗时的标注工作,还容易引入主观偏差。本发明采用弱监督的方式,使视点分类过程更加高效和可扩展。具体而言,通过引入渐进式迭代自步学习机制,该方法能够从未标注的数据中自动学习,并根据分类结果进行自我调整和优化,从而逐步提升模型对视点数据的理解能力,减少对人工标注数据的依赖。
50、从人机同构的角度出发,人类视觉系统会将注意力集中在物体区域,即那些有意义的区域。现有的视点过滤方法通常过度依赖视点运动特征的分析,而忽视了场景语义信息的重要性。因此,本发明提出了一种综合考虑场景语义信息的方法,通过渐进式迭代分类模型和多模态融合技术,充分利用语义场景信息和视点数据的运动信息,增强视点数据与观察区域之间的联系,从而更准确地识别注视点和扫视点。利用时空建模方法,本发明能够对视点数据进行动态建模,提升视点类型分类的能力,能够更精确地识别注视点和扫视点。
51、本发明采用了渐进式迭代优化策略,通过多阶段的重学习方法来提升视点分类的性能。这种迭代方式使得模型能够逐步调整和增强对视点数据及场景语义信息的理解能力,并在每个阶段优化模型性能。通过渐进式迭代优化,模型能够适应不同类型的视点数据和场景语义信息,从而提高分类的泛化能力。这一策略有效应对了视点数据的多样性和复杂性,增强了模型对各种场景的适应能力。此外,渐进式迭代优化具有较强的灵活性,使得模型能够满足不同任务和应用场景的需求。
52、综上所述,相较于现有技术,本发明在全景图像冗余视点数据过滤任务方面具有明显的优势。通过综合考虑场景语义信息、采用渐进式迭代优化策略和时空建模方法,本发明能够提供更准确、全面的视点数据分类结果,并为计算机视觉相关任务的研究提供更好的辅助工具和方法。
1.一种基于人机同构的全景冗余视点过滤方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于人机同构的全景冗余视点过滤方法,其特征在于,所述步骤s2包括:
3.根据权利要求1所述的一种基于人机同构的全景冗余视点过滤方法,其特征在于,所述步骤s3包括:
4.根据权利要求1所述的一种基于人机同构的全景冗余视点过滤方法,其特征在于,所述步骤s4包括:
5.根据权利要求1所述的一种基于人机同构的全景冗余视点过滤方法,其特征在于,所述步骤s5包括:
6.根据权利要求1所述的一种基于人机同构的全景冗余视点过滤方法,其特征在于,所述步骤s7包括:
7.根据权利要求3所述的一种基于人机同构的全景冗余视点过滤方法,其特征在于,在所述步骤s3中:所述特征提取器基于去除全连接层的卷积神经网络resnet50构建;
8.根据权利要求1所述的一种基于人机同构的全景冗余视点过滤方法,其特征在于,在所述步骤s4中,对低可信数据的预测结果与s202中低可信数据的初始类别标签进行对比;如果两者的类别标签都是注视点或者都是扫视点,将按照时间特征将它们加入到训练集的轨迹序列中,否则,如果两者的类别标签不一致,即一个是注视点而另一个是扫视点,仍然将其视为低可信样本;
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至8中任一项所述的一种基于人机同构的全景冗余视点过滤方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1至8中任一项所述的一种基于人机同构的全景冗余视点过滤方法。