机器人自主超声扫查技能策略生成方法、装置及存储介质

专利查询1月前  20



1.本公开涉及医疗机器人领域,特别涉及机器人自主超声扫查技能策略生成方法、装置及存储介质。


背景技术:

2.超声扫查作为现代医学检查中不可或缺的诊断手段,在临床中的应用范围极为广泛。随着远程医疗会诊技术的发展,通过远程超声扫查来诊断疾病也逐渐成为可能。当前一种可行的方案是远程医生专家通过遥操作方式来控制超声探头的运动实现对扫查对象相应器官部位的超声扫查。然而由于远程遥操作中不可避免的时延问题导致医生端遥操作手柄的运动不能立刻作用到超声探头端,导致诊断体验不佳及效率低。另一方面,医生专业水平的高低以及对遥操作设备的熟练程度也会对远程超声扫查结果产生影响。因此设计具备智能化的自主超声扫查技能策略生成装置,使机器人以高适应性自主完成对扫查对象身体各部位的超声扫查就显得极为必要。


技术实现要素:

3.本公开旨在解决上述问题之一。
4.为此,本公开实施例提供的机器人自主超声扫查技能策略生成方法,包括:
5.采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取所述多模态数据的融合特征;
6.构建机器人超声扫查技能的虚拟训练环境,采用自主域随机化方法对所述虚拟训练环境的纹理渲染以及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用所述融合特征对所述自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,用于生成自主超声扫查技能策略。
7.本公开第一方面实施例提供的机器人自主超声扫查技能策略生成方法,具有以下特点及有益效果:
8.本公开第一方面实施例提供的机器人自主超声扫查技能策略生成方法,通过收集超声扫查过程中的多模态感知信息并进行融合得到了一个鲁棒的特征表达可以较好的克服超声扫查自主操作过程中因遮挡等因素导致的特征表达鲁棒性弱问题。通过融合模仿学习与强化学习的超声扫查技能学习方法高效地完成对超声扫查技能的学习,并使学习后的技能以较好的自适应性满足对扫查对象身体部位的智能超声扫查要求。
9.在一些实施例中,所述多模态数据包括机器人超声扫查过程中的rgb图像、深度图像、触觉图像以及机器人末端超声探头与扫查对象接触时的六维力/力矩。
10.在一些实施例中,所述多模态特征融合网络包括多模态融合子网络以及与所述多模态融合子网络的输入端并行连接的rgb图像特征提取子网络、深度图像特征提取子网络、触觉特征提取子网络和六维力/力矩特征提取子网络。
11.在一些实施例中,所述rgb图像特征提取子网络的输入为240
×
240
×
3的rgb图像,输出为32维的rgb图像特征向量,所述rgb图像特征提取子网络具有4层第一卷积层和1层第一全连接层,各第一卷积层的通道数分别为16,32,64,32,每层第一卷积层的滑动步长均为2,卷积核尺寸均为2
×
2,第一全连接层的神经元个数为32,均采用relu激活函数;所述深度图像特征提取子网络的输入为240
×
240
×
1的深度图像,输出为32维的深度图像特征向量,所述深度图像特征提取子网络具有4层第二卷积层和1层第二全连接层,各第二卷积层的通道数分别为16,32,64,32,每层第二卷积层的滑动步长均为2,卷积核尺寸均为2
×
2,第二全连接层的神经元个数为64,均采用relu激活函数;所述触觉图像特征提取子网络的输入为128
×
128
×
3的触觉图像,输出为32维的触觉图像特征向量,所述触觉图像特征提取子网络具有4层第三卷积层和1层第三全连接层,各第三卷积层的通道数分别为16,32,64,32,每层第三卷积层的滑动步长均为2,卷积核尺寸均为2
×
2,第三全连接层的神经元个数为64,均采用relu激活函数;所述六维力/力矩特征提取子网络的输入为将连续3个时刻的空间六维力/力矩拼接得到的18维向量,输出为32维的力特征向量,所述六维力/力矩特征提取子网络具有3层第四全连接层,各第四全连接层的神经元个数分别为128,128,64,均采用relu激活函数;所述多模态融合子网络具有1层第五全连接层,其神经元个数为128,均采用relu激活函数,将提取的维度分别为32维的rgb图像特征向量、深度图像特征向量、触觉图像特征向量和力特征向量连接在一起后输入到第五全连接层,得到128维的融合特征向量。
12.在一些实施例中,在所述构建机器人超声扫查技能的虚拟训练环境前,还包括:将采集的所述多模态数据补全和对齐后,采用自监督学习方法对所述多模态数据融合网络进行训练。
13.在一些实施例中,对所述多模态数据融合网络进行训练时,先在所述多模态融合子网络后并行设置超声探头末端位姿预测子网络、超声探头末端力预测子网络和超声图像成功采集分类子网路,分别用于输出超声探头末端的预测位姿、施加于超声探头末端的预测力和是否成功采集到超声图像的分类结果;然后通过自监督学习形式来预测超声探头末端的位姿和作用力以及超声探头是否成功采集到超声图像的方式来进行学习,即最小化下式:
[0014][0015]
式中,l为损失函数;d为采集的样本数据集,包含示教操作超声扫查任务过程中采集的示教样本和机器人与环境自主交互产生的交互样本,各样本均分别包括超声探头末端六维位姿数据、六维力/力矩、是否成功采集到超声图像分类结果、触觉图像、rgb图像及深度图像,ds表示与所述样本对应的是否成功采集到超声图像的分类结果,d
p
表示所述样本中超声探头末端的六维位姿,df表示所述样本中超声探头末端的六维力/力矩;d's,d'
p
,d'f分别表示所述超声图像成功采集分类子网路、所述超声探头末端位姿预测子网络和所述超声探头末端力预测子网络的输出;α1,α2,α3分别为权重系数;表示从样本数据集d中采集样本的ds,d
p
,df计算的期望值。
[0016]
在一些实施例中,所述自主超声扫查技能策略模型包括训练完毕的所述多模态特征融合网络以及并行连接于该多模态特征融合网络中所述多模态融合子网络后的超声探头末端位姿子网络和超声探头末端力子网络;所述超声探头位姿输出子网络和所述超声探
头末端力子网络分别输出超声探头的六维位姿和施加到超声探头末端的六维力/力矩。
[0017]
在一些实施例中,所述结合模仿学习与强化学习方法并利用所述融合特征对所述自主超声扫查技能模型进行训练,具体包括:
[0018]
收集所述示教样本,对所述示教样本进行离散化处理,构建示教池,所述示教池中的样本为状态转移对(s
t
,a
t
,r
t
,s
t+1
),s
t
表示t时刻的状态,a
t
表示在t时刻执行的示教动作,r
t
表示t时刻得到的奖赏值,s
t+1
表示在状态s
t
执行动作a
t
后到达的状态;同时构建经验池,所述经验池中存放的数据为所述交互样本;
[0019]
强化学习部分,机器人基于给定的奖赏值在环境中自主探索学习,其中,所述奖赏值通过稀疏奖励形式的奖赏函数确定,具体如下:如果机器人能够完成超声扫查任务,则给定其奖赏值m=1,如果机器人未能完成超声扫查任务,则给定其奖赏值n=-1;将所述交互样本存入所述经验池,采用离线强化学习方法分别从所述示教池和所述经验池采集训练样本对所述自主超声扫查技能策略模型进行训练,直至自主超声扫查技能策略学习收敛。
[0020]
本公开第二方面实施例提供的机器人自主超声扫查技能策略生成装置,包括:
[0021]
融合特征生成模块,用于采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取所述多模态数据的融合特征;
[0022]
自主超声扫查技能策略生成模块,用于构建机器人超声扫查的虚拟训练环境,采用自主域随机化方法对所述虚拟训练环境的纹理渲染及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用所述融合特征对所述自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,用于生成自主超声扫查技能策略。
[0023]
本公开第三方面实施例提供的计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述机器人自主超声扫查技能策略生成方法。
附图说明
[0024]
图1为本公开第一方面实施例提供的机器人自主超声扫查技能策略生成方法的流程示意图。
[0025]
图2为本公开第一方面实施例提供的生成方法对应的采集平台的布置示意图。
[0026]
图3为本公开第一方面实施例提供的生成方法中多模态特征融合网络的结构示意图。
[0027]
图4为本公开第一方面实施例提供的生成方法中自主超声扫查技能模型的结构示意图。
[0028]
图5为本公开第二方面实施例提供的机器人自主超声扫查技能策略生成装置的结构示意图。
[0029]
图6为本公开第三方面实施例提供的电子设备的结构示意图。
[0030]
图中,1-平台,2-扫查对象,30-机械臂,31-六维力/力矩传感器,32-超声探头,33-彩色深度相机,34-触觉传感器,4-移动平台,5-彩色深度相机。
具体实施方式
[0031]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本技术,并不用于限定本技术。
[0032]
相反,本技术涵盖任何由权利要求定义的在本技术精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本技术有更好的了解,在下文对本技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本技术。
[0033]
参见图1,本公开第一方面实施例提供的机器人自主超声扫查技能策略生成方法,包括:
[0034]
采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取稳定鲁棒的多模态数据的融合特征;
[0035]
构建机器人超声扫查技能的虚拟训练环境,采用自主域随机化方法对虚拟训练环境的纹理渲染以及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用融合特征对自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,用于生成自主超声扫查技能策略。
[0036]
在一些实施例中,采集的机器人超声扫查过程中的多模态数据包括视觉数据、触觉数据以及机器人末端超声探头与扫查对象接触时的空间力数据。
[0037]
在一些实施例中,视觉数据包括机器人超声扫查过程中获取操作环境的rgb图像和深度图像;触觉数据包括机器人超声扫查过程中的触觉图像;空间力数据包括机器人末端超声探头与扫查对象接触时的六维力/力矩信息。
[0038]
在一个实施例中,利用如图2所示的采集平台采集多模态数据,具体地,机器人的机械臂30由一移动平台4驱动,并布设在扫查对象2附近,扫查对象2位于平台1上;在扫查环境中布设第一彩色深度相机5,用于采集全场景rgb图像和全场景深度图像。超声探头32布设在机器人的机械臂30末端,在超声探头32的末端布设触觉传感器34,用于采集触觉图像;在机械臂30上,布设六维力/力矩传感器31和第二彩色深度相机33,用于采集机器人末端超声探头32与扫查对象接触时的六维力/力矩信息、rgb图像和深度图像。其中,扫查人员借助带有力反馈的遥操作手柄针对待扫查对象2不同部位进行超声扫查过程的示教演示,并记录该过程中采集的rgb图像、深度图像和超声探头末端的六维位姿数据、六维力/力矩信息及触觉图像。
[0039]
在一些实施例中,在进行多模态特征融合前,还包括以下数据处理步骤:
[0040]
对采集的全场景rgb图像进行语义分割,得到语义分割图,再借助采集全场景深度图像提供的深度信息及空间坐标变化方法得到扫查对象2各扫查部位在机器人坐标系下的位置坐标,以便后续超声探头移动到该位置坐标进行超声扫查。
[0041]
在一些实施例中,在进行多模态特征融合前,还包括以下数据处理步骤:
[0042]
对采集的视觉数据、触觉数据以及机器人末端超声探头与扫查对象接触时的空间力数据进行补全和对齐操作,使得学习到的多模态特征更加准确。
[0043]
在一些实施例中,参见图3,多模态特征融合网络包括rgb图像特征提取子网络、深
度图像特征提取子网络、触觉特征提取子网络、六维力/力矩特征提取子网络和多模态融合子网络。其中,rgb图像特征提取子网络的输入为240
×
240
×
3的rgb图像,输出为32维的rgb图像特征向量,rgb图像特征提取子网络具有4层第一卷积层和1层第一全连接层,各第一卷积层的通道数分别为16,32,64,32,每层第一卷积层的滑动步长均为2且均没有池化层,卷积核尺寸均为2
×
2,第一全连接层的神经元个数为32,均采用relu激活函数;深度图像特征提取子网络的输入为240
×
240
×
1的深度图像,输出为32维的深度图像特征向量,深度图像特征提取子网络具有4层第二卷积层和1层第二全连接层,各第二卷积层的通道数分别为16,32,64,32,每层第二卷积层的滑动步长均为2且均没有池化层,卷积核尺寸均为2
×
2,第二全连接层的神经元个数为64,均采用relu激活函数;触觉图像特征提取子网络的输入为128
×
128
×
3的触觉图像,输出为32维的触觉图像特征向量,触觉图像特征提取子网络具有4层第三卷积层和1层第三全连接层,各第三卷积层的通道数分别为16,32,64,32,每层第三卷积层的滑动步长均为2且均没有池化层,卷积核尺寸均为2
×
2,第三全连接层的神经元个数为64,均采用relu激活函数;六维力/力矩特征提取子网络的输入为将连续3个(或其他个数)时刻的空间六维力/力矩拼接得到的18维向量,输出为32维的力特征向量,六维力/力矩特征提取子网络具有3层第四全连接层,各第四全连接层的神经元个数分别为128,128,64,均采用relu激活函数;多模态融合子网络具有1层第五全连接层,其神经元个数为128,均采用relu激活函数,将提取的维度分别为32维的rgb图像特征向量、深度图像特征向量、触觉图像特征向量和力特征向量连接在一起后输入到第五全连接层,得到128维的融合特征向量。
[0044]
进一步地,参见图3,为了得到有效且鲁棒的融合特征向量,对多模态特征融合网络进行训练,训练过程中在多模态融合子网络后并行设置有超声探头末端位姿预测子网络、超声探头末端力预测子网络和超声图像成功采集分类子网路;其中,超声探头末端位姿预测子网络具有3层第六全连接层,3层第六全连接层的神经元个数分别为128,256,6,均采用relu激活函数,输出的维度为6,分别对应超声探头末端应到达的六维位姿,即超声探头末端的预测位姿;超声探头末端力预测子网络具有3层第七全连接层,3层第七全连接层的神经元个数分别为128,256,6,均采用relu激活函数,输出的维度为6,分别对应超声探头末端应施加的六维力/力矩,即施加于超声探头末端的预测力;超声图像成功采集分类子网路具有3层第八全连接层,3层第八全连接层的神经元个数分别为128,256,1,其中前两层采用relu激活函数,第三层采用sigmoid激活函数,输出是否成功采集到超声图像的分类结果“1”或者“0”,“1”表示超声探头成功采集到超声图像,“0”表示超声探头未成功采集到超声图像,一般通过超声扫查仪器是否成功显示超声图像来判断是否成功采集到超声图像。
[0045]
进一步地,采用自监督学习方法来预测超声探头是否成功采集到超声图像数据、超声探头的末端位置及末端作用力的方式对多模态特征融合网络的各个神经网络参数进行训练学习,待训练收敛后得到鲁棒的多模态特征向量,可选地,训练过程即通过最小化如下损失函数实现:
[0046][0047]
式中,l为损失函数;d为采集的样本数据集,包含示教演示过程中采集的示教样本和机器人与环境自主交互产生的交互样本,各样本均分别包括、触觉图像、rgb图像、深度图
像、是否成功采集到超声图像标记结果ds、超声探头末端六维位姿数据d
p
及六维力/力矩df,d's,d'
p
,d'f分别表示超声图像成功采集分类子网路、超声探头末端位姿预测子网络和超声探头末端力预测子网络的输出;α1,α2,α3分别为权重系数(一种可取方案为α1=0.3,α2=0.3,α3=0.3);表示从样本数据集d中采集样本的ds,d
p
,df计算的期望值。
[0048]
在一些实施例中,构建机器人超声扫查的虚拟训练环境,采用自主域随机化方法并融合课程学习机制对虚拟训练环境的纹理渲染以及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境,具体包括:
[0049]
先对虚拟训练环境中的光照、物体表面纹理进行随机化渲染,随机化程度由超声扫查技能策略学习的性能自主选择,实现自主域随机化,即当超声扫查技能策略性能提升时,则增大随机化程度,否则降低随机化程度;待超声扫查技能策略学习的成功率满足要求后,再同时对虚拟训练环境渲染和通过添加随机噪声的形式对与超声扫查操作相关的动力学参数(如摩擦因数等)进行随机化处理,使超声扫查技能策略在该类自主域随机化环境中进行学习以提高超声扫查技能策略学习的效率。本公开实施例采用的域随机化方法是通过自主化方式实现,即考虑到在域随机化过程中若域随机化程度过大,则超声扫查技能策略学习困难不利用超声扫查技能策略学习的收敛;若域随机化程度过小,则不利于超声扫查技能策略性能的提升,为此在超声扫查技能策略学习过程中基于对当前超声扫查技能策略性能的评价,自动调整域随机化程度;考虑到同时对环境纹理渲染和动力学参数两类因素进行域随机化导致超声扫查技能策略学习困难,为此基于课程学习的机制,先对其中环境纹理渲染部分进行域随机化处理,待超声扫查技能策略学习的成功率满足要求后,再同时对环境纹理渲染和动力学参数进行域随机化处理。
[0050]
在一些实施例中,参见图4,自主超声扫查技能策略模型以多模态融合特征作为输入,以自主超声扫查技能策略的动作作为输出,输出的自主超声扫查技能策略的动作包括机器人末端的超声探头应到达的六维位姿和应施加的六维力/力矩。自主超声扫查技能策略模型网络具体包括训练完毕的多模态特征融合网络以及并行连接于该多模态特征融合网络中多模态融合子网络后的超声探头末端位姿子网络和超声探头末端力子网络。其中,超声探头末端位姿子网络,用于输出超声探头的六维位姿,以控制机器人上超声探头移动到扫查位置进行超声扫查;超声探头末端力子网络用于输出施加到超声探头末端的六维力/力矩,以保证超声成像质量。在自主超声扫查技能策略模型的训练过程中,只对超声探头末端位姿子网络和超声探头末端力子网络的神经网络参数进行学习更新,多模态特征融合网络的神经网络参数均冻结。
[0051]
在一些实施例中,结合模仿学习与强化学习方法并利用融合特征对自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,具体包括:
[0052]
通过示教操作超声扫查任务收集示教样本,对收集到的示教样本进行离散化处理,构建示教池,示教池中的样本为状态转移对(s
t
,a
t
,r
t
,s
t+1
),其中,s
t
表示t时刻的状态,a
t
表示在t时刻示教人员执行的示教动作,r
t
表示t时刻得到的奖赏值,s
t+1
表示在状态s
t
执行动作a
t
后到达的状态,即t+1时刻的状态;同时构建经验池,经验池中存放的数据为机器人与环境探索过程中的交互数据,即交互样本。
[0053]
强化学习部分需要机器人基于给定的奖赏值在环境中自主探索学习,其中,奖赏值通过奖赏函数确定,将该奖赏函数定义成稀疏奖励形式,具体如下:如果机器人能够完成
超声扫查任务,则给定其奖赏值m=1,如果机器人未能完成超声扫查任务,则给定其奖赏值n=-1;将机器人与环境探索过程中的交互数据存入经验池,采用离线强化学习方法分别从示教池和经验池采集训练样本对自主超声扫查技能策略模型进行训练,最终待技能策略学习收敛后,将所学技能策略部署到真实环境中,以完成对扫查对象的超声扫查任务。
[0054]
参见图5,本公开第二方面实施例提供的机器人自主超声扫查技能策略生成装置,包括:
[0055]
融合特征生成模块,用于采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取所述多模态数据的融合特征;和
[0056]
自主超声扫查技能策略生成模块,用于构建机器人超声扫查的虚拟训练环境,采用自主域随机化方法对所述虚拟训练环境的纹理以及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用所述融合特征对所述自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,用于生成自主超声扫查技能策略。
[0057]
为了实现上述实施例,本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,用于执行上述实施例的机器人自主超声扫查技能策略生成方法。
[0058]
下面参考图6,其示出了适于用来实现本公开实施例的电子设备100的结构示意图。其中,需要说明的是,图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0059]
如图6所示,电子设备100可以包括处理装置(例如中央处理器、图形处理器等)101,其可以根据存储在只读存储器(rom)102中的程序或者从存储装置108加载到随机访问存储器(ram)103中的程序而执行各种适当的动作和处理。在ram 103中,还存储有电子设备100操作所需的各种程序和数据。处理装置101、rom 102以及ram 103通过总线104彼此相连。输入/输出(i/o)接口105也连接至总线104。
[0060]
通常,以下装置可以连接至i/o接口105:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置106;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置107;包括例如磁带、硬盘等的存储装置108;以及通信装置109。通信装置109可以允许电子设备100与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备100,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0061]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图中所示方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置109从网络上被下载和安装,或者从存储装置108被安装,或者从rom 102被安装。在该计算机程序被处理装置101执行时,执行本公开实施例的方法中限定的上述功能。
[0062]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计
算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0063]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0064]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取多模态数据的融合特征;构建机器人超声扫查的虚拟训练环境,采用域随机化方法对虚拟训练环境的纹理渲染以及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用融合特征对自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,用于生成自主超声扫查技能策略。
[0065]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++、python,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0066]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0067]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
[0068]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0069]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫查,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
[0070]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0071]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤,可以通过程序来指令相关的硬件完成,所开发的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0072]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0073]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:
1.一种机器人自主超声扫查技能策略生成方法,其特征在于,包括:采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取所述多模态数据的融合特征;构建机器人超声扫查技能的虚拟训练环境,采用自主域随机化方法对所述虚拟训练环境的纹理渲染以及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用所述融合特征对所述自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,用于生成自主超声扫查技能策略。2.根据权利要求1所述的机器人自主超声扫查技能策略生成方法,其特征在于,所述多模态数据包括机器人超声扫查过程中的rgb图像、深度图像、触觉图像以及机器人末端超声探头与扫查对象接触时的六维力/力矩。3.根据权利要求2所述的机器人自主超声扫查技能策略生成方法,其特征在于,所述多模态特征融合网络包括多模态融合子网络以及与所述多模态融合子网络的输入端并行连接的rgb图像特征提取子网络、深度图像特征提取子网络、触觉特征提取子网络和六维力/力矩特征提取子网络。4.根据权利要求3所述的机器人自主超声扫查技能策略生成方法,其特征在于,所述rgb图像特征提取子网络的输入为240
×
240
×
3的rgb图像,输出为32维的rgb图像特征向量,所述rgb图像特征提取子网络具有4层第一卷积层和1层第一全连接层,各第一卷积层的通道数分别为16,32,64,32,每层第一卷积层的滑动步长均为2,卷积核尺寸均为2
×
2,第一全连接层的神经元个数为32,均采用relu激活函数;所述深度图像特征提取子网络的输入为240
×
240
×
1的深度图像,输出为32维的深度图像特征向量,所述深度图像特征提取子网络具有4层第二卷积层和1层第二全连接层,各第二卷积层的通道数分别为16,32,64,32,每层第二卷积层的滑动步长均为2,卷积核尺寸均为2
×
2,第二全连接层的神经元个数为64,均采用relu激活函数;所述触觉图像特征提取子网络的输入为128
×
128
×
3的触觉图像,输出为32维的触觉图像特征向量,所述触觉图像特征提取子网络具有4层第三卷积层和1层第三全连接层,各第三卷积层的通道数分别为16,32,64,32,每层第三卷积层的滑动步长均为2,卷积核尺寸均为2
×
2,第三全连接层的神经元个数为64,均采用relu激活函数;所述六维力/力矩特征提取子网络的输入为将连续3个时刻的空间六维力/力矩拼接得到的18维向量,输出为32维的力特征向量,所述六维力/力矩特征提取子网络具有3层第四全连接层,各第四全连接层的神经元个数分别为128,128,64,均采用relu激活函数;所述多模态融合子网络具有1层第五全连接层,其神经元个数为128,均采用relu激活函数,将提取的维度分别为32维的rgb图像特征向量、深度图像特征向量、触觉图像特征向量和力特征向量连接在一起后输入到第五全连接层,得到128维的融合特征向量。5.根据权利要求4所述的机器人自主超声扫查技能策略生成方法,其特征在于,在所述构建机器人超声扫查技能的虚拟训练环境前,还包括:将采集的所述多模态数据补全和对齐后,采用自监督学习方法对所述多模态数据融合网络进行训练。6.根据权利要求5所述的机器人自主超声扫查技能策略生成方法,其特征在于,对所述多模态数据融合网络进行训练时,先在所述多模态融合子网络后并行设置超声探头末端位姿预测子网络、超声探头末端力预测子网络和超声图像成功采集分类子网路,分别用于输
出超声探头末端的预测位姿、施加于超声探头末端的预测力和是否成功采集到超声图像的分类结果;然后通过自监督学习形式来预测超声探头末端的位姿和作用力以及超声探头是否成功采集到超声图像的方式来进行学习,即最小化下式:式中,l为损失函数;d为采集的样本数据集,包含示教操作超声扫查任务过程中采集的示教样本和机器人与环境自主交互产生的交互样本,各样本均分别包括超声探头末端六维位姿数据、六维力/力矩、是否成功采集到超声图像分类结果、触觉图像、rgb图像及深度图像,d
s
表示与所述样本对应的是否成功采集到超声图像的分类结果,d
p
表示所述样本中超声探头末端的六维位姿,d
f
表示所述样本中超声探头末端的六维力/力矩;d'
s
,d'
p
,d'
f
分别表示所述超声图像成功采集分类子网路、所述超声探头末端位姿预测子网络和所述超声探头末端力预测子网络的输出;α1,α2,α3分别为权重系数;表示从样本数据集d中采集样本d
s
,d
p
,d
f
计算期望值。7.根据权利要求6所述的机器人自主超声扫查技能策略生成方法,其特征在于,所述自主超声扫查技能策略模型包括训练完毕的所述多模态特征融合网络以及并行连接于该多模态特征融合网络中所述多模态融合子网络后的超声探头末端位姿子网络和超声探头末端力子网络;所述超声探头位姿输出子网络和所述超声探头末端力子网络分别输出超声探头的六维位姿和施加到超声探头末端的六维力/力矩。8.根据权利要求7所述的机器人自主超声扫查技能策略生成方法,其特征在于,所述结合模仿学习与强化学习方法并利用所述融合特征对所述自主超声扫查技能模型进行训练,具体包括:收集所述示教样本,对所述示教样本进行离散化处理,构建示教池,所述示教池中的样本为状态转移对(s
t
,a
t
,r
t
,s
t+1
),s
t
表示t时刻的状态,a
t
表示在t时刻执行的示教动作,r
t
表示t时刻得到的奖赏值,s
t+1
表示在状态s
t
执行动作a
t
后到达的状态;同时构建经验池,所述经验池中存放的数据为所述交互样本;强化学习部分,机器人基于给定的奖赏值在环境中自主探索学习,其中,所述奖赏值通过稀疏奖励形式的奖赏函数确定,具体如下:如果机器人能够完成超声扫查任务,则给定其奖赏值m=1,如果机器人未能完成超声扫查任务,则给定其奖赏值n=-1;将所述交互样本存入所述经验池,采用离线强化学习方法分别从所述示教池和所述经验池采集训练样本对所述自主超声扫查技能策略模型进行训练,直至自主超声扫查技能策略学习收敛。9.一种机器人自主超声扫查技能策略生成装置,其特征在于,包括:融合特征生成模块,用于采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取所述多模态数据的融合特征;自主超声扫查技能策略生成模块,用于构建机器人超声扫查的虚拟训练环境,采用自主域随机化方法对所述虚拟训练环境的纹理渲染及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用所述融合特征对所述自主超声扫查技能策略模型进行训练,得到训练完毕的自主超声扫查技能策略模型,用于生成自主超声扫查技能策略。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指
令,所述计算机指令用于使所述计算机执行权利要求1-8任一项所述的机器人自主超声扫查技能策略生成方法。

技术总结
本公开实施例提供的机器人自主超声扫查技能策略生成方法、装置及存储介质,包括:采集机器人超声扫查过程中的多模态数据,输入到多模态特征融合网络进行学习以获取多模态数据的融合特征;构建机器人超声扫查技能的虚拟训练环境,采用自主域随机化方法对虚拟训练环境的纹理渲染以及与超声扫查操作相关的动力学参数进行随机化处理,得到多样化的机器人超声扫查训练环境;构建自主超声扫查技能策略模型,结合模仿学习与强化学习方法并利用融合特征对自主超声扫查技能策略模型进行训练,用于生成自主超声扫查技能策略。本公开可在无人干预的条件下实现准确、高效的超声扫查任务。高效的超声扫查任务。高效的超声扫查任务。


技术研发人员:孙富春 刘乃军 宋亦旭
受保护的技术使用者:清华大学
技术研发日:2021.11.04
技术公布日:2022/3/7

最新回复(0)