用于支持运输工具或机器人的机动动作规划的方法和设备与流程

专利查询5月前  53



1.本发明涉及一种用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划(man
ö
verplanung)的方法和设备。本发明此外涉及控制设备、运输工具和机器人。


背景技术:

2.在自动驾驶运输工具中,除了轨迹规划、也即提供在当前情形下具体要行驶的轨迹以外在机动动作规划的范畴内还需要有策略的机动动作规划,以便实现上级策略。对此的具体示例是具有多条车道和许多其他交通参与者的转弯情形。于是必须判定运输工具何时必须在哪个行车道上,以便例如对于乘客而言尽可能舒适地和/或尽可能时间优化地来执行转弯过程,并且判定为此必须超越哪些其他交通参与者。对于自动行动机器人,也得出从原则上相同的问题情况。
3.如下强化学习方法是已知的,其中借助于所述强化学习方法可以训练(anlernen)其他交通参与者的行为并且可以基于此做出最优决策。在此情况下,在状态和与此相对应的与目标设置相关的最优行动之间学习映射(英语:mapping),所述目标设置通过奖励值(英语:reward(奖励))来表达。换句话说,强化学习智能体(agent)试图找到使奖励值最大化的行动。为了找到最优解决方案,强化学习智能体必须彻底地检查环境,以便确保不忽视最优解决方案。另一方面,智能体可以充分利用在较早时间点已经历的情形,在这些情形中智能体已经找到了具有相应高的奖励值的良好解决方案。
4.此外已知的是马尔可夫决策问题和动态编程方法。
5.在借助于马尔可夫决策问题描述状态空间的情况下的问题是,状态空间随着每个所添加的其他维度呈指数增长(“维度灾难(fluch der dimensionalit
ä
t)”)并且与此相应地使存储需求增加。


技术实现要素:

6.本发明所基于的任务是提供用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法和设备,其中尤其是可以实现较低的存储需求。
7.根据本发明,该任务通过具有本发明的特征的用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法、具有本发明的特征的用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的设备以及具有本发明的特征的用于至少部分自动驾驶的运输工具或机器人的控制设备来解决。本发明的有利构型由从根据本发明的实施方案中得出。
8.在本发明的第一方面中,提供一种用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法,其中借助于行动确定装置,借助于马尔可夫决策问题以离散的形式描述运输工具或机器人的环境的状态空间,其中,为了支持运输工具或机器人的机动动作规划,基于马尔可夫决策问题通过执行至少一个优化方法基于状态空间中的离散状态确定最优(离散化)行动,其中确定具有状态空间中的状态作为输入值和具有状态空间中的
最优行动作为输出值的映射,其中借助于逼近装置通过函数逼近(funktionsapproximation)来对所确定的映射进行逼近,其中如下经逼近的映射的元素(element)根据分别所属的输入值而被存储在查找表(nachschlagtabelle)中,所述经逼近的映射的输出值相对于所确定的映射的相应输出值而言具有超过预给定误差阈值的误差,并且其中经逼近的映射和查找表被提供用于在机动动作规划时使用。
9.此外,在本发明的第二方面中,尤其是提出一种用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的设备,所述设备包括行动确定装置和逼近装置,其中行动确定装置被设立用于借助于马尔可夫决策问题以离散形式描述运输工具或机器人的环境的状态空间,为了支持运输工具或机器人的机动动作规划,基于马尔可夫决策问题通过执行至少一个优化方法基于状态空间中的离散状态而确定最优(离散化)行动,确定具有状态空间中的状态作为输入值和具有状态空间中的最优行动作为输出值的映射,并且其中逼近装置被设立用于借助于函数逼近对所确定的映射进行逼近,其中如下经逼近的映射的元素根据分别所属的输入值被存储在查找表中,所述经逼近的映射的输出值相对于所确定的映射的相应输出值而言具有超过预给定误差阈值的误差,并且其中所述设备被设立用于提供经逼近的映射和查找表用于在机动动作规划时使用。
10.在本发明的第三方面中,尤其是也提供一种用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法,其中借助于运输工具或机器人的控制设备获得和/或提供根据按照第一方面所述的方法生成的经逼近的映射和查找表,并且根据状态空间的所识别的离散状态提供最优行动用于机动动作规划,其中在此情况下首先检验:对于所识别的状态是否在查找表中存放有最优行动;如果这是该情况,则所存放的最优行动被调用并且被提供用于机动动作规划,否则,最优行动借助于经逼近的映射被估计并且被提供。
11.然后,在本发明的第四方面,尤其是提出用于至少部分自动驾驶的运输工具或机器人的控制设备,其中控制设备被设立用于获得和/或提供根据按照第一方面所述的方法生成的经逼近的映射和查找表,并且根据状态空间的所识别的离散状态提供最优行动用于机动动作规划,并且对此首先检验:对于所识别的状态在查找表中是否存放有最优行动;如果这是该情况,则调用所存放的最优行动并且将其提供用于机动动作规划,否则,借助于经逼近的映射估计最优行动并且将其提供用于机动动作规划。
12.这些不同的方面实现了:即使在增长的状态空间情况下也不使存储需求呈指数增长。这通过以下方式实现:不仅借助于函数逼近而且借助于查找表表达为了进行机动动作规划所确定的映射,在所述映射中将马尔可夫决策问题的状态空间中的离散状态作为输入值而与状态空间中的最优行动作为输出值相关联。在此情况下,基本思想之一尤其是,所确定的映射中的大部分可以借助于函数被逼近。然而,经逼近的映射的对于其而言与(非逼近的)所确定的映射中的相应元素的误差超过误差阈值的那些元素(即作为映射的输入值的离散状态和作为输出值的最优行动之间的那些关联)被存放在查找表中。由此可以在存储需求和所提供的最优行动的准确性之间找到折衷。在使用经逼近的映射和查找表用于机动动作规划时,首先在查找表中检查:对于当前检测或识别的状态空间中的离散状态是否存放有最优行动。如果存放有最优行动,也即在查找表中对于所识别的离散状态存在条目(eintrag),则所述条目被调用并且被提供用于机动动作规划。而如果对于所识别的离散状态在查找表中未存放有最优行动,则借助于经逼近的映射估计所属的最优行动。
13.不同方面的优点之一是即使在大的并且尤其是增长的状态空间的情况下,也可以在存储需求和准确性之间找到折衷。尤其是,所有提供的最优行动相对于存放在(非逼近的)映射中的最优行动具有误差,所述误差不大于预给定的误差阈值。
14.通过预给定合适的误差阈值,尤其是可以影响查找表的大小。预给定的误差阈值越小,所提供的最优行动鉴于在所确定的映射中的相对应的最优行动而言就越准确。但是同时,存储空间需求随着更小的误差阈值而升高,因为查找表由此变大并且需要更多的存储空间。
15.尤其是可以规定,误差阈值是预给定的或被预给定,使得不超过用于容纳经逼近的映射和查找表的预给定的存储空间。尤其是通过在运输工具或机器人中的控制设备中使用经逼近的映射和查找表来限制或规定这种存储空间。
16.马尔可夫决策问题(英语:markov decision process(马尔可夫决策过程), mdp)是决策问题的模型。在此情况下,智能体的使用与决策序列有关,其中所述序列包括状态空间中的离散状态之间的顺序状态过渡。对于各个状态过渡,在此情况下适用的是马尔可夫假设,也即从状态s到达状态s'的过渡概率仅与s有关而与在过去的历史、即s的前任无关。状态空间尤其是映射运输工具或机器人的环境中的离散状态。原则上,马尔可夫决策问题也可以设计为可分解马尔可夫决策问题(英语:factored markov decision processes, fmdp)。
17.状态空间中的状态尤其是可以包括多个参量或特性,即状态尤其是多维的。状态在此情况下尤其是被定义为这些参量或特性的特定表现形式。尤其是,状态空间中的状态被选择为离散的。状态空间尤其是较高层面的状态空间,也即状态不经由传感器原始数据而被映射,而是经由从传感器原始数据中例如借助于对象和/或模式识别导出的更高品质的(h
ö
herwertiger)特征和特性而被映射。状态例如可以包括障碍物位置和/或障碍物速度和/或环境中障碍物的类型或类别。至少在应用在运输工具中的情况下,尤其是从借助于至少一个传感器检测的传感器数据导出状态。
18.基于马尔可夫决策问题执行至少一个优化方法来确定用于映射的最优行动。为此,尤其是可以规定,基于状态空间中的离散状态借助于动态编程确定针对离散化行动的最优行动值,其中借助于强化学习方法来学习具有状态空间中的状态作为输入值和状态空间中的行动的行动值作为输出值的映射,其中强化学习智能体在此情况下基于借助于动态编程确定的最优行动值被初始化,并且其中所学习的映射被提供用于机动动作规划。这具有以下优点:强化学习智能体在学习时不必从零开始,而是已经能够以至少鉴于状态空间中的多个离散状态而言最优的解决方案开始。通过以下方式能够实现这一点:在应用强化学习之前,已经借助于动态编程确定针对状态空间中的离散状态的各个行动的最优行动值。借助于这样确定的最优行动值,由强化学习智能体训练的映射被初始化。强化学习智能体由此不必从零开始,而是可以建立在借助于动态编程确定的行动值的基础上。
19.原则上,也可以仅规定应用强化学习方法,而不借助于通过动态编程所生成的映射来初始化强化学习方法。在此情况下,该行为方式类似于上面描述的行为方式。然而,原则上也可以设置其他优化方法。然而,所使用的至少一个优化方法始终基于马尔可夫决策问题来工作。
20.动态编程是用于通过将复杂问题划分成更简单的子问题或分问题来解决优化问
题的方法。在此情况下以递归方式进行解决。尤其是,动态编程是如下算法范式,所述算法范式描述一类优化方法,所述优化方法使用环境的完美模型作为马尔可夫决策问题来解决预给定的问题情况。动态编程尤其是被应用在具有离散状态的状态空间中。尤其是,动态编程提供最优行动值作为结果,以作为基于状态空间中的离散状态的离散化行动的奖励的度量。
21.强化学习(也称为增强学习或加强学习)是机器学习方法,在所述机器学习方法中智能体独立地学习策略,以便最大化所获得的奖励。在此情况下,奖励可以是正的(positiv),也可以是负的(negativ)。根据所获得的奖励,智能体逼近奖励函数,所述奖励函数描述状态或行动具有哪个值。结合行动,这样的值被称为行动值(英语:action value)。强化学习方法尤其是考虑智能体与其环境的交互,该交互以马尔可夫决策问题的形式表述。基于给定的、例如从至少一个传感器的所检测的传感器数据导出的状态,智能体可以通过从多个行动中选择的行动而到达另一状态。根据所做出的决策、即所实施的行动,智能体获得奖励(英语:reward)。在此情况下,智能体的任务是最大化未来预期的收益,该收益由贴现奖励(即总奖励)组成。在该方法结束时,经逼近的奖励函数代表了预给定的策略,利用所述经逼近的奖励函数可以为每个行动提供或估计奖励值或行动值。
22.可以规定,至少一个优化方法在为此优化的计算装置上、例如在量子计算机上被执行。
23.例如,对于运输工具,行动可以包括以下行为:利用经激活的间距调节速度控制器(acc)而直行(即保持在该车道上而不变换车道)、(无加速的)直行、直行和制动、变换车道到左车道或变换车道到右车道上等。
24.对于给定状态的最优行动尤其是具有最优行动值的行动,也即如下行动,对于所述行动而言在给定状态下借助于至少一个优化方法确定或已经确定了最优行动值。
25.针对状态空间中的行动的奖励(英语:reward)或行动值尤其是可以考虑以下影响:避免碰撞、完全符合路径(即没有与由导航装置预给定的路径的偏差或仅与由导航装置预给定的路径有轻微偏差)、时间最优行为和/或运输工具乘员的舒适性或适宜性。
26.尤其是规定,针对通过奖励或行动值而影响的预给定策略(例如能量效率或舒适性等)的特定映射被确定或已经被确定。这尤其是意味着存放在特定映射中的最优行动鉴于预给定策略是最优的。
27.尤其是规定,借助于至少一个优化方法、尤其是借助于动态编程和强化学习方法所确定的映射具有表格形式。
28.可替代地,尤其可以规定,借助于神经网络提供所确定的映射,其中所述神经网络基于尤其是借助于动态编程确定的最优行动为了初始化而在受监视的学习过程中被训练。
29.设备的部分、尤其是行动确定装置和逼近装置以及控制设备可以单独地或联合地被构造为硬件和软件的组合,例如被构造为在微控制器或微处理器上执行的程序代码。
30.运输工具尤其是机动车。然而,原则上,运输工具可以是其他陆上运输工具、水上运输工具、空中运输工具、轨道运输工具或太空船。原则上,机器人可以任意地构造,例如构造为运输机器人、生产机器人或护理机器人等。
31.在一种实施方式中规定,所述提供包括:将经逼近的映射和查找表加载到至少一个运输工具或至少一个机器人的控制设备的存储器中,使得在运行至少一个运输工具或至
少一个机器人时为了提供针对状态空间的所识别的离散状态的最优行动值而可以借助于控制设备首先检验:对于所识别的状态在查找表中是否存放有最优行动;如果这是该情况,则所存放的最优行动被调用并且被提供用于机动动作规划,否则,最优行动可以借助于经逼近的映射被估计并且被提供用于机动动作规划。
32.所述提供尤其是可以包括:将经逼近的映射和查找表传送给至少一个控制设备。在此情况下尤其是借助于设备和至少一个控制设备的为此相应地设置的通信接口进行所述传送。所述至少一个控制设备获得、尤其是接收经逼近的映射和查找表,并且将所述经逼近的映射和查找表加载到存储器中,使得可以提供所述经逼近的映射和查找表用于机动动作规划,其方式是尤其是:可以调用和/或提供针对所识别的状态的最优行动。
33.在一种实施方式中规定,至少一个神经网络被训练并且被提供用于对所确定的映射进行函数逼近。在受监视的学习过程中尤其是借助于所确定的映射来训练神经网络,其中所述映射尤其是借助于动态编程和强化学习方法而被确定。如果所确定的映射已经通过经训练的神经网络被构造,则尤其是规定,用于函数逼近的神经网络从范围和复杂性、即从结构和所需要的存储需求和用于执行所需要的计算能力来看被构造得小于为了构造所确定的映射所使用的神经网络。
34.在一种替代实施方式中规定,使用至少一个决策树(英语:decision tree)用于对映射进行函数逼近。在此情况下该操作方式基本上类似于前述实施方式。
35.原则上也可以使用其他方法用于对所确定的映射进行函数逼近。在此情况下,该操作方式基本上类似于前述实施方式。
36.在一种实施方式中规定,借助于后端服务器执行:提供经逼近的映射和查找表。由此,可以使用功率强大的计算机、例如超级计算机,用于通过执行至少一个优化方法、尤其是动态编程和强化学习方法而基于预给定的马尔可夫决策问题来确定映射,对映射进行逼近,并且生成和提供查找表。而当在运输工具或机器人的控制设备中应用经逼近的映射和查找表时则需要较少的计算能力,使得可以节省资源(例如计算能力、存储器、结构空间和能量)。
37.在所述设备的一种实施方式中相应地规定,将所述设备构造为后端服务器。例如,这样的后端服务器可以被构造为功率强大的超级计算机。
38.尤其是,此外还提供了一种用于为至少部分自动驾驶的运输工具或机器人规划机动动作的方法,其中在机动动作规划时使用根据按照第一方面所述的方法而逼近的映射和查找表。
39.可以规定,用于规划机动动作的方法还包括:通过为运输工具的执行机构(aktorik)或机器人生成和/或提供控制信号和/或控制数据来执行机动动作,尤其是用于横向和纵向引导。相应控制信号和/或控制数据的生成和提供在此情况下尤其是有助于实施分别所调用或所估计的最优行动。相应地构造运输工具或机器人的控制设备以执行这些措施。
40.此外,尤其是还提出如下运输工具或机器人,所述运输工具或机器人包括根据所描述的实施方式之一的至少一个控制设备。
41.此外,还提出一种系统,所述系统包括至少一个根据所描述的实施方式之一的设备和至少一个根据所描述的实施方式之一的控制设备。
42.从所述方法的构型方案的描述中得出关于所述设备的构型方案的其他特征。所述设备的优点在此情况下分别是与所述方法的构型方案情况下相同的优点。
附图说明
43.下面参考附图根据优选的实施例更详细地阐述本发明。在此情况下:图1示出用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的设备的一种实施方式的示意图;图2示出用于阐明用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法的示意图;图3示出用于阐明用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法的示意图。
具体实施方式
44.图1示出用于支持至少部分自动驾驶的运输工具50的机动动作规划的设备1的一种实施方式的示意图。尤其是,设备1执行在本公开中描述的用于支持至少部分自动驾驶的运输工具50的机动动作规划的方法。所示的示例涉及运输工具50,然而对于机器人,原则上也类似地构造设备1。
45.设备1包括行动确定装置2和逼近装置3。行动确定装置2和逼近装置3可以单独或联合地被构造为硬件和软件的组合,例如被构造为在微控制器或微处理器上执行的程序代码。设备1尤其是被构造为后端服务器100,其中后端服务器100尤其是可以是功率强大的超级计算机。
46.行动确定装置2被设立用于借助于马尔可夫决策问题以离散形式描述运输工具50的环境的状态空间10。为了支持运输工具50的机动动作规划,行动确定装置2基于马尔可夫决策问题执行至少一个优化方法。所述至少一个优化方法尤其是可以包括动态编程和/或强化学习方法。
47.在至少一个优化方法的范畴内,行动确定装置2为状态空间10中的每个状态11确定最优行动34。在此情况下,行动确定设备2基于状态空间10中的状态11和如下行动值,其中所述行动值分别鉴于预给定的策略(例如能量效率或舒适度等)对于状态空间10中的各个离散行动已被确定。行动确定装置2根据特定的最优行动34而确定如下映射30,所述映射30具有状态空间10中的状态11作为输入值并且具有状态空间10中的最优行动34作为输出值。所确定的映射30被输送给逼近装置3。
48.逼近装置3被设立用于借助于函数逼近来逼近所确定的映射30。在此情况下规定,如下经逼近的映射31的元素根据分别所属的输入值被存储在查找表33中,其中所述经逼近的映射31的输出值相对于所确定的映射30的相对应的输出值而言具有超过预给定误差阈值32的误差。该误差尤其是借助于在由所确定的映射30所供应的最优行动与由经逼近的映射31所供应的相对应的行动之间的合适间距度量来确定。尤其是,在对所确定的映射30进行逼近之后,逐元素地计算在所确定的映射30和经逼近的映射31之间的误差,其中将映射30、31的所有元素相互比较。对于分别确定的误差超过预给定误差阈值的所有元素,与状态空间10中的所属状态11相关联地将所属最优行动存放在查找表33中。
49.通过设备1的通信接口4提供经逼近的映射31和查找表33用于在机动动作规划时使用。在此情况下规定,经逼近的映射31和查找表33借助于通信接口4被传送给至少一个运输工具50并且在那里借助于运输工具50的控制设备51的通信接口52被接收。
50.经逼近的映射31和查找表33被加载到控制设备51的存储器(未示出)中并且在那里用于机动动作规划。为了机动动作规划,给控制设备51输送来自马尔可夫决策问题的状态空间10的当前的(离散化)状态11。状态11尤其是从运输工具50的至少一个传感器(未示出)的所检测的传感器数据、例如从借助于摄像机检测的摄像机图像中被导出和离散化。根据所输送的当前状态11,控制设备51提供最优行动34。为此,控制设备51首先检验:对于所识别的状态11是否在查找表33中存放有最优行动34。如果这是该情况,则从查找表33中调用所存放的最优行动34并且将其提供用于机动动作规划。相反,如果对于所识别的状态11在查找表33中未存放最优行动34,则借助于经逼近的映射31而估计最优行动34并且将其提供用于机动动作规划。
51.提供最优行动34尤其是可以包括:将最优行动34输送给另一控制设备53、例如轨迹规划器,所述轨迹规划器为了执行所述最优行动34而规划轨迹并且将其例如输送给运输工具的执行机构。
52.原则上也可以规定,设备1是运输工具50的一部分。
53.可以规定,至少一个神经网络被训练并且被提供用于对映射30进行函数逼近。然后通过应用经训练的神经网络来提供经逼近的映射31。可替代地,例如也可以使用决策树来逼近所确定的映射30。
54.此外可以规定,借助于后端服务器100而执行:提供经逼近的映射31和查找表33。
55.在图2示出用于阐明用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法的示意图。仅示出强烈简化的示例,然而,该示例阐明在逼近所确定的映射30时的行为方式。
56.在该简单的示例中,所确定的映射30包括在状态空间的状态11和最优行动34之间的分配。在所示的示例中,状态11仅具有两个维度“a”和“b”。最优行动34同样仅具有两个表现形式“r”和“g”。这是强烈地被简化的。真实的状态11可以具有多个维度并且真实的最优行动34同样具有多种表现形式。
57.在本公开中描述的方法的范畴内,所确定的映射30、也即与状态相关的相应最优行动34借助于至少一个优化方法、尤其是借助于动态编程和强化学习方法来确定。
58.通过函数逼近对所确定的映射30进行逼近,所述函数逼近在这里示例性地并且以强烈简化地对应于:根据维度“a”和“b”而分类成表现形式“r”和“g”。所述分类尤其是可以借助于神经网络进行,使得借助于所确定的映射30而被训练,以便基于给定的状态11来估计相应最优行动34(“r”或“g”)。该训练的结果是经逼近的映射31,所述经逼近的映射允许:根据(具有维度“a”和“b”的)状态11估计所述最优行动34。
59.附加地也确定异常值(ausrei
ß
er)35、也即借助于经逼近的映射31不能正确地检测或不够准确地检测的由状态11和最优行动34组成的那些组合。在对于最优行动仅存在这两个表现形式“r”和“g”的简单示例中,这些是位于经逼近的映射31针对其估计出最优行动“r”的区域内的最优行动“g”的异常值35以及位于经逼近的映射31针对其估计出最优行动“g”的区域内的最优行动“r”的异常值35。所估计的最优行动和所确定的映射30中的最优行
动34之间的差被认为是误差。对于所确定的映射31的每个元素,确定该误差并且将其与误差阈值进行比较。在本简单示例中,误差阈值被定义为错误表现形式。在该方法的真实应用情况下,预给定的误差阈值对应于在最优行动34之间的预给定的差阈值,其中在此情况下应用分别合适的间距度量(如果行动可以被表达为向量则例如为标量积(skalarprodukt)等等)。
60.针对异常值35生成查找表33,其中存放有状态11和最优行动34之间的关联。在此情况下,该查找表33的现有元素对应于所确定的映射30。查找表33仅包括针对异常值35的条目;对于其他状态11则不存在条目。
61.可替代地也可以规定,为借助于经逼近的映射31针对状态11估计的最优行动确定行动值。为了确定行动值,例如可以将借助于经逼近的映射31估计的最优行动与在动态编程的范畴内为了针对所属的离散状态11找到最优行动34所确定的行动进行比较。然后给所估计的最优行动分配在这些行动中与所估计的最优行动最接近的那个行动的行动值(在简单示例中,这两个行动例如均包括:运输工具相同大小地加速2m/s^2)。然后可以将以这种方式分配给所估计的最优行动的行动值与存放在所确定的映射30中的最优行动34的行动值进行比较。最优行动34的行动值同样可以例如在动态编程的范畴内被获得。根据预给定为误差阈值的行动值的差阈值,于是可以判定经逼近的映射31是否正确地映射所确定的映射30的状态11和最优行动34的组合。如果所估计的最优行动的所分配的行动值与存放在所确定的映射30中的最优行动34的行动值之间的差低于差阈值,则通过经逼近的映射31估计针对状态11的最优行动34。如果所述差达到或超过差阈值,则将针对状态11的最优行动34存放在查找表33中。替代的行为方式可以普遍地被应用并且不限于所描述的简单示例。
62.在替代方案中可以扩展地规定,例如通过为此相应地设立和训练的神经网络,同样为借助于经逼近的映射31估计的最优行动估计行动值。然后如上所述的那样,可以将所估计的行动值与存放在所确定的映射31中的分别所属的最优行动34的行动值进行比较,以便借助于差阈值判定:是否对于所属的状态11应该估计最优行动34并且存放在查找表33中。
63.经逼近的映射31和查找表33被提供用于机动动作规划,尤其是被加载到至少一个运输工具或至少一个机器人的控制设备的存储器中。
64.图3示出用于阐明如在运输工具或机器人中的控制设备中执行的用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法的示意图。在此情况下继续使用关于图2所描述的示例用于阐明。
65.借助于运输工具或机器人的控制设备获得和/或提供经逼近的映射31和查找表33。例如可以规定,经逼近的映射31和查找表33是借助于后端服务器生成并且被传送给控制设备的。经逼近的映射31和查找表33被加载到控制设备的存储器中并且由所述存储器提供用于机动动作规划。
66.针对状态空间10中的例如基于所检测的传感器数据所识别和离散化的当前状态11而检验:对于该状态在查找表33中是否存放有最优行动34。如果这是该情况,则所存放的最优行动34被调用并且被提供用于机动动作规划(例如,针对具有最优行动“g”的a=0和b=10而言是这种情况)。如果在检验时表明在查找表33中未存放有最优行动34(例如对于a=10和b=20),则最优行动34借助于经逼近的映射33被估计并且被提供用于机动动作规划。
67.随后执行最优行动34,例如其方式是借助于轨迹规划器来规划轨迹并且借助于调节装置来操控运输工具或机器人的执行机构。
68.附图标记列表1 设备2 行动确定装置3 逼近装置4 通信接口10 状态空间11 状态30 所确定的映射31 经逼近的映射32 误差阈值33 查找表34 最优行动35 异常值50 运输工具51 控制设备52 通信接口53 其他控制设备100 后端服务器。

技术特征:
1.一种用于支持至少部分自动驾驶的运输工具(50)或机器人的机动动作规划的方法,其中借助于行动确定装置(2),借助于马尔可夫决策问题以离散形式描述所述运输工具(50)或机器人的环境的状态空间(10),其中为了支持所述运输工具(50)或机器人的机动动作规划,基于马尔可夫决策问题通过执行至少一个优化方法基于所述状态空间(10)中的离散状态(11)确定最优行动,其中确定具有状态空间(10)中的状态(11)作为输入值和具有状态空间(10)中的最优行动(34)作为输出值的映射(30),其中借助于逼近装置(3)通过函数逼近对所确定的所述映射(30)进行逼近,其中如下经逼近的映射(31)的元素根据分别所属的输入值而被存储在查找表(33)中,所述经逼近的映射的输出值相对于所述所确定的映射(30)的相应输出值而言具有超过预给定误差阈值(32)的误差,并且其中所述经逼近的映射(31)和所述查找表(33)被提供用于在机动动作规划时使用。2.根据权利要求1所述的方法,其特征在于,所述提供包括:将所述经逼近的映射(31)和所述查找表(33)加载到至少一个运输工具(50)或至少一个机器人的控制设备(51)的存储器中,使得在运行所述至少一个运输工具(50)或所述至少一个机器人时为了提供针对状态空间(10)的所识别的离散状态(11)的最优行动(34)而能够借助于所述控制设备(51)首先检验:对于所识别的状态(11)在所述查找表(33)中是否存放有最优行动(34);如果这是该情况,则所存放的最优行动(34)能够被调用并且被提供用于机动动作规划,否则所述最优行动(34)能够借助于所述经逼近的映射(31)被估计并且被提供用于机动动作规划。3.根据权利要求1或2所述的方法,其特征在于,为了对所述映射(30)进行函数逼近而训练和提供至少一个神经网络。4.根据前述权利要求中任一项所述的方法,其特征在于,借助于后端服务器(100)执行:提供所述经逼近的映射(31)和所述查找表(33)。5.一种用于支持至少部分自动驾驶的运输工具(50)或机器人的机动动作规划的方法,其中借助于所述运输工具(50)或机器人的控制设备(51)获得和/或提供按照根据权利要求1至4中任一项所述的方法生成的经逼近的映射(31)和查找表(33),并且根据状态空间(10)的所识别的离散状态(11)提供最优行动(34)用于机动动作规划,其中在此情况下首先检验:对于所识别的状态(11)在所述查找表(33)中是否存放有最优行动(34);如果这是该情况,则所存放的最优行动(34)被调用并且被提供用于机动动作规划,否则最优行动(34)借助于所述经逼近的映射(31)被估计并且被提供。6.一种用于为至少部分自动驾驶的运输工具(50)或机器人规划机动动作的方法,其中在机动动作规划时使用按照根据权利要求1至4中任一项所述的方法而逼近的映射(31)和查找表(33)。7.一种用于支持至少部分自动驾驶的运输工具(50)或机器人的机动动作规划的设备(1),所述设备包括行动确定装置(2)和逼近装置(3),其中所述行动确定装置(2)被设立用于借助于马尔可夫决策问题以离散形式描述所述运输工具(50)或机器人的环境的状态空间(10),
为了支持所述运输工具(50)或机器人的机动动作规划,基于马尔可夫决策问题通过执行至少一个优化方法基于所述状态空间(10)中的离散状态(11)确定最优行动,确定具有状态空间(10)中的状态(11)作为输入值和具有状态空间(10)中的最优行动(34)作为输出值的映射(30),并且其中所述逼近装置(3)被设立用于借助于函数逼近对所确定的映射(30)进行逼近,其中如下经逼近的映射(31)的元素根据分别所属的输入值被存储在查找表(33)中,所述经逼近的映射的输出值相对于所述所确定的映射(30)的相应输出值而言具有超过预给定误差阈值(32)的误差,并且其中所述设备(1)被设立用于提供所述经逼近的映射(31)和所述查找表(33)用于在机动动作规划时使用。8.根据权利要求7所述的设备(1),其特征在于,所述设备(1)被构造为后端服务器(100)。9.一种用于至少部分自动驾驶的运输工具(50)或机器人的控制设备(51),其中所述控制设备(51)被设立用于获得和/或提供按照根据权利要求1至4中任一项所述的方法生成的经逼近的映射(31)和查找表(33),并且根据状态空间(10)的所识别的离散状态(11)提供最优行动(34)用于机动动作规划,并且为此首先检验:对于所识别的状态(11)在所述查找表(33)中是否存放有最优行动(34);如果这是该情况,则调用所存放的最优行动(34)并且提供所述所存放的最优行动(34)用于机动动作规划,否则借助于所述经逼近的映射(33)估计所述最优行动(34)并且提供所述最优行动(34)用于机动动作规划。10.一种运输工具(50)或机器人,所述运输工具或机器人包括至少一个根据权利要求9所述的控制设备(51)。

技术总结
本发明涉及用于支持至少部分自动驾驶的运输工具或机器人的机动动作规划的方法,其中借助于马尔可夫决策问题描述状态空间,其中为了支持运输工具或机器人的机动动作规划,基于马尔可夫决策问题通过执行至少一个优化方法基于状态空间中的离散状态确定最优行动,其中确定具有状态空间中的状态作为输入值和状态空间中的最优行动作为输出值的映射,其中通过函数逼近对所确定的映射进行逼近,其中如下经逼近的映射的元素根据分别所属的输入值被存储在查找表中,所述经逼近的映射的输出值相对于所确定的映射的相应输出值而言具有超过预给定误差阈值的误差,提供经逼近的映射和查找表用于机动动作规划。本发明还涉及设备、控制设备和运输工具或机器人。设备和运输工具或机器人。设备和运输工具或机器人。


技术研发人员:M
受保护的技术使用者:大众汽车股份公司
技术研发日:2021.08.18
技术公布日:2022/3/8

最新回复(0)