1.本发明涉及训练标准化流的方法、使用标准化流的方法、借助标准化流对图像进行分类的方法、标准化流、图像分类器、计算机程序和机器可读存储介质。
背景技术:
2.l. gresele、g. fissore、a. javaloy、b. sch
ö
lkopf、a. hyv
ä
rinen的“relative gradient optimization of the jacobian term in unsupervised deep learning”(2020年6月26日,https://arxiv.org/abs/2006.15090v1)公开了一种训练全连接标准化流的方法。
技术实现要素:
3.确定图像出现的概率是许多技术应用中的核心问题。图像出现的概率可以被理解为在给定域和/或环境中记录图像的概率。
4.例如,基于图像的异常检测系统需要评估给定图像是否是异常的。例如,这可以通过确定指示给定图像一般出现的可能性有多大的概率来实现。如果该概率较低,则可以将图像视为异常。
5.一般而言,为了确定图像出现的概率,人们可以使用来自机器学习领域的方法。特别地,人们可以使用来自特定域和/或环境的图像的训练数据集,利用该数据训练模型,并且然后让模型预测新图像的第一密度值,其中,第一密度值可以被理解为表征图像在训练数据集中出现的概率。由于此任务的模型可以在没有标签的情况下进行训练,因此它们被称为无监督模型。
6.模型的选择可能会极大地影响预测准确的第一密度值的能力,其中,这种能力也称为性能。
7.标准化流允许在预测正确概率方面具有非常高的性能。标准化流是一种可训练的可逆映射,其通常用于在简单与复杂的概率分布之间进行映射。最近,深度卷积神经网络已被用作标准化流中的可学习映射,以对图像数据集的复杂分布进行建模。
8.这种模型的基本限制之一是以下限制,即由深度卷积神经网络实现的变换的雅可比行列式必须易于计算,以允许通过最大化数据可能性来进行有效训练。这导致了众多所提出的受约束函数类,它们提供了雅可比矩阵的简单形式。然而,由于其基本有限的表示能力,这些受约束的函数类最终会导致图像数据的概率密度的次优模型。
9.最近,l. gresele、g. fissore、a. javaloy、b. sch
ö
lkopf、a. hyv
ä
rinen的“relative gradient optimization of the jacobian term in unsupervised deep learning”(2020年6月26日,https://arxiv.org/abs/2006.15090v1)公开了一种训练全连接标准化流的方法。作者提出了一种允许有效训练标准化流模型的方法,除了被完全连接之外,该方法对标准化流的权重层没有限制。
10.然而,由于卷积层通常更适合在标准化流中将图像作为数据进行处理,因此合期
望的是获得一种有效训练标准化流模型而不将权重层约束为被完全连接的方法。
11.具有独立权利要求1的特征的方法允许训练包括至少一个卷积层的标准化流模型,而不需要该层被完全连接。它允许有效地训练标准化流,从而允许训练时间上的大大加速。进而,加速导致在给定时间量内可以利用更多图像训练标准化流的事实,即,在给定相同资源的情况下利用更多图像。这允许标准化流实现更好的性能。
发明内容
12.在第一方面,本发明涉及一种用于训练标准化流的计算机实现的方法,其中,该标准化流被配置成基于第一输入图像预测第一密度值,其中,第一密度值表征输入图像出现的可能性,其中,该第一密度值是基于标准化流的第一卷积层的中间输出而预测的,其中,该中间输出是基于第一卷积层的多个权重而确定的,其中,训练的方法包括以下步骤:
●
确定第二输入图像;
●
确定输出,其中,该输出是通过将第二输入图像提供给标准化流并且提供标准化流的输出作为输出而确定的;
●
基于输出张量并且基于多个权重来确定输入图像的第二密度值;
●
确定多个权重相对于第二密度值的自然梯度;
●
根据自然梯度适配多个权重。
13.在本发明的上下文中,图像可以被理解为可以借助于来自机器学习领域的方法进行分析(例如,分类)的数据点。为了分析图像,可以将图像理解为从典型的高维概率分布生成。
14.可以以多种方式获得图像,尤其是借助于相机传感器、lidar传感器、雷达传感器、超声波传感器或热相机。图像也可以借助于合成生成而获得,例如,通过在计算机中根据虚拟场景或模拟来渲染图像,或者通过绘制数字图像来获得。替代地,可以通过合并从所描述的方法获得的两个或更多个图像来获得图像,例如,将相机图像和lidar图像组合成单个图像。这可以通过例如裁剪或缩放两个或更多个图像以具有相同大小,并且然后堆叠两个或更多个图像来实现。
15.为了分析图像,通常需要获得其从中生成的概率分布模型。然而,由于概率分布的高维度,找到这样的模型很复杂。
16.在这里可以使用标准化流来简化对概率分布进行建模的任务。在本发明的上下文中,标准化流可以被理解为从输入图像的第一概率分布到第二概率分布的映射。用户可以挑选第二概率分布。因此,对图像使用标准化流的优点在于,可以将复杂的第一概率分布映射到第二概率分布,其中,可以挑选第二概率分布以使得其具有某些有利特点。例如,在大多数标准化流中,多变量标准正态分布被用作第二概率分布。这允许,例如,轻松且有效地评估给定图像的密度值:可以通过标准化流将图像映射到第二概率分布,并且可以基于采用封闭形式的第二概率分布来计算密度值。
17.这种密度值有利地表示图像相对于第一概率分布的密度值。该密度值可以被理解为表征图像出现的可能性或概率。图像出现的可能性可以被理解为通过第一概率分布生成图像的可能性有多大。
18.为了确定映射,可以利用图像训练数据集训练标准化流。通常训练标准化流以最
大化训练数据集相对于第二概率分布的对数似然(log-likelihood)。这种对数似然也被称为数据对数似然。还可以通过最小化训练数据集相对于第二概率分布的负对数似然来训练标准化流。
19.来自训练数据集的图像可以被理解为第一概率分布的样品。扭转这种直觉,选择特定图像的训练数据集显著地定义了第一概率分布的特性。例如,当仅利用高速公路场景的图像训练标准化流时,城市场景的图像将具有较低的第一密度值。然而,如果城市场景的图像也在训练图像当中,则第一密度值将会上升。
20.标准化流可以被理解为包括一系列函数。由于标准化流通常借助于神经网络实现,因此函数尤其可以是神经网络的层。第一层将输入图像变换成第一中间输出。序列中第一层之后的第二层接受第一中间输出作为输入,并且将第一中间输出变换成第二中间输出。然后为序列的其他层重复将中间输出取作输入并且将其变换成另一个中间输出的过程。序列的次序由信息流定义。如果第二层将第一层的中间输出取作输入,则认为第一层在第二层之前,并且认为第二层在第一层之后。序列的次序定义了至少一个没有前驱的层,其也被称为输入层;以及至少一个没有后继的层,其也被称为输出层。
21.标准化流的至少一个层可以由多个权重参数化。在本发明的上下文中,该层可以特别地是卷积层。卷积层将第一中间表示取作输入,通常采用具有预定义的高度、宽度和通道数量的张量的形式,并且进而提供通常采用第二张量形式的第二中间输出,其也具有预定义的高度、宽度和通道数量。如果将卷积层用作输入层,则第一中间表示是输入图像。如果将卷积层用作输出层,则第二中间表示可以被理解为标准化流的输出。优选地,中间表示以张量的形式给出。
22.卷积层包括多个权重,这些权重可以被组织为多个滤波器。为了确定输出,即,中间表示,卷积层利用第一中间表示来实行多个滤波器的离散卷积,即,权重。优选地,以具有预定义的高度、宽度和通道数量的张量的形式给出第一中间表示。然后,离散卷积的结果是另一个高度和宽度可能不同的张量。通道数量通常与卷积层中使用的滤波器数量相同。结果可以直接被用作输出。替代地,卷积层还可以以至少一个偏置来偏移输出的每个元素,和/或将激活函数应用于每个元素。可以通过将偏置值添加到每个通道来实现用偏置偏移元素,其中,优选地对于每个通道存在唯一的偏置值。
23.对于训练,可以在训练开始之前随机挑选权重和/或至少一个偏置。替代地,权重和/或至少一个偏置可以从另一个标准化流获得,例如,先前已经训练的标准化流。
24.由于标准化流是函数的链式序列,因此基于输入图像确定输出可以被理解为将输入图像提供给层序列,连续地确定中间输出,并且最终确定输出张量。由于标准化流基于层的顺序(即,多个链式函数)确定输出,因此每个中间输出会直接影响所得输出。例如,输出可以采用张量的形式。
25.标准化流的特性之一是,计算方向可以颠倒,即,可以将图像作为输入来获得密度值,或者可以提供密度值,并且标准化流可以通过其层的反向链接处理密度值以获得图像。
26.为了实现同样可逆的标准化流的期望映射行为,需要适配卷积层的权重。由于标准化流可以被理解为神经网络,因此可以借助于使用误差反向传播的众所周知的梯度下降框架来适配权重。误差反向传播需要损失函数,其中,该损失函数可以被理解为用于确定标准化流映射的准确度的度量的函数。优选地,使用表征第一概率分布的负对数似然的损失
函数。优选地,这可以通过使用变量公式的变化、根据第二概率分布来表达损失函数而实现,其中,是第一个概率分布的概率密度函数,是第二概率分布的概率密度函数,x是输入图像,并且f是标准化流。
27.损失函数因此可以被定义为,其中,x是标准化流的输入图像,p是第二概率分布的概率密度函数,f是输入图像到输出图像的映射,即标准化流,l是标准化流中的层数,z
l
是层序列中的第l层的输出,z0是输入图像,并且z
l
是输出张量。图像的损失函数所获得的值也可以被理解为所提出的方法中的第二密度值。
28.为了确定权重的梯度,每个层确定其输入相对于损失函数的梯度,并且将该梯度提供给前一层。以这种方式提供的梯度也被称为误差信号。
29.不幸的是,以这种方式计算标准化流的第一卷积层的梯度通常需要对矩阵进行求逆,其中,求逆的计算复杂度是第一卷积层的权重数量的立方。进而,这意味着标准化流的训练时间也是标准化流的卷积层的权重数量的立方。
30.已经尝试通过设计特殊层来缓解这种特性,这些特殊层的求逆的计算复杂度是卷积层的权重数量的二次方。在标准化流的上下文中,这些特殊层包括耦合层、用于标准化流的挤压层和屏蔽卷积层。然而,这些特殊层限制了标准化流可以实现的变换,并且因此对标准化流的映射准确度有负面影响。
31.发明人有利地发现,借助于第一卷积层的多个权重的自然梯度来训练标准化流允许训练时间是标准化流的第一卷积层的权重数量的二次方,而不会限制标准化流以包括特定层,这些层被设计为用于在特定层的权重数量的二次方的时间内计算梯度。进而,这允许标准化流包括标准卷积层,这进而允许标准化流学习更准确的映射,并且因此改进标准化流的性能。
32.发明人发现第一卷积层的自然梯度可以根据以下公式确定:,其中,是自然梯度,是通过误差反向传播从第一卷积层之后的层获得的第一卷积层的误差信号,或者如果第一卷积层是标准化流的输出层,则直接从损失函数获得,是第一卷积层的多个权重,是第一卷积层的输入的高度,是输入的宽度,表示卷积操作,并且表示转置卷积操作。
33.在另一个方面,本发明涉及一种用于训练图像分类器的计算机实现的方法,其中,图像分类器被配置成确定表征第一输入图像的分类的输出信号,该方法包括以下步骤:
●
确定训练数据集,其中,该训练数据集包括多个第二输入图像;
●
基于该训练数据集并且根据本发明的方面来训练标准化流模型;
●
将经训练的标准化流模型提供给图像分类器;
●
提供该图像分类器作为经训练的图像分类器。
34.输出信号可以表征图像分类器认为第一输入图像属于的至少一个类(class)。替代地或附加地,输出信号可以表征第一输入图像中描绘的至少一个对象的类和方位(position)。替代地或附加地,输出信号可以表征第一输入图像的语义分割,即,第一输入图像的像素的分类。
35.第一输入图像可以是处理另一个图像的结果,例如,通过裁剪另一个图像和/或旋转另一个图像和/或缩放另一个图像的像素值和/或围绕其轴之一翻转另一个图像。
36.可以向图像分类器提供标准化流,使得分类器可以基于标准化流的输出在推理时确定分类。
37.与使用未使用自然梯度训练的图像分类器中的其他标准化流相比,使用根据本发明的方面训练的标准化流的优点在于:标准化流的性能增加改进了图像分类器的分类性能。术语“分类性能”可以被理解为图像分类器预测输入图像的期望类的能力的度量。
38.可以进一步想象到,经训练的分类器被用于对第一输入图像(x)进行分类,其中,图像分类器(60)提供表征第一输入图像(x)的分类的输出信号(y),该方法包括以下步骤:
●
如上所述的那样训练图像分类器;
●
使用来自图像分类器(60)的标准化流预测第一输入图像(x)的第一密度值;
●
如果第一密度值低于预定义阈值,则提供输出信号(y)使得其表征第一类;
●
如果第一密度值等于预定义阈值或高于预定义阈值,则提供输出信号(y)使得其表征第二类。
39.图像分类器因此可以被用于一类分类。在一类分类中,图像分类器通常仅在训练期间被提供一个类的图像。在推理时,即,当使用经训练的图像分类器对输入图像进行分类时,该分类器然后可以将图像分类为属于它已用其进行训练的图像的类或不属于该类。由于图像分类器可以使其分类基于标准化流的输出,因此当被用于一类分类时,图像分类器的分类性能可以有利地被改进得优于其他一类分类器,因为标准化流能够对来自一个类的图像的分布进行更准确地建模。
40.上面呈现的一类分类方法尤其可以被用于异常检测,其中,异常检测也可以被视为离群值检测或新颖性检测。在异常检测中,可以考虑标识数据点(在本发明的输入图像的情况下)的总体目标,这些数据点与数据集中所包括的数据点不共享某些特性。在本发明的上下文中,这可以被理解为标识与训练数据集中的图像显著偏离的输入图像。例如,第一类可以被理解为将图像表征为异常的,而第二类可以被理解为将图像表征为非异常的。
41.如果被用于异常检测,则所呈现的方法具有与已经描述的一类分类相同的优点。
42.可以进一步想象到,训练数据集进一步包括:针对每个第二输入图像的对应的期望输出信号,其中,该期望输出信号表征对应的第二输入图像的分类,并且该方法进一步包括以下步骤:
●
将训练数据集拆分成多个子集,其中,每个子集包括与表征同一类的期望输出信号相一致的第二输入图像;
●
根据权利要求1或2,为每个子集训练标准化流,其中,每个标准化流对应于通过第二输入图像的对应输出信号表征的类,利用该第二输入图像训练标准化流;
●
将经训练的标准化流提供给图像分类器。
43.图像分类器因此也可以包括多个标准化流,其中,每个标准化流利用训练数据集的特定子集进行训练。为此,可以将训练数据集拆分成子集,其中,子集的图像属于同一类。这可以通过基于如上所述的期望输出信号拆分训练数据集来实现。例如,可以通过由人类提供的注释、或由对图像进行注释的另一个图像分类器提供的注释将期望输出信号分配给其对应的第一输入图像。
44.因此,可以通过以下方式对第一输入图像进行分类:
●
训练图像分类器,其中,训练包括训练多个标准化流;
●
预测多个第一密度值,其中,通过将第一输入图像提供给来自图像分类器的标准化流来预测多个第一密度值,使每个标准化流预测第一密度值,并且提供从归一化流预测的第一密度值作为多个第一密度值;
●
适配多个第一密度值中的每个第一密度值,其中,第一密度值通过将其乘以预定义值来适配;
●
提供多个第一密度值作为输出信号(y)。
45.图像分类器因此可以被理解为一种形式的贝叶斯分类器。贝叶斯分类器根据以下公式对输入信号(在本发明的情况下为输入图像)进行分类,其中,被称为后验概率,即,输入信号的概率x属于类y,被称为类y的先验概率,被称为类条件密度值,即,在x属于类y的假设下的x的密度值,并且是表征x出现的概率的密度值。贝叶斯分类器通常将输入信号分类为属于所有类当中具有最大后验概率的类。由于对于所有类都是常数,引起其通常不确定。如果仅确定上述等式的枚举数,则结果是缩放后验概率。
46.将图像分类器视为贝叶斯分类器,多个第一密度值可以被理解为类条件密度值。由于第一值已经由对应于类的标准化流进行预测,因此第一密度值也可以被理解为对应于该类。每个第一密度值可以按预定义值进行缩放,其中,该预定义值特定于与第一密度值相对应的类。因此,可能存在多个预定义值,它们中的每一个都是先验概率。
47.因此,将第一密度值与其各自的预定义值相乘可以被理解为确定每个类的缩放后验概率。
48.输出信号可以是具有最大缩放后验概率的类的索引。替代地或附加地,输出信号可以包括最大缩放后验概率。替代地或附加地,输出信号可以包括所有缩放后验概率。
49.这种方法的优点是提高了图像分类器的分类性能。这是由于图像分类器基于第一密度值(即,类条件密度值)确定输出信号。由于用于确定第一密度值的标准化流已经利用自然梯度进行了训练,因此标准化流的性能得到了提高,这直接导致了对第一密度值的更好预测,并且结果是导致了更好的分类器分类性能。
50.可以进一步设想到,上述任一个图像分类器被用于操作设备,其中,该设备基于图像分类器的输出信号进行操作。
51.例如,该设备可以是至少部分自主的车辆、机器人、制造机器、数字个人助理、访问控制系统、监视系统、医学成像系统或医学分析设备。
52.图像分类器优选地被用于检测设备环境的状态或特性,或者用于检测设备环境的输入图像是否异常。
53.使用上述任何一种图像分类器来操作设备的优点因此是设备能够更准确地确定环境的状态或特性,并且因此可以以更安全和/或更可靠和/或预期的方式操作。
附图说明
54.将参照以下附图更详细地讨论本发明的实施例。各图示出了:图1示意性地示出了训练标准化流的方法;图2示意性地示出了训练包括标准化流的图像分类器的方法;图3示出了控制系统,其包括控制其环境中的致动器的图像分类器;图4示出了控制至少部分自主机器人的控制系统;图5示出了控制制造机器的控制系统;图6示出了控制自动化个人助理的控制系统;图7示出了控制访问控制系统的控制系统;图8示出了控制监视系统的控制系统;图9示出了控制成像系统的控制系统;图10示出了由控制系统控制的医学分析系统;图11示出了用于训练标准化流和图像分类器的训练系统;图12示出了用于训练控制系统的图像分类器的训练系统。
具体实施方式
55.图1中示出的是采用流程图的形式的训练标准化流的第一方法(1)的实施例。该标准化流被配置成接受图像作为输入,并且包括卷积层。优选地,该标准化流仅由作为层的卷积层组成。优选地,该标准化流不包括在例如real nvp中使用的耦合或屏蔽卷积层。
56.在第一步(101)中,确定训练图像(xi)。该图像可以优选地从包括图像的计算机实现的数据库确定,标准化流应当利用该图像进行训练,例如,训练图像的训练数据集。替代地,图像也可以在传感器的操作期间从传感器确定。例如,传感器可以记录图像,并且然后该图像可以被直接用作标准化流的训练图像(xi)。优选地,训练图像(xi)采用具有预定义高度、宽度和通道数量的三维张量的形式。
57.在第二步(102)中,将训练图像(xi)提供给标准化流,并且标准化流为训练图像(xi)预测输出()。这是通过确定标准化流的层的中间表示来完成的。特别地,向标准化流的第一卷积层提供输入,该输入可以是训练图像(xi)或者是由另一个层获得的中间表示。
58.第一卷积层包括预定义数量的滤波器,其中,滤波器的权重表示第一卷积层的权重。然后,该输入与滤波器离散地卷积,以便于确定卷积结果。该卷积结果可以优选地以张量的形式给出。然后可以提供卷积结果作为中间表示。替代地,在通过将激活函数应用于卷积结果的每个元素而提供卷积结果作为中间结果之前,进一步适配卷积结果。作为激活函数,可以挑选可逆和非线性函数,诸如leaky-relu、elu、selu、gelu、softplus、swish或prelu。
59.中间结果可以被提供给标准化流的其他层。如果将第一卷积层用作输出层,则可
以提供中间结果作为标准化流的输出。
60.在第三步(103)中,基于输出张量确定密度值。根据以下公式计算密度值,其中,v是密度值,是在标准化流的输出处评估的多元正态分布的对数,l是运行在所有卷积层l的总量上的索引变量,是第l层的d维输出,是在的第d维处的值,是第l卷积层的权重,并且t是将第l卷积层的权重映射到二维矩阵表示(例如,toeplitz矩阵)的函数。
61.在第四步(104)中,确定相对于密度值的自然梯度。该自然梯度可以根据以下公式计算,其中,是自然梯度,是通过误差反向传播从第一卷积层之后的层获得的第一卷积层的误差信号,或者是如果第一卷积层是标准化流的输出层,则直接从损失函数获得的第一卷积层的误差信号,是第一卷积层的多个权重,是第一卷积层的输入的高度,是输入的宽度,表示卷积操作,并且表示转置卷积操作。
62.误差信号可以借助于标准误差反向传播获得。
63.在第五步(105)中,根据自然梯度来适配第一卷积层的权重。这种权重更新可以根据已知的基于梯度的优化方法(诸如随机梯度下降、adam、adamw或adagrad)中所做的权重更新来实现,其中,使用自然梯度来替换以其他方式使用的梯度(该以其他方式使用的梯度也可以被称为绝对梯度)。例如,权重可以根据众所周知的神经网络梯度下降公式进行适配,其中,指示权重的适配,并且是学习率。附加地,也可以使用基于动量的优化。
64.可以迭代地重复步骤(101,102,103,104,105)。在每次迭代中,可以从训练数据集或传感器获得新的第一输入图像(xi)。可以重复这些步骤,直到经过预定义数量的迭代为止。替代地,也可想象到训练迭代地运行,直到密度值v低于预定义阈值、或者直到多个图像的平均密度值低于预定义阈值为止。在这种情况下,图像可以是来自训练数据集的多个图像,或者是来自另一个数据集(即,验证数据集)的多个图像。
65.图2所示的是用于训练图像分类器的第二方法(2)的实施例。
66.在第一步(201)中,确定图像的训练数据集。该训练数据集可以例如通过从计算机实现的数据库中挑选图像来确定。替代地,数据集可以通过用至少一个传感器记录图像并且提供记录的图像作为训练数据集来确定。
67.在第二步(202)中,基于训练数据集、根据第一方法(1)训练标准化流。
68.在第三步(203)中,将经训练的标准化流提供给图像分类器,并且在第四步(204)中,提供图像分类器作为经训练的图像分类器。
69.在另外的实施例中,可以想象到在第一步骤(201)中确定了多个训练数据集,这可以通过例如将数据集拆分成多个数据集、并且提供该多个数据集作为多个训练数据集来实
现。可以根据多个类来拆分数据集。例如,数据集中的每个图像都可以被分配一个类。然后可以拆分该数据集,使得多个数据集中的每个数据集仅包括一个类的图像。替代地,可以根据图像是否属于预定义的类的组合来拆分数据集。类的组合可以用例如布尔语句来表达。例如,可以想象到数据集包含类a、b和c的图像,并且数据集被拆分成使得多个数据集中的第一数据集包括类a和b但不包括类c的图像,并且第二数据集包括类c的图像。
70.在另外的实施例中,可以进一步想象到在第二步(202)中训练多个标准化流,其中,根据第一方法(1)对多个训练数据集中的每个训练数据集训练一个标准化。
71.在另外的实施例中,可以进一步想象到在第三步(203)中将多个经训练的标准化流提供给图像分类器。
72.图3中示出了用于使用根据第二方法(2)训练的图像分类器(60)来控制致动器(10)的控制系统(40)。在优选地均匀间隔的时间点处,传感器(30)感测传感器(30)的环境(20)的状况和/或控制系统(40)的状况。传感器(30)可以包括若干个传感器。传感器(30)是拍摄环境(20)图像的光学传感器。传感器(30)的输出信号(s)(或者,在传感器(30)包括多个传感器的情况下,用于每一个传感器的输出信号(s))对感测的条件进行编码,该输出信号被传输到控制系统(40)。
73.由此,控制系统(40)接收传感器信号(s)流。然后它取决于传感器信号(s)流来计算一系列控制信号(a),然后将这些信号传输到致动器(10)。
74.控制系统(40)在可选的接收单元(50)中接收传感器(30)的传感器信号(s)流。接收单元(50)将传感器信号(s)变换为输入图像(x)。这可以通过应用诸如例如缩放、旋转、裁剪或颜色校正传感器信号(s)之类的预处理方法来实现。替代地,在没有接收单元(50)的情况下,每个传感器信号(s)可以被直接取作输入图像(x)。例如,输入图像(x)可以作为传感器信号(s)的摘录给出。替代地,可以处理传感器信号(s)以产生输入图像(x)。换言之,根据传感器信号(s)提供输入图像(x)。
75.然后将输入图像(x)传递给图像分类器(60)。
76.图像分类器(60)(特别是图像分类器所包括的至少一个标准化流)通过参数参数化,这些参数被存储在参数存储装置()中并且由其提供。
77.图像分类器(60)从输入图像(x)确定输出信号(y)。输出信号(y)包括为输入图像(x)分配一个或多个标签的信息。输出信号(y)被传输到可选的转换单元(80),其将输出信号(y)转换成控制信号(a)。然后将控制信号(a)传输到致动器(10)以相应地控制致动器(10)。替代地,输出信号(y)可以被直接取作控制信号(a)。
78.致动器(10)接收控制信号(a),被相应地控制,并且执行对应于控制信号(a)的动作。致动器(10)可以包括控制逻辑,该控制逻辑将控制信号(a)变换成另外的控制信号,然后将该另外的控制信号用于控制致动器(10)。
79.在另外的实施例中,控制系统(40)可以包括传感器(30)。在更另外的实施例中,控制系统(40)替代地或附加地可以包括致动器(10)。
80.在仍另外的实施例中,可以设想到代替于致动器(10)或者除了致动器(10)之外,控制系统(40)还控制显示器(10a)。
81.另外,控制系统(40)可以包括至少一个处理器(45)和至少一个机器可读存储介质
(46),指令存储在该机器可读存储介质(46)上,其如果被执行,则使控制系统(40)执行根据本发明的方面的方法。
82.图4示出了实施例,其中控制系统(40)被用于控制至少部分自主的机器人,例如,至少部分自主的车辆(100)。
83.传感器(30)可以包括一个或多个视频传感器、和/或一个或多个雷达传感器、和/或一个或多个超声波传感器、和/或一个或多个lidar传感器。这些传感器中的一些或全部优选地但不一定集成到车辆(100)中。
84.图像分类器(60)可以被配置成确定车辆(100)的位置场景,例如,城市、高速公路或乡村。基于图像分类器(60)的分类,可以限制车辆(100)的至少部分自主操作。例如,可以想象到车辆(100)被配置成在高速公路上自主导航。如果图像分类器(100)确定输入图像(x)的位置场景是高速公路,则可以启用自主导航,以由车辆(100)的驾驶员或车辆(100)的操作员激活。转换单元(80)可以设置控制信号(a),使得可以自主地控制致动器(10)。如果位置场景被分类为与高速公路不同,则转换单元(80)可以设置控制信号(a)使得致动器(10)不能被自主控制。替代地或附加地,控制信号(a)可以被设置为使得车辆(100)的操作被从车辆(100)转移到车辆(100)的驾驶员或操作者。
85.优选地集成到车辆(100)中的致动器(10)可以由车辆(100)的制动器、推进系统、发动机、动力传动系统或转向装置给出。
86.替代地或附加地,控制信号(a)也可以被用来控制显示器(10a),例如,用于显示当前检测到的位置场景。
87.在另外的实施例中,图像分类器(60)可以被配置成检测输入图像(x)是否异常。如果图像分类器(60)检测到异常输入图像(x),则转换单元(80)可以设置控制信号(a),使得车辆(100)的自主操作受到限制,例如,通过减少车辆(100)的最大允许速度来进行。替代地或附加地,控制信号(a)可以被设置成使得车辆(100)的操作被从车辆(100)转移到车辆(100)的驾驶员或操作者。
88.图5中示出了一个实施例,其中控制系统(40)被用于控制制造系统(200)(例如,作为生产线的一部分)的制造机器(11),例如,冲压切割机、切割机、枪钻或夹具。制造机器可以包括运输设备,例如,传送带或装配线,该运输设备移动制成品(12)。控制系统(40)控制致动器(10),该致动器(10)进而控制制造机器(11)。
89.传感器(30)可以由捕获例如制成品(12)的属性的光学传感器给出。
90.图像分类器(60)可以将制成品(12)分类为多个类之一。然后可以取决于所确定的制成品(12)的类来控制致动器(10),以用于制成品(12)的后续制造步骤。例如,可以控制致动器(10)以在制成品本身的特定位置处切割制成品。替代地或附加地,可以设想到图像分类器(60)进行分类——制成品是破损的还是表现出缺陷的。然后可以控制致动器(10)以从运输设备移除制成品。替代地,图像分类器(60)可以被配置成确定制成品(12)是否异常。
91.图6所示的是一个实施例,其中控制系统(40)被用于控制自动化个人助理(250)。传感器(30)可以是光学传感器,例如,用于接收用户(249)的手势的视频图像。替代地,传感器(30)也可以是音频传感器,例如,用于接收用户(249)的语音命令。
92.控制系统(40)然后确定用于控制自动化个人助理(250)的控制信号(a)。根据传感器(30)的传感器信号(s)确定控制信号(a)。传感器信号(s)被传输到控制系统(40)。例如,
图像分类器(60)可以被配置成例如执行手势识别算法来识别用户(249)做出的手势。控制系统(40)然后可以确定用于传输到自动化个人助理(250)的控制信号(a)。然后它将控制信号(a)传输到自动化个人助理(250)。
93.例如,控制信号(a)可以根据由图像分类器(60)标识的所标识的用户手势来确定。它可以包括以下信息,该信息使自动化个人助理(250)从数据库中检索信息,并且以适合用户(249)接收的形式输出该检索到的信息。
94.在另外的实施例中,可以设想到代替于自动化个人助理(250),控制系统(40)控制根据所标识的用户手势而控制的家用电器(未示出)。该家用电器可以是洗衣机、炉灶、烤箱、微波炉或洗碗机。
95.图7中示出了一个实施例,其中控制系统(40)控制访问控制系统(300)。该访问控制系统(300)可以被设计成物理地控制访问。例如,它可以包括门(401)。传感器(30)可以被配置成检测与判定是否准许访问有关的场景。例如,它可以是用于提供图像或视频数据的光学传感器,例如,用于对人的面部进行分类。
96.图像分类器(60)可以被配置成对人员的身份进行分类,例如,通过将检测到的人员的面部与其他存储在数据库中的已知人员的面部进行匹配,由此确定人员的身份。然后可以取决于图像分类器(60)的分类,例如,根据所确定的身份来确定控制信号(a)。致动器(10)可以是取决于控制信号(a)而打开或关闭门的锁。替代地,访问控制系统(300)可以是非物理的逻辑访问控制系统。在这种情况下,控制信号可以被用于控制显示器(10a)以示出关于该人员的身份和/或该人员是否被给予访问权的信息。
97.图8中示出了一个实施例,其中控制系统(40)控制监视系统(400)。该实施例与图5所示的实施例基本上相同。因此,将仅详细描述不同的方面。传感器(30)被配置成检测被监视的场景。控制系统(40)不一定控制致动器(10),而是可以替代地控制显示器(10a)。例如,图像分类器(60)可以确定场景的分类,例如,由光学传感器(30)检测到的场景是否正常、或者场景是否表现出异常。被传输到显示器(10a)的控制信号(a)然后可以例如被配置成使显示器(10a)取决于所确定的分类调整显示的内容,例如,突出显示图像分类器(60)认为异常的对象。
98.图9中示出了由控制系统(40)控制的医学成像系统(500)的实施例。成像系统例如可以是mri装置、x射线成像装置或超声成像装置。传感器(30)可以例如是成像传感器,其拍摄患者的至少一个图像,例如,显示患者不同类型的身体组织。
99.图像分类器(60)然后可以确定感测图像的至少一部分的分类。
100.然后可以根据分类挑选控制信号(a),由此控制显示器(10a)。例如,图像分类器(60)可以被配置成检测感测图像中不同类型的组织,例如,通过将图像中显示的组织分类为恶性组织或良性组织来进行。然后可以确定控制信号(a),以使显示器(10a)显示不同的组织,例如,通过显示输入图像(x),并且以相同颜色给相同组织类型的不同区域着色来进行。
101.图10中示出了由控制系统(40)控制的医学分析系统(600)的实施例。该医学分析系统(600)配备有微阵列(601),其中,该微阵列包括暴露于医学样本的多个点(602,也被称为特征)。医学样本可以是例如从拭子获得的例如人类样本或动物样本。
102.微阵列(601)可以是dna微阵列或蛋白质微阵列。
103.传感器(30)被配置成感测微阵列(601)。传感器(30)优选地是光学传感器,诸如视频传感器。
104.图像分类器(60)被配置成基于由传感器(30)提供的微阵列的输入图像(x)对样本的结果进行分类。特别地,图像分类器(60)可以被配置成确定微阵列(601)是否指示样本中存在病毒。
105.然后可以挑选控制信号(a)以使得显示器(10a)示出分类的结果。
106.图11示出了用于训练标准化流(70)和图像分类器(60)的训练系统(140)的实施例,其中,标准化流(70)包括可训练参数(),尤其是标准化流(70)中包括的卷积层的权重。可训练参数()由第一计算机实现的数据库()提供。训练系统(140)接收训练数据集(t)。训练数据集(t)包括:被用于训练标准化流(70)的多个输入图像(xi)。
107.为了训练,训练数据单元(150)访问训练数据集(t)。该训练数据单元(150)优选地从训练数据集(t)中随机确定至少一个输入图像,并且将输入图像(xi)传输到标准化流(70)。该标准化流(70)基于输入图像(xi)来确定输出()。
108.所确定的输出()被传输到修改单元(180)。
109.基于所确定的输出(),修改单元(180)然后确定标准化流(70)的新参数()。该新参数()尤其可以是标准化流(70)的新权重。出于这个目的,修改单元(180)通过确定输出()的负对数似然值来确定输入图像(xi)的密度值。在实施例中,多元正态分布被用作概率密度函数,其中,正态分布的协方差矩阵是单位矩阵。在其他实施例中,可以使用其他概率密度函数,例如,具有不同于单位矩阵的协方差矩阵的多元正态分布、多元学生t分布或多元广义极值分布。
110.修改单元(180)基于第一损失值确定新参数()。在给定的实施例中,这是使用梯度下降方法,优选地为随机梯度下降、adam或adamw来完成的。作为梯度,修改单元使用参数()相对于密度值的自然梯度。
111.之后,标准化流(70)及其新参数()由训练系统(140)作为经训练的标准化流(71)来提供。
112.在其他优选实施例中,迭代地重复训练多达预定义数量的迭代步骤、或者迭代地重复训练,直到在标准化流(70)及其新参数()被提供作为经训练的标准化流(71)之前,第一损失值低于预定义阈值为止。替代地或附加地,还可以想到当相对于测试或验证数据集的平均密度值低于预定义阈值时终止训练。在至少一次迭代中,在先前迭代中确定的新参数()被用作标准化流(70)的参数(φ)。
113.另外,训练系统(140)可以包括至少一个处理器(145)和至少一个包含指令的机器可读存储介质(146),该指令当由处理器(145)执行时,使训练系统(140)执行根据本发明的一个方面的训练方法。
114.图12示出了用于训练控制系统(40)的图像分类器(60)的训练系统(141)的实施例。
115.训练系统(141)包括第二计算机实现的数据库(),它提供训练数据集(tg),其中,该训练数据集(tg)包括多个输入图像(xi),和针对每个输入图像(xi)的输入图像(xi)属
于的期望的类。
116.训练数据集(tg)由拆分单元(190)处理。该拆分单元基于训练数据集(tg)中所包括的类将训练数据集(tg)拆分成多个子集(ta,tb,tc,td)。例如,每个子集(ta,tb,tc,td)可能仅包含单个类的输入图像(xi)。还可想到,每个子集(ta,tb,tc,td)可以包括来自多个类的输入图像(xi)。
117.对于每个子集(ta,tb,tc,td),标准化流(71a,71b,71c,71d)是使用用于训练标准化流(70)的训练系统(140)训练的。经训练的标准化流(71a,71b,71c,71d)然后被提供给图像分类器(60)。训练系统(141)然后提供经训练的图像分类器(60)。
118.另外,训练系统(141)可以包括至少一个处理器(245)和至少一个包含指令的机器可读存储介质(246),该指令当由处理器(245)执行时,使训练系统(141)执行根据本发明的一个方面的训练方法。
119.术语“计算机”可以被理解为覆盖用于处理预定义计算规则的任何设备。这些计算规则可以采用软件、硬件或软件和硬件的混合的形式。
技术特征:
1.用于训练标准化流(70)的计算机实现的方法(1),其中,所述标准化流(70)被配置成基于第一输入图像(x)预测第一密度值,其中,所述第一密度值表征第一输入图像出现的可能性,其中,所述第一密度值是基于标准化流的第一卷积层的中间输出而预测的,其中,所述中间输出是基于第一卷积层的多个权重而确定的,其中,训练的方法包括以下步骤:
●ꢀ
确定(101)第二输入图像(x
i
);
●ꢀ
确定(102)输出(),其中,所述输出()是通过将第二输入图像(x
i
)提供给标准化流并且提供标准化流的输出作为输出()而确定的;
●ꢀ
基于输出张量并且基于多个权重来确定(103)第二密度值;
●ꢀ
确定(104)多个权重相对于第二密度值的自然梯度;
●ꢀ
根据所述自然梯度适配(105)所述多个权重。2.根据权利要求1所述的方法,其中,所述自然梯度根据以下公式来确定: ,其中,是自然梯度,是第一卷积层的误差信号,是多个权重,是第一卷积层的层输入的高度,是层输入的宽度,表示卷积操作,并且表示转置卷积操作。3.用于训练图像分类器(60)的计算机实现的方法(2),其中,所述图像分类器(60)被配置成确定表征第一输入图像(x)的分类的输出信号(y),所述方法包括以下步骤:
●ꢀ
确定训练数据集(t,t
g
),其中,所述训练数据集包括多个第二输入图像(x
i
);
●ꢀ
基于所述训练数据集训练根据权利要求1或2所述的标准化流(70);
●ꢀ
将经训练的标准化流(71,71
a
,71
b
,71
c
,71
d
)提供给图像分类器(60);
●ꢀ
提供所述图像分类器(60)作为经训练的图像分类器(60)。4.根据权利要求3所述的方法(2),其中,训练数据集(t
g
)进一步包括:对于每个第二输入图像(x
i
)的对应的期望输出信号(y
i
),其中,期望输出信号(y
i
)表征对应的第二输入图像(x
i
)的分类,并且所述方法进一步包括以下步骤:
●ꢀ
将训练数据集(t
g
)拆分成多个子集(t
a
,t
b
,t
c
,t
d
),其中,每个子集(t
a
,t
b
,t
c
,t
d
)包括与表征同一类的期望输出信号(y
i
)相一致的第二输入图像(x
i
);
●ꢀ
根据权利要求1或2,为每个子集(t
a
,t
b
,t
c
,t
d
)训练标准化流(70),其中,每个标准化流(70)对应于通过第二输入图像(x
i
)的对应输出信号(y
i
)表征的类,利用所述第二输入图像(x
i
)训练标准化流(70);
●ꢀ
将经训练的标准化流(71,71
a
,71
b
,71
c
,71
d
)提供给图像分类器(60)。5.用于使用图像分类器(60)对第一输入图像(x)进行分类的计算机实现的方法,其中,所述图像分类器(60)提供表征第一输入图像(x)的分类的输出信号(y),所述方法包括以下步骤:
●ꢀ
根据权利要求3训练图像分类器(60);
●ꢀ
使用来自图像分类器(60)的经训练的标准化流(71)预测第一输入图像(x)的第一密度值;
●ꢀ
如果所述第一密度值低于预定义阈值,则提供输出信号(y)使得其表征第一类;
●ꢀ
如果所述第一密度值等于预定义阈值或高于预定义阈值,则提供输出信号(y)使得
其表征第二类。6.用于使用图像分类器(60)对第一输入图像(x)进行分类的计算机实现的方法,其中,所述图像分类器(60)提供表征第一输入图像(x)的分类的输出信号(y),所述方法包括以下步骤:
●ꢀ
根据权利要求4所述的训练图像分类器(60);
●ꢀ
预测多个第一密度值,其中,通过将所述第一输入图像(x)从所述图像分类器(60)提供给经训练的标准化流(71
a
,71
b
,71
c
,71
d
),并且提供从标准化流预测的第一密度值作为多个第一密度值来预测所述多个第一密度值;
●ꢀ
适配所述多个第一密度值中的每个第一密度值,其中,第一密度值通过将其乘以预定义值来适配;
●ꢀ
提供多个第一密度值作为输出信号(y)。7.根据权利要求3至6中任一项所述的方法,其中,基于所述输出信号(y)来操作设备(100,200,250,400,500,600)。8.标准化流(70),其被配置成执行根据权利要求3至6中任一项所述的方法。9.图像分类器(60),其被配置成执行根据权利要求3至6中任一项所述的方法。10.训练系统(140),其被配置成执行根据权利要求1或2所述的方法。11.训练系统(141),其被配置成执行根据权利要求3或4所述的方法。12.计算机程序,其被配置成如果所述计算机程序由处理器(45,145,245)执行,则使计算机以根据权利要求1至7中任一项所述的方法的所有步骤执行根据权利要求1至7中任一项所述的方法。13.机器可读存储介质(46,146,246),其上存储了根据权利要求12所述的计算机程序。
技术总结
用于训练标准化流(70)的计算机实现的方法(1),其中,该标准化流(70)被配置成基于第一输入图像(x)预测第一密度值,其中,该第一密度值表征第一输入图像出现的可能性,其中,该第一密度值是基于标准化流的第一卷积层的中间输出而预测的,其中,该中间输出是基于第一卷积层的多个权重而确定的,其中,训练的方法包括以下步骤:
技术研发人员:J
受保护的技术使用者:罗伯特
技术研发日:2021.09.03
技术公布日:2022/3/8