一种基于特定人物时空轨迹的视频横屏转竖屏方法与流程

专利查询2024-1-15  97



1.本发明涉及视频编辑领域,更为具体的,涉及一种基于特定人物时空轨迹的视频横屏转竖屏方法。


背景技术:

2.随着手机的飞速发展并凭借其便捷的单手持握方式,越来越多的用户习惯于使用手机观看视频,手指轻轻地上下一划,便可快速切换到其他视频,正是伴随着这一简单的操作逻辑,各种短视频app爆火全球,而短视频的火爆,又反过来带动对竖屏视频的需求,但并非所有视频从制作之初便是针对竖屏条件下观看而设计拍摄的。一般的,此类横屏视频需要在后期人工使用视频编辑软件进行编辑转换,难免费时费力。


技术实现要素:

3.本发明的目的在于克服现有技术的不足,针对背景技术中提出的问题,提供一种基于特定人物时空轨迹的视频横屏转竖屏方法,可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
4.本发明的目的是通过以下方案实现的:一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:s1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;s2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;s3,基于估计结果,进行目标人物展示区域重构。
5.进一步地,步骤s1包括子步骤:s101,设有已解码的总共张图像序列,其中表示第张图像,将每张图像颜色空间转换到颜色空间,记作,再计算上一张图像与当前图像的颜色特征差异,即:其中表示计算均值,表示求和,表示取绝对值,和分别表示当前图像和上一张图像;s102,使用在imagenet上预训练的vgg19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序列中的每一张图像使用该模型进行特征提取,得图像语义特征集合,其中
为第张图像提取到的图像语义特征,通过计算当前图像与上一张图像的特征差异,即:其中表示上一张图像的图像语义特征,表示特征的膜;s103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异,即:,其中为权重,用于平衡两种差异;s104,对图像序列中的每相邻两帧和,计算图像表征差异,当时,表明第张图像是新镜头的第一张图像,则即为当前镜头的出点,以此类推,得到分割好的镜头序列,其中表示第个镜头,为镜头总数,为判断阈值。
6.进一步地,步骤s2包括子步骤:s201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像张,使用基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列,其中为当前镜头的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;s202,使用当前镜头的跟踪边框序列,利用行人重识别模型提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征;s203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用s202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;s204,在下一镜头中,执行步骤s201,s202,s203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计张图像序列中的所有跟踪边框,记作。
7.进一步地,步骤s3包括子步骤:s301,获取每个镜头的目标人物时空轨迹,具体地,对当前镜头的跟踪边框序列,设第个边框在其对应图像中的坐标为,则计算得到当前镜头的第个轨迹点
则当前镜头中目标人物的轨迹点表示为;s302,根据步骤s301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列。
8.进一步地,步骤s103中,包括子步骤:通过在互联网搜集各种类型的视频片段,使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集;其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,设计一个卷积模型,名为weighting cnn,记作,通过输入相邻两张图像,通过在训练集上构建最小化损失函数:使得模型收敛,得到权重,其中为目标标签,当输入两帧图像属于同一镜头时,,否则,max为最大值函数,为超参数。
9.进一步地,在步骤s201中,所述使用基于深度学习的目标跟踪器包括siamrpn跟踪器。
10.进一步地,步骤s202包括子步骤:s2021,使用基于深度学习的行人重识别模型,对当前镜头的每个边框提取空间特征,得到目标人物在当前镜头的空间特征序列;s2022,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,s2023,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作。
11.进一步地,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。
12.进一步地,在步骤s301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。
13.进一步地,步骤s302包括子步骤:对当前镜头的第个平滑轨迹点和边框的对应坐标,根据其边框原始高度调整得到重构后的目标边框宽高,根据其边框原始高度调整得到重构后的目标边框宽高,
为重构后的目标边框高度,为重构后的目标边框宽度,为向下取整操作。
14.进一步地,在步骤s2021中,所述基于深度学习的行人重识别模型包括reid-strong-baseline重识别模型。
15.进一步地,所述滑动均值滤波器包括sg滤波器,窗口大小为15,得到较为平滑的轨迹。
16.本发明的有益效果包括:本发明实施例提供了一种高效、自动化的以目标人物为展示目的的16:9横屏转9:16竖屏方法;具体地,通过设计了一种结合low-level颜色差异以及high-level语义特征差异的镜头分割方法,并结合行人跟踪和行人重识别方法,自动高效地进行跨镜头估计目标人物的时空轨迹,最后基于目标人物时空轨迹重构出以目标人物为展示目的的9:16竖屏视频。
17.本发明实施例可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1为本发明实施例中的第一步骤流程图;图2为本发明实施例中的网络结构;图3为本发明实施例中的第二步骤流程图。
具体实施方式
20.本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
21.如图1~图3所示,一种基于特定人物时空定位的视频横屏转竖屏方法,包括步骤:s1,基于low-level颜色特征差异和high-level语义特征差异的镜头分割子步骤;s2,跨场景目标人物时空轨迹估计子步骤;s3,目标人物展示区域重构子步骤;在本发明其他可选的实施例中,步骤s1包括:s101,设有已解码的总共张图像序列,其中表示第张图像,首先,将每张图像颜色空间转换到颜色空间,记作,再计算上一张图像与当前图像的颜色特征差异,即:
其中表示计算均值,表示求和,表示取绝对值,和分别表示当前图像和上一张图像。
22.s102,使用在imagenet上预训练的vgg19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序列中的每一张图像使用该模型进行特征提取,得图像语义特征集合,其中为第张图像提取到的图像语义特征,通过计算当前图像与上一张图像的特征差异,即:其中表示上一张图像的图像语义特征,表示特征的膜。
23.s103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异,即:,其中为权重,用于平衡两种差异。
24.在本发明其他可选的实施例中,通过在互联网搜集各种类型的视频片段,比如新闻、体育、电影等类型,总计共2000个不同镜头,序号为0~1999;使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集,其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,额外设计一个卷积模型,名为weighting cnn,记作,模型结构如图2所示,通过输入相邻两张图像,并通过在训练集上构建最小化损失函数:使得模型收敛,构建训练数据集和损失函数对这个wcnn模型进行训练,得到让图像自适应的权重,其中为目标标签,当输入两帧图像属于同一镜头时,,否则,为超参数,本实施方案中取值0.4。
25.s104,对图像序列中的每相邻两帧和,计算图像表征差异,当时,表明第张图像是新镜头的第一张图像,则即为当前镜头的出点,以此类推,得到分割好的镜头序列,其中表示第个镜头,为镜头总数,为判断阈值,
本实施方案中取值0.8。
26.在本发明其他可选的实施例中,步骤s2包括:s201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像张,使用基于深度学习的目标跟踪器,本实施方案中采用siamrpn跟踪器,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列,其中为当前镜头的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象,特别的,为步骤s104中镜头序列中的第一个镜头的跟踪对象边框,需要人工标定。
27.s202,使用当前镜头的跟踪边框序列,提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征,具体地,使用基于深度学习的行人重识别模型,本实施方案中采用reid-strong-baseline重识别模型,对当前镜头的每个边框提取空间特征,得到目标人物在当前镜头的空间特征序列,在本发明其他可选的实施例中,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,在本发明其他可选的实施例中,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作。
28.s203,使用基于深度学习的行人检测器,本实例中采用yolov5通用目标检测器,仅使用行人预测结果,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用s202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象。
29.在下一镜头中,执行步骤s201,s202,s203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计张图像序列中的所有跟踪边框,记作。
30.在本发明其他可选的实施例中,步骤s3包括:s301,获取每个镜头的目标人物时空轨迹,具体地,对当前镜头的跟踪边框序列,设第个边框在其对应图像中的坐标为,则可计算得到当前镜头的第个轨迹点则当前镜头中目标人物的轨迹点表示为,在本发明其他可选的实施例中,对当前镜头所有轨迹点使用滑动均值滤波器进行滤波,本实施方案中采用sg滤波器,窗口大小为15,得到较为平滑的轨迹,避免最终重构结果出现抖动现象。
31.s302,根据步骤s301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列,具体地,对当前镜头的第个平滑轨迹点和边框的对应坐标,根据其边框原始高度调整得到重构后的目标边框宽高,,根据其边框原始高度调整得到重构后的目标边框宽高,,根据其边框原始高度调整得到重构后的目标边框宽高,为重构后的目标边框高度,为重构后的目标边框宽度,为向下取整操作。
32.通过以上步骤s1,s2,s3,即可从原始16:9横屏视频中得到已特定目标为展示目的的9:16竖屏视频。
33.本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
34.上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
35.除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

技术特征:
1.一种基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,包括步骤:s1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;s2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;s3,基于估计结果,进行目标人物展示区域重构。2.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤s1包括子步骤:s101,设有已解码的总共张图像序列,其中表示第张图像,将每张图像颜色空间转换到颜色空间,记作,再计算上一张图像与当前图像的颜色特征差异,即:其中表示计算均值,表示求和,表示取绝对值,和分别表示当前图像和上一张图像;s102,使用在imagenet上预训练的vgg19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序列中的每一张图像使用该模型进行特征提取,得图像语义特征集合,其中为第张图像提取到的图像语义特征,通过计算当前图像与上一张图像的特征差异,即:其中表示上一张图像的图像语义特征,表示特征的膜;s103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异,即:,其中为权重,用于平衡两种差异;s104,对图像序列中的每相邻两帧和,计算图像表征差异,当时,表明第张图像是新镜头的第一张图像,则即为当前镜头的出点,以此类推,得到分割好的镜头序列,其中表示第个镜头,为镜头总数,为判断阈值。3.根据权利要求1或2任一所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特
征在于,步骤s2包括子步骤:s201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像张,使用基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列,其中为当前镜头的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;s202,使用当前镜头的跟踪边框序列,利用行人重识别模型提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征;s203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用s202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;s204,在下一镜头中,执行步骤s201,s202,s203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计张图像序列中的所有跟踪边框,记作。4.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤s3包括子步骤:s301,获取每个镜头的目标人物时空轨迹,对当前镜头的跟踪边框序列,设第个边框在其对应图像中的坐标为,则计算得到当前镜头的第个轨迹点:则当前镜头中目标人物的轨迹点表示为;s302,根据步骤s301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列。5.根据权利要求2所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤s103中,包括子步骤:通过在互联网搜集各种类型的视频片段,使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集;其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,设计一个卷积模型,记作,通过输入相邻两张图像,并通过在训练集上构建最小化损失函数:使得模型收敛,得到权重,其中为目标标签,当输入两帧图像属于同一镜头时,
,否则,max为最大值函数,为超参数。6.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤s201中,所述使用基于深度学习的目标跟踪器包括siamrpn跟踪器。7.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤s202包括子步骤:s2021,使用基于深度学习的行人重识别模型,对当前镜头的每个边框提取空间特征,得到目标人物在当前镜头的空间特征序列;s2022,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,s2023,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作。8.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。9.根据权利要求4所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤s301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。10.根据权利要求4所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤s302包括子步骤:对当前镜头的第个平滑轨迹点和边框的对应坐标,根据其边框原始高度调整得到重构后的目标边框宽高,边框原始高度调整得到重构后的目标边框宽高,边框原始高度调整得到重构后的目标边框宽高,为重构后的目标边框高度,为重构后的目标边框宽度,为向下取整操作。11.根据权利要求7所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤s2021中,所述基于深度学习的行人重识别模型包括reid-strong-baseline重识别模型。12.根据权利要求9所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,所述滑动均值滤波器包括sg滤波器,窗口大小为15,得到较为平滑的轨迹。

技术总结
本发明公开了一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:S1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;S3,基于估计结果,进行目标人物展示区域重构。本发明可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。有效降低人工编辑成本。有效降低人工编辑成本。


技术研发人员:袁琦 温序铭
受保护的技术使用者:成都索贝数码科技股份有限公司
技术研发日:2021.12.14
技术公布日:2022/3/8

最新回复(0)