视频分类模型的生成方法和装置与流程

本申请实施例涉及互联网，尤其涉及一种视频分类模型的生成方法、装置、计算机设备、计算机可读存储介质、计算机程序产品。

背景技术：

1、随着计算机技术的发展和应用，各种内容平台不断涌现，用户可以在内容平台上发布和浏览多样化的短视频内容。内容平台会对视频进行分类，从而根据分类结果对用户发布视频进行进一步的操作，如画质增强、视频质量评估等，以提升后续算法的精确性。

2、目前，主要是利用传统的图像处理算法或者基于深度学习的算法进行视频分类的，但是，尽管传统图像算法在某些任务上取得了较好的效果，但这些算法通常需要大量的手工调整和参数优化，且在大规模图像数据集上性能有限，视频分类效果不佳；而大多数基于深度学习的算法均需要大量的标签数据进行训练，公开的数据集并不一定适合真实的业务场景，需要大量的人工收集和标注更适合特定业务场景的数据集。

3、需要说明的是，上述内容并不必然是现有技术，也不用于限制本申请的专利保护范围。

技术实现思路

1、本申请实施例提供一种视频分类模型的生成方法、装置、计算机设备、计算机可读存储介质、计算机程序产品，以解决或缓解上面提出的一项或更多项技术问题。

2、本申请实施例的一个方面提供了一种视频分类模型的生成方法，所述方法包括：

3、获取第一数据集、预设分类标签和基于clip的图像处理模型；

4、通过所述基于clip的图像处理模型，根据所述预设分类标签对所述第一数据集中的每一个图像进行预分类，得到所述每一个图像对应的伪标签；

5、根据所述每一个图像对应的伪标签从所述第一数据集中筛选得到第二数据集；

6、根据所述第二数据集训练所述基于clip的图像处理模型，得到目标视频分类模型。

7、可选地，所述根据所述每一个图像对应的伪标签从所述第一数据集中筛选得到第二数据集，包括：

8、根据所述每一个图像对应的伪标签，从所述第一数据集中确定分类错误的图像；

9、从所述第一数据集中剔除所述分类错误的图像得到第二数据集。

10、可选地，所述根据所述第二数据集训练所述基于clip的图像处理模型，得到目标视频分类模型，包括：

11、将所述第二数据集训练中的每一个图像和所述图像对应的伪标签作为输入数据训练所述基于clip的图像处理模型，得到目标视频分类模型。

12、可选地，所述方法还包括：

13、获取待分类的视频；

14、对所述待分类的视频进行场景分割得到多个视频片段；

15、分别从每一个视频片段中抽取得到多帧图像；

16、通过所述目标视频分类模型，对每一帧图像进行预测得到每一帧图像对应的分类类别和所述分类类别对应的第一概率；

17、根据所述每一帧图像对应的分类类别和所述分类类别对应的第一概率，确定所述视频片段对应的分类结果。

18、可选地，所述根据所述每一帧图像对应的分类类别和所述分类类别对应的第一概率，确定所述视频片段对应的分类结果，包括：

19、对所有的分类类别对应的第一概率进行归一化处理；

20、根据所述每一帧图像对应的分类类别合并相同类别的帧图像，并根据归一化后的所述第一概率统计得到每一种类别的帧图像对应的第二概率；

21、根据所述每一种类别的帧图像对应的第二概率，确定所述视频片段对应的分类结果。

22、可选地，所述根据所述每一种类别的帧图像对应的第二概率，确定所述视频片段对应的分类结果，包括：

23、根据所述每一种类别的帧图像对应的第二概率，确定概率最高的类别作为所述视频片段对应的分类结果。

24、可选地，所述对所述待分类的视频进行场景分割得到多个视频片段，包括：

25、对所述待分类的视频中的每一帧图像进行特征提取得到图像特征信息；

26、根据所述图像特征信息确定相邻两个帧图像之间的特征差异；

27、根据所述相邻两个帧图像之间的特征差异，对所述待分类的视频进行场景分割得到场景不同的多个视频片段。

28、本申请实施例的另一个方面提供了一种视频分类模型的生成装置，所述装置包括：

29、数据获取模块，用于获取第一数据集、预设分类标签和基于clip的图像处理模型；

30、预分类模块，用于通过所述基于clip的图像处理模型，根据所述预设分类标签对所述第一数据集中的每一个图像进行预分类，得到所述每一个图像对应的伪标签；

31、数据筛选模块，用于根据所述每一个图像对应的伪标签从所述第一数据集中筛选得到第二数据集；

32、模型训练模块，用于根据所述第二数据集训练所述基于clip的图像处理模型，得到目标视频分类模型。

33、本申请实施例的另一个方面提供了一种计算机设备，包括：

34、至少一个处理器；及

35、与所述至少一个处理器通信连接的存储器；

36、其中：所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的视频分类模型的生成方法。

37、本申请实施例的另一个方面提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如上所述的视频分类模型的生成方法。

38、本申请实施例的另一个方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的视频分类模型的生成方法。

39、本申请实施例采用上述技术方案可以包括如下优势：通过在基于大量数据训练的多模态算法clip预训练模型的基础上，使用clip算法的zero-shot能力，设计基于特定任务的文本prompt，对少量图像数据集进行预分类，将预分类的结果作为伪标签构建新的数据集，利用携带伪标签的数据集重新训练模型，从而减少了训练模型时基于特定任务的模型训练所需要的人工标注的标签，达到减少数据集的构建所需要的时间的目的，同时，使用clip的图像特征提取作为模型的输入能够大大提升模型训练的准确性。

技术特征：

1.一种视频分类模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频分类模型的生成方法，其特征在于，所述根据所述每一个图像对应的伪标签从所述第一数据集中筛选得到第二数据集，包括：

3.根据权利要求1所述的视频分类模型的生成方法，其特征在于，所述根据所述第二数据集训练所述基于clip的图像处理模型，得到目标视频分类模型，包括：

4.根据权利要求1所述的视频分类模型的生成方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的视频分类模型的生成方法，其特征在于，所述根据所述每一帧图像对应的分类类别和所述分类类别对应的第一概率，确定所述视频片段对应的分类结果，包括：

6.根据权利要求5所述的视频分类模型的生成方法，其特征在于，所述根据所述每一种类别的帧图像对应的第二概率，确定所述视频片段对应的分类结果，包括：

7.根据权利要求1所述的视频分类模型的生成方法，其特征在于，所述对所述待分类的视频进行场景分割得到多个视频片段，包括：

8.一种视频分类模型的生成装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1至7中任一项所述的视频分类模型的生成方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7所述的视频分类模型的生成方法的步骤。

技术总结
本申请实施例了提供一种视频分类模型的生成方法和装置，所述方法包括：获取第一数据集、预设分类标签和基于CLIP的图像处理模型；通过所述基于CLIP的图像处理模型，根据所述预设分类标签对所述第一数据集中的每一个图像进行预分类，得到所述每一个图像对应的伪标签；根据所述每一个图像对应的伪标签从所述第一数据集中筛选得到第二数据集；根据所述第二数据集训练所述基于CLIP的图像处理模型，得到目标视频分类模型。通过在基于CLIP预训练模型的基础上，设计基于特定任务的文本Prompt，对少量图像数据集进行预分类，将预分类的结果作为伪标签重新训练模型，从而减少了训练模型时基于特定任务的模型训练所需要的人工标注的标签，减少构建数据集所需要的时间。

技术研发人员：李诗琪,蔡春磊
受保护的技术使用者：上海哔哩哔哩科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)