直播视频的重点标记方法、装置、设备及存储介质与流程

本发明涉及视频直播，尤其涉及一种直播视频的重点标记方法、装置、设备及存储介质。

背景技术：

1、随着互联网技术的快速发展，在线教育和直播平台越来越普及，尤其是在教育领域，在线直播课程已经成为了主流的教学方式之一。然而，在直播过程中，由于内容的丰富性和实时性，观看者往往难以集中注意力在所有内容上，尤其是在长时间的直播中，容易错过重要的知识点或关键事件。因此，如何帮助观看者更好地理解和回顾直播内容，成为了一个亟待解决的问题。

2、传统的录制方式往往是全程录制整场直播，无论是有用信息还是不必要的内容都会被一并录下。事后，如果用户需要回看特定内容，必须手动查找和标记，耗时耗力。而且，随着直播内容的不断增加，用户对快速获取关键信息的需求日益迫切。

3、综上所述，现有技术中存在的问题亟需得到解决。

技术实现思路

1、本发明提供一种直播视频的重点标记方法、装置、设备及存储介质，用以解决现有技术中的缺陷，实现自动识别和标记直播视频中的关键事件。

2、本发明提供一种直播视频的重点标记方法，包括：

3、获取直播视频的音频数据、视频数据和互动数据；

4、对所述音频数据、所述视频数据和所述互动数据进行特征提取，得到音频数据特征、视频数据特征和互动数据特征；

5、将所述音频数据特征、所述视频数据特征和所述互动数据特征进行特征融合，得到多模态融合特征；

6、将所述多模态融合特征输入至事件检测模型中，得到重点事件信息；

7、对所述重点事件信息进行重要性筛选，得到目标重点事件。

8、根据本发明提供的一种直播视频的重点标记方法，在所述获取直播视频的音频数据、视频数据和互动数据这一步骤之后，还包括：

9、对所述音频数据、所述视频数据和所述互动数据进行预处理，所述预处理包括去噪、对所述音频数据进行语音识别、对所述视频数据进行帧率调整、对所述互动数据进行数据统计。

10、根据本发明提供的一种直播视频的重点标记方法，音频数据包括主播音频数据和观众音频数据，视频数据包括主播视频数据和观众视频数据；

11、所述主播音频数据通过设置在主播终端的麦克风获取；

12、所述观众音频数据通过设置在观众终端的麦克风获取；

13、所述主播视频数据通过设置在主播终端的摄像头获取；

14、所述观众视频数据通过设置在观众终端的摄像头获取。

15、根据本发明提供的一种直播视频的重点标记方法，所述音频数据特征包括语音特征、情感特征和关键词特征，视频数据特征包括面部表情特征、肢体语言特征和场景特征，互动数据特征包括文本特征和行为特征。

16、根据本发明提供的一种直播视频的重点标记方法，所述将所述音频数据特征、所述视频数据特征和所述互动数据特征进行特征融合，得到多模态融合特征这一步骤，具体包括：

17、将所述音频数据特征、所述视频数据特征和所述互动数据特征进行时间戳对齐；

18、将对齐后的音频数据特征、视频数据特征和互动数据特征进行特征融合，得到多模态融合特征。

19、根据本发明提供的一种直播视频的重点标记方法，所述对所述重点事件信息进行重要性筛选，得到目标重点事件这一步骤，具体包括：

20、对所述重点事件信息进行聚类分析，得到候选重点事件；

21、对所述候选重点事件进行降维筛选，得到目标重点事件。

22、根据本发明提供的一种直播视频的重点标记方法，所述对所述重点事件信息进行重要性筛选，得到目标重点事件这一步骤，具体包括：

23、基于预设的特征权重对所述重点事件信息进行评分，得到所述重点事件信息对应的重要性评分；

24、当所述重要性评分大于预设阈值，则将对应的重点事件信息作为目标重点事件。

25、本发明还提供一种直播视频的重点标记装置，包括：

26、数据获取模块，用于获取直播视频的音频数据、视频数据和互动数据；

27、特征提取模块，用于对所述音频数据、所述视频数据和所述互动数据进行特征提取，得到音频数据特征、视频数据特征和互动数据特征；

28、特征融合模块，用于将所述音频数据特征、所述视频数据特征和所述互动数据特征进行特征融合，得到多模态融合特征；

29、事件检测模块，用于将所述多模态融合特征输入至事件检测模型中，得到重点事件信息；

30、事件筛选模块，用于对所述重点事件信息进行重要性筛选，得到目标重点事件。

31、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述直播视频的重点标记方法。

32、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述直播视频的重点标记方法。

33、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述直播视频的重点标记方法。

34、本发明提供的直播视频的重点标记方法、装置、设备及存储介质，通过获取直播视频的音频数据、视频数据和互动数据；对所述音频数据、所述视频数据和所述互动数据进行特征提取，得到音频数据特征、视频数据特征和互动数据特征；将所述音频数据特征、所述视频数据特征和所述互动数据特征进行特征融合，得到多模态融合特征；将所述多模态融合特征输入至事件检测模型中，得到重点事件信息；对所述重点事件信息进行重要性筛选，得到目标重点事件。本发明通过综合分析音频数据、视频数据和互动数据，多模态融合特征的使用能够更加全面地捕捉直播过程中不同维度的关键信息。这样可以更精准地识别出直播中的重点事件，提升事件检测的准确性和可靠性。

技术特征：

1.一种直播视频的重点标记方法，其特征在于，包括：

2.根据权利要求1所述的直播视频的重点标记方法，其特征在于，在所述获取直播视频的音频数据、视频数据和互动数据这一步骤之后，还包括：

3.根据权利要求1所述的直播视频的重点标记方法，其特征在于，音频数据包括主播音频数据和观众音频数据，视频数据包括主播视频数据和观众视频数据；

4.根据权利要求1所述的直播视频的重点标记方法，其特征在于，所述音频数据特征包括语音特征、情感特征和关键词特征，视频数据特征包括面部表情特征、肢体语言特征和场景特征，互动数据特征包括文本特征和行为特征。

5.根据权利要求1所述的直播视频的重点标记方法，其特征在于，所述将所述音频数据特征、所述视频数据特征和所述互动数据特征进行特征融合，得到多模态融合特征这一步骤，具体包括：

6.根据权利要求1所述的直播视频的重点标记方法，其特征在于，所述对所述重点事件信息进行重要性筛选，得到目标重点事件这一步骤，具体包括：

7.根据权利要求1所述的直播视频的重点标记方法，其特征在于，所述对所述重点事件信息进行重要性筛选，得到目标重点事件这一步骤，具体包括：

8.一种直播视频的重点标记装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述直播视频的重点标记方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述直播视频的重点标记方法。

技术总结
本发明提供的直播视频的重点标记方法、装置、设备及存储介质，通过获取直播视频的音频数据、视频数据和互动数据；对所述音频数据、所述视频数据和所述互动数据进行特征提取，得到音频数据特征、视频数据特征和互动数据特征；将所述音频数据特征、所述视频数据特征和所述互动数据特征进行特征融合，得到多模态融合特征；将所述多模态融合特征输入至事件检测模型中，得到重点事件信息；对所述重点事件信息进行重要性筛选，得到目标重点事件。本发明通过综合分析音频数据、视频数据和互动数据，多模态融合特征的使用能够更加全面地捕捉直播过程中不同维度的关键信息。这样可以更精准地识别出直播中的重点事件，提升事件检测的准确性和可靠性。

技术研发人员：詹楚伟,黄汉贵,张常华,阮胜林
受保护的技术使用者：广东保伦电子股份有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)