视频生成方法、装置、电子设备以及存储介质与流程

本申请涉及视频处理，尤其涉及一种视频生成方法、装置、电子设备以及存储介质。

背景技术：

1、在当前的互联网环境中，短视频的重要性日益显现。首先，短视频大大丰富了互联网内容消费的形式。由于其时长短、精炼有趣，短视频满足了用户碎片化时间的消费需求，获得了广泛的用户基础。视频裂变是一种创建网络热门短视频的策略，可以通过创建高质量的热门的视频内容，鼓励观众分享这些短视频，从而实现视频内容的快速传播。这种策略可以有效地增加品牌曝光度和用户参与度。

2、相关技术中，视频裂变通常采用人工剪辑视频的方式对原有的视频内容进行进一步创作，但是这种方式过程繁琐，效率低。因此，亟需一种效率更高，更具个性化的视频裂变的方法，生成满足用户更多需求的视频。

技术实现思路

1、为解决或部分解决相关技术中存在的问题，本申请提供一种视频生成方法、装置、电子设备以及存储介质，能够通过一系列自动化步骤，高效地生成与原视频不同解说风格、不同音色解说声音的视频变种，以满足用户多样化的内容创作需求。

2、本申请第一方面提供一种视频生成方法，包括：

3、获取目标视频；

4、提取所述目标视频的原视频帧和原字幕文本；

5、基于所述原字幕文本通过预设模型生成新字幕文本，根据所述新字幕文本生成解说音频；

6、将所述新字幕文本添加至所述原视频帧中，生成新视频帧；

7、基于所述新字幕文本、所述解说音频和所述新视频帧生成新视频。

8、优选的，所述提取所述目标视频的原视频帧和原字幕文本包括：

9、采用预设视频提取工具提取所述目标视频的原始音频和所述原视频帧；

10、根据所述原始音频或所述原视频帧生成所述原字幕文本。

11、优选的，所述根据所述音频或所述原视频帧生成所述原字幕文本包括：

12、判断所述目标视频是否存在字幕；

13、若存在字幕，则判断字幕的类型，根据字幕的类型基于所述原视频帧采用对应的方法提取所述原字幕文本；

14、若不存在字幕，则识别所述原始音频生成所述原字幕文本。

15、优选的，所述根据所述新字幕文本生成解说音频包括：

16、设置音色特征和发音习惯；根据所述音色特征、所述发音习惯以及所述新字幕文本生成所述解说音频。

17、优选的，所述将所述新字幕文本添加至所述原视频帧中，生成新视频帧包括：

18、确定所述原视频帧中的目标区域；

19、对所述目标区域进行高斯模糊处理；

20、将所述新字幕文件添加至所述目标区域，生成所述新视频帧。

21、优选的，所述基于所述新字幕文本、所述解说音频和所述新视频帧生成新视频包括：

22、将所述新字幕文本分割成字幕片段；

23、基于所述解说音频的音量确定停顿位置；

24、基于所述停顿位置确定对应的字幕片段，合成所述字幕片段、所述解说音频和所述新视频帧，生成所述新视频。

25、优选的，所述方法还包括：

26、获取用户输入的视频特效，所述视频特效包括：滤镜、转场、背景音乐、声效中的至少一种；

27、将所述视频特效添加至所述新视频中。

28、本申请第二方面提供一种视频生成装置，包括：

29、获取模块，用于获取目标视频；

30、提取模块，用于提取所述目标视频的原视频帧和原字幕文本；

31、视频帧模块，用于将所述新字幕文本添加至所述原视频帧中，生成新视频帧；

32、视频模块，用于基于所述新字幕文本、所述解说音频和所述新视频帧生成新视频。

33、优选的，提取模块包括：

34、提取子模块，用于采用预设视频提取工具提取所述目标视频的原始音频和所述原视频帧；

35、文本子模块，用于根据所述原始音频或所述原视频帧生成所述原字幕文本。

36、优选的，文本子模块包括：

37、第一判断单元，用于判断所述目标视频是否存在字幕；

38、第二判断单元，用于若存在字幕，则判断字幕的类型，根据字幕的类型基于所述原视频帧采用对应的方法提取所述原字幕文本；

39、识别单元，用于若不存在字幕，则识别所述原始音频生成所述原字幕文本。

40、优选的，字幕文本模块还包括：

41、设置子模块，用于设置音色特征和发音习惯；

42、音频子模块，用于根据所述音色特征、所述发音习惯以及所述新字幕文本生成所述解说音频。

43、优选的，视频帧模块包括：

44、区域子模块，用于确定所述原视频帧中的目标区域；

45、模糊子模块，用于对所述目标区域进行高斯模糊处理；

46、视频帧子模块，用于将所述新字幕文件添加至所述目标区域，生成所述新视频帧。

47、优选的，视频模块包括：

48、分割子模块，用于将所述新字幕文本分割成字幕片段；

49、确定子模块，用于基于所述解说音频的音量确定停顿位置；

50、合成子模块，用于基于所述停顿位置确定对应的字幕片段，合成所述字幕片段、所述解说音频和所述新视频帧，生成所述新视频。

51、优选的，所述装置还包括：

52、视频特效模块，用于获取用户输入的视频特效，所述视频特效包括：滤镜、转场、背景音乐、声效中的至少一种；

53、添加模块，用于将所述视频特效添加至所述新视频中。

54、本申请第三方面提供一种电子设备，包括：

55、处理器；以及

56、存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

57、本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

58、本申请提供的技术方案可以包括以下有益效果：通过获取目标视频，提取所述目标视频的原视频帧和原字幕文本，基于所述原字幕文本通过预设模型生成新字幕文本，根据所述新字幕文本生成解说音频，将所述新字幕文本添加至所述原视频帧中，生成新视频帧，基于所述新字幕文本、所述解说音频和所述新视频帧生成新视频，从而能够通过一系列自动化步骤，高效地生成与原视频不同解说风格、不同音色解说声音的视频变种，以满足用户多样化的内容创作需求。

59、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

技术特征：

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取所述目标视频的原视频帧和原字幕文本包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述音频或所述原视频帧生成所述原字幕文本包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述新字幕文本生成解说音频包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述新字幕文本添加至所述原视频帧中，生成新视频帧包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述新字幕文本、所述解说音频和所述新视频帧生成新视频包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种视频生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

技术总结
本申请涉及一种视频生成方法、装置、电子设备以及存储介质。该方法包括：获取目标视频，提取所述目标视频的原视频帧和原字幕文本，基于所述原字幕文本通过预设模型生成新字幕文本，根据所述新字幕文本生成解说音频，将所述新字幕文本添加至所述原视频帧中，生成新视频帧，基于所述新字幕文本、所述解说音频和所述新视频帧生成新视频。本申请提供的方案，能够通过一系列自动化步骤，高效地生成与原视频不同解说风格、不同音色解说声音的视频变种，以满足用户多样化的内容创作需求。

技术研发人员：黄江南,刘建平,傅优生
受保护的技术使用者：广州星壹网络科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)