一种文本生成方法、装置及相关设备与流程

专利查询2天前 6

本公开涉及人工智能的，具体涉及一种文本生成方法、装置及相关设备。

背景技术：

1、对图像的内容识别是计算机视觉和自然语言处理领域的热点课题，例如：对漫画图像的漫画主题句的识别，其中，所述漫画主体句可理解为对漫画图像所表现内容的文本表达。

2、在相关技术中，由于对图像内容的挖掘程度不足，导致对图像进行内容识别而输出的识别文本的准确性较低。

技术实现思路

1、本公开的目的在于提供一种文本生成方法、装置及相关设备，用于解决相关技术在图像内容识别方面，所存在的识别文本准确性低的技术问题。

2、第一方面，本申请提供一种文本生成方法，所述方法包括：

3、对待预测图像进行编码，得到图像特征；

4、根据所述图像特征对关联所述待预测图像的非图像特征进行计算，得到第一注意力信息，以及根据所述非图像特征对所述图像特征进行计算，得到第二注意力信息，所述非图像特征用于表示所述待预测图像的上下文语境；

5、将所述第一注意力信息和所述第二注意力信息融合，得到目标注意力信息；

6、对所述目标注意力信息进行解码，得到预测文本，所述预测文本为用于描述所述待预测图像的图像内容的文本。

7、第二方面，本申请还提供一种文本生成装置，所述装置包括：

8、编码模块，用于对待预测图像进行编码，得到图像特征；

9、注意力计算模块，用于根据所述图像特征对关联所述待预测图像的非图像特征进行计算，得到第一注意力信息，以及根据所述非图像特征对所述图像特征进行计算，得到第二注意力信息，所述非图像特征用于表示所述待预测图像的上下文语境；

10、注意力融合模块，用于将所述第一注意力信息和所述第二注意力信息融合，得到目标注意力信息；

11、解码模块，用于对所述目标注意力信息进行解码，得到预测文本，所述预测文本为用于描述所述待预测图像的图像内容的文本。

12、第三方面，本申请提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。

13、第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

14、第五方面，本申请提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如第一方面所述的方法的步骤。

15、在本申请中，引入非图像特征，并通过分别计算图像特征对非图像特征的注意力信息，以及计算非图像特征对图像特征的注意力信息，完成图像特征和用于描述图像上下文语境的非图像特征的双向交互，来获得更加准确的注意力信息，据此进行解码，可使输出的预测文本更加贴合待预测图像的图像内容，也即使预测文本的准确性得到提升。

技术特征：

1.一种文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标注意力信息进行解码，得到预测文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像特征获取文本解码查询向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每个所述池化视觉特征的细节特征和语义特征，得到所述文本解码查询向量，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述条件视觉特征对所述目标注意力信息进行解码，得到预测文本，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述待预测图像为漫画图像，所述非图像特征包括如下至少一项：文本特征、音频特征。

7.一种文本生成装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。

10.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。

技术总结
本申请提供一种文本生成方法、装置及相关设备，涉及人工智能的技术领域，所述方法包括：对待预测图像进行编码，得到图像特征；根据所述图像特征对关联所述待预测图像的非图像特征进行计算，得到第一注意力信息，以及根据所述非图像特征对所述图像特征进行计算，得到第二注意力信息，所述非图像特征用于表示所述待预测图像的上下文语境；对所述第一注意力信息和所述第二注意力信息进行融合，得到目标注意力信息；对所述目标注意力信息进行解码，得到预测文本。本申请通过图像特征和用于描述图像上下文语境的非图像特征的双向交互，可获得更加准确的注意力信息，进而得以输出贴合待预测图像的图像内容的预测文本。

技术研发人员：赵玉申
受保护的技术使用者：咪咕文化科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)