一种虚拟对象的处理方法、装置和介质与流程

1.本发明实施例涉及通信技术领域，特别是涉及一种虚拟对象的处理方法、装置和介质。

背景技术：

2.随着通信技术的发展，虚拟对象可被广泛应用于播报场景、教学场景、医疗场景、客服场景等场景。以客服场景为例，虚拟对象可以充当虚拟客服的角色，代替人工客服提供客服服务。在这些应用场景中，虚拟对象通常需要对文本进行表达，相应地，可以生成并播放虚拟对象对应的第一视频，该第一视频可以表征虚拟对象表达文本的过程。第一视频的生成过程通常包括：语音生成环节和图像序列生成环节，其中，语音生成环节通常采用语音合成技术，图像序列生成环节通常采用图像处理技术。
3.目前，在虚拟客服不能解决问题的情况下，需要人工客服接入。此种情况下，可以采用摄像头采集人工客服对应的视频。
4.发明人在实施本发明实施例的过程中发现，目前从虚拟客服到人工客服的切换较为生硬，影响了用户体验。

技术实现要素：

5.如何提高模式切换的流畅性，是本领域技术人员需要解决的技术问题。鉴于上述问题，本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的虚拟对象的处理方法、装置和介质。
6.为了解决上述问题，本发明实施例公开了一种虚拟对象的处理方法，包括：
7.获取第一目标对象的第一语音；
8.将所述第一语音转换为目标音色对应的第二语音；所述目标音色与第一模式相应；
9.根据所述第一语音，确定动作特征，并根据所述动作特征，确定虚拟对象对应的图像序列；
10.根据所述第二语音和所述图像序列，确定虚拟对象对应的视频。
11.另一方面，本发明实施例公开了一种虚拟对象的处理装置，包括：
12.语音获取模块，用于获取第一目标对象的第一语音；
13.语音转换模块，用于将所述第一语音转换为目标音色对应的第二语音；所述目标音色与第一模式相应；
14.图像处理模块，用于根据所述第一语音，确定动作特征，并根据所述动作特征，确定虚拟对象对应的图像序列；
15.视频确定模块，用于根据所述第二语音和所述图像序列，确定虚拟对象对应的视频。
16.再一方面，本发明实施例公开了一种用于虚拟对象的处理的装置，包括有存储器，
以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现前述方法的步骤。
17.又一方面，本发明实施例公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的方法。
18.又一方面，本发明实施例公开了一种计算机程序产品，所述计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的计算机设备执行前述的方法。
19.本发明实施例包括以下优点：
20.本发明实施例根据第一目标对象的第一语音，生成虚拟对象对应的视频。对于第一目标对象而言，可以使用麦克风采集第一语音，可以不使用摄像头，因此能够提升第一目标对象侧的便利性。
21.并且，虚拟对象对应的视频中的图像序列与虚拟对象相应，这样，虚拟对象对应的视频展现了虚拟对象的形象，这与第一模式对应的视频展现的形象是相匹配的。
22.此外，虚拟对象对应的视频中的第二语音采用了目标音色，而目标音色也是第一模式采用的音色，因此，本发明实施例能够实现虚拟对象对应的视频与第一模式对应的视频在声音方面的匹配性。
23.综上，本发明实施例在第一模式和第二模式下，展现的形象和声音是相同的。在从第一模式到第二模式的转换过程中，展现的形象和声音是不变的，形象和声音的不变性，能够提高模式切换的流畅性，降低模式切换对于用户的影响，因此能够提升用户体验。
附图说明
24.图1是本发明实施例的一种虚拟对象的处理方法的步骤流程图；
25.图2是本发明一个示例性实施例提供的语音转换过程的示意图；
26.图3是本发明实施例的一种虚拟对象的处理装置的结构框图；
27.图4是本发明的一种用于虚拟对象的处理的装置的结构框图；及
28.图5是本发明的一些实施例中服务端的结构框图。
具体实施方式
29.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
30.本发明实施例中，虚拟对象是通过对象建模、动作捕捉等技术得到的一种生动自然的、与真实对象接近的虚拟对象，通过语音识别、自然语言理解等人工智能技术，能够使得虚拟对象具备认知、或者理解、或者表达等能力。虚拟对象具体包括：虚拟人物、或虚拟动物、或二维卡通对象、或三维卡通对象等。例如，在客服场景下，虚拟对象可以充当虚拟客服的角色，代替人工客服提供客服服务。
31.在具体实现中，虚拟对象可以对文本进行表达。而本发明实施例可以生成文本和虚拟对象对应的第一视频。该视频具体可以包括：文本对应的语音序列、以及语音序列对应的视频帧序列。
32.在客服场景下，工作模式可以包括：第一模式和第二模式，第一模式可以没有客服
人员的参与，第二模式需要客服人员的参与。
33.传统技术中，在第一模式下播放文本和虚拟对象对应的第一视频；在第二模式下，播放经由摄像头采集的视频。上述第一视频和经由摄像头采集的视频之间的区别，使得从虚拟客服到人工客服的切换较为生硬。
34.针对如何提高模式切换的流畅性的技术问题，本发明实施例提供了一种虚拟对象的处理方案，该方案具体包括：获取第一目标对象的第一语音；将该第一语音转换为目标音色对应的第二语音；该目标音色与第一模式相应；根据该第一语音，确定动作特征，并根据该动作特征，确定虚拟对象对应的图像序列；根据该第二语音和该图像序列，确定虚拟对象对应的视频。
35.本发明实施例中，第一目标对象可以为第二模式下的参与对象。第一目标对象可以为第一用户。例如，在客服场景下，第一目标对象可以为客服人员。
36.本发明实施例根据第一目标对象的第一语音，生成虚拟对象对应的视频。对于第一目标对象而言，可以使用麦克风采集第一语音，可以不使用摄像头，因此能够提升第一目标对象侧的便利性。
37.并且，虚拟对象对应的视频中的图像序列与虚拟对象相应，这样，虚拟对象对应的视频展现了虚拟对象的形象，这与第一模式对应的视频展现的形象是相匹配的。
38.此外，虚拟对象对应的视频中的第二语音采用了目标音色，而目标音色也是第一模式采用的音色，因此，本发明实施例能够实现虚拟对象对应的视频与第一模式对应的视频在声音方面的匹配性。
39.综上，本发明实施例在第一模式和第二模式下，展现的形象和声音是相同的。在从第一模式到第二模式的转换过程中，展现的形象和声音是不变的，形象和声音的不变性，能够提高模式切换的流畅性，降低模式切换对于用户的影响，因此能够提升用户体验。
40.本发明实施例提供的虚拟对象的处理方法可应用于客户端和服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。
41.可选地，客户端可以运行在终端上，上述终端具体包括但不限：智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准音频层面3，moving picture experts group audio layer iii)播放器、mp4(动态影像专家压缩标准音频层面4，moving picture experts group audio layer iv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
42.客户端是指与服务端相对应，为用户提供本地服务的程序。客户端可以为播报场景、教学场景、医疗场景、客服场景等应用场景下的程序。本发明实施例中的客户端可以提供虚拟对象对应的视频(以下简称第二视频)。该第二视频可由客户端或服务端生成，本发明实施例对于第二视频的具体生成主体不加以限制。
43.本发明实施例可以应用于第二目标对象与虚拟对象对应的对话场景，第二目标对象可以为第二模式下的参与对象，第二目标对象可以为第二用户。在该对话场景中，虚拟对象对应的视频可由文本驱动或第一目标对象的第一语音驱动。例如，在第一模式下，虚拟对象对应的第一视频可由文本驱动。又如，在第二模式下，虚拟对象对应的视频可由第一语音驱动。
44.在应用于客服场景的情况下，第二目标对象可以发送问题。虚拟对象对应的视频可用于对问题进行回复。
45.在第一模式下，可以利用数据库查询的方式，确定问题对应的答案文本，并利用答案文本驱动的方式，生成对应的第一视频。
46.在具体实现中，可以通过数据库保存预置问题及其对应的答案。进一步，可以依据问题对应的第一表示向量与预置问题对应的第二表示向量之间的匹配度，确定目标预置问题，进而依据所述目标预置问题对应的答案，确定问题对应的答案。由于目标预置问题为已有问题，其对应的答案往往具有合理性和有效性，且目标预置问题与问题相匹配，因此可以将目标预置问题对应的答案，作为问题对应的答案的确定依据，进而可以提高问题对应的答案的准确度。
47.第一模式对应第一视频的生成过程通常包括：语音生成环节和图像序列生成环节。其中，语音生成环节通常采用语音合成技术，将问题对应的答案文本，转换为语音；图像序列生成环节通常采用图像处理技术，确定答案文本对应的动作特征，并根据该动作特征，确定虚拟对象对应的图像序列。对语音与图像序列进行融合，可以得到第一视频。
48.在第二模式下，可由第一目标对象在第一语音中携带问题对应的答案，并利用第一语音驱动的方式，生成对应的第二视频。第二视频的生成过程可以参照图1所示方法实施例。
49.方法实施例一
50.参照图1，示出了本发明实施例的一种虚拟对象的处理方法的步骤流程图，具体可以包括如下步骤：
51.步骤101、获取第一目标对象的第一语音；
52.步骤102、将该第一语音转换为目标音色对应的第二语音；该目标音色与第一模式相应；
53.步骤103、根据该第一语音，确定动作特征，并根据该动作特征，确定虚拟对象对应的图像序列；
54.步骤104、根据该第二语音和该图像序列，确定虚拟对象对应的视频。
55.图1所示实施例的至少一个步骤可由服务端或客户端执行，当然本发明实施例对于各个步骤的具体执行主体不加以限制。
56.本发明实施例可以应用于第二目标对象与虚拟对象对应的对话场景。该对话场景的工作模式可以包括：第一模式或第二模式。第一模式与第二模式的区别包括：驱动方式的不同和语音来源的不同。其中，第一模式由文本驱动，第二模式由第一语音驱动；第一模式的语音来源于文本，而第二模式的语音可以包括：第一目标对象的第一语音。
57.在一种实现方式中，可以在需要将第一模式切换为第二模式的情况下，执行本发明实施例的方法。将第一模式切换为第二模式的确定方式可以为：第二目标对象发送的信息符合预设回复条件。预设回复条件可以表征无法对第二目标对象发送的信息进行自动回复，需要借助人工对第二目标对象发送的信息进行回复。
58.在另一种实现方式中，可以在第二目标对象的对象等级符合预设等级条件的情况下，执行本发明实施例的方法。例如，在第二目标对象的对象等级为预设对象等级(如vip(贵宾，very important person)等级)的情况下，可以执行本发明实施例的方法。
59.可以理解，上述在第二目标对象发送的信息符合预设回复条件的情况下、或者在第二目标对象的对象等级符合预设等级条件的情况下，执行本发明实施例的方法，只是作为可选实施例，实际上本发明实施例对于具体的执行条件不加以限制。
60.步骤101中，第一目标对象可以为第二模式下的参与对象。例如，在客服场景下，第一目标对象可以为客服人员。
61.在需要第一目标对象接入对话的情况下，第一目标对象可以发出第一语音，该第一语音用于对第二目标对象发送的信息进行回复。例如，在客服场景下，该第一语音用于对第二目标对象发送的问题进行回复。
62.在实际应用中，可以利用麦克风等声音采集装置，采集第一目标对象的第一语音。可以理解，本发明实施例对于第一语音的具体获取方式不加以限制。
63.在本发明的一种可选实现方式中，在对话场景下，可以根据对话内容，确定关键内容，并向第一目标对象提供该关键内容，以使第一目标对象根据该关键内容得到所述第一语音。这样，可以在节省第二目标对象的重复提问的情况下，快速对第二目标对象的信息进行回复，也即，能够提高信息回复效率。
64.在具体实现中，可以利用nlp(自然语言处理，natural language processing)技术，从对话内容中提取关键内容。nlp技术可以包括：深度学习技术、或者句法结构分析技术等。可以理解。本技术实施例对于从对话内容中提取关键内容的具体过程不加以限制。
65.步骤102中，可以利用语音转换技术，将该第一语音转换为目标音色对应的第二语音。其中，该目标音色与第一模式相应，也即，该目标音色可以为第一模式采用的音色。将该第一语音转换为目标音色对应的第二语音，能够使得第一模式和第二模式采用相同的音色，实现虚拟对象在第二模式下对应的视频与第一模式对应的视频在声音方面的匹配性。
66.语音转换技术，可用于在保持语义内容不变的情况下，将源语音转换为目标语音，其中，源语音为第一人声发出的语音，目标语音为第二人声发出的语音。具体到本发明实施例，源语音可以为第一语音，目标语音可以为第二语音；第一人声可以为第一目标对象的声音，第二人声可以为目标音色。
67.将该第一语音转换为目标音色对应的第二语音的过程，将在方法实施例二进行介绍。
68.步骤103中，动作特征可用于表征虚拟对象对应的动作。
69.本发明实施例的视频可以包括：语音部分和图像部分。其中，图像部分对应的图像序列可以在虚拟对象图像的基础上得到，换言之，本发明实施例可以为虚拟对象图像赋予动作特征，以得到图像序列。虚拟对象图像可由目标对象指定，例如，虚拟对象图像可以为知名人物(例如主持人)的图像。
70.上述动作特征可以包括如下特征中的至少一种：
71.表情特征；
72.唇部特征；以及
73.肢体特征。
74.表情，表达感情、情意，可以指表现在面部的思想感情。表情特征通常是针对整个面部的。唇部特征可以专门针对唇部，而且跟文本的文本内容、或语音、或发音方式等都有关系，因此可以提高图像序列所对应表达的自然度。
75.肢体特征可以通过头、眼、颈、手、肘、臂、身、胯、足等人体部位的协调活动来传达人物的思想，形象地借以表情达意。肢体特征可以包括：转头、耸肩、手势等，可以提高图像序列所对应表达的丰富度。例如，说话时至少一个手臂自然下垂，不说话时至少一个手臂自然放在腹部等。
76.本发明实施例可以基于第一语音的分析，确定动作特征。例如，可以基于第一语音的分析，得到语义特征和/或音素特征；并根据语义特征和/或音素特征与动作特征之间的映射关系，确定动作特征。
77.音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素可以包括：元音与辅音。在实际应用中，特定的音素特征对应特定的唇部特征、表情特征或者肢体特征等。
78.在实际应用中，可以基于训练数据对机器学习模型进行训练，以使机器学习模型表征语义特征和/或音素特征与动作特征之间的映射关系。
79.本发明实施例中，由于虚拟对象对应的图像序列为根据第一语音对应的动作特征得到，这样可以提高视频中图像部分与语音部分之间的匹配度。以动作特征为唇部特征为例，本发明实施例能够提高图像部分中唇部特征与语音部分之间的匹配度，这样能够提高虚拟对象的自然度。
80.步骤104中，可以对第二语音与图像序列进行融合，以得到虚拟对象在第二模式下对应的第二视频。在实际应用中，可以向第二目标对象提供该第二视频，以实现对话过程中的交互。
81.在实际应用中，还可以从第二模式切换到第一模式，此种情况下，第一目标对象可以退出对话，例如可以停止输出第一语音。
82.综上，本发明实施例的虚拟对象的处理方法，根据第一目标对象的第一语音，生成虚拟对象对应的视频。对于第一目标对象而言，可以使用麦克风采集第一语音，可以不使用摄像头，因此能够提升第一目标对象侧的便利性。
83.并且，虚拟对象对应的视频中的图像序列与虚拟对象相应，这样，虚拟对象对应的视频展现了虚拟对象的形象，这与第一模式对应的视频展现的形象是相匹配的。
84.此外，虚拟对象对应的视频中的第二语音采用了目标音色，而目标音色也是第一模式采用的音色，因此，本发明实施例能够实现虚拟对象对应的视频与第一模式对应的视频在声音方面的匹配性。
85.综上，本发明实施例在第一模式和第二模式下，展现的形象和声音是相同的。在从第一模式到第二模式的转换过程中，展现的形象和声音是不变的，形象和声音的不变性，能够提高模式切换的流畅性，降低模式切换对于用户的影响，因此能够提升用户体验。
86.方法实施例二
87.本实施例对语音转换系统将该第一语音转换为目标音色对应的第二语音的过程进行说明。
88.语音转换系统，可用于在保持语义内容不变的情况下，将源语音转换为目标语音。语音转换系统可以包括：语音识别模型和语音转换模型，其中，语音识别模型可用于对源语音进行语音识别，语音转换模型可用于根据语音识别模型输出的语音识别结果，确定源语音和第二人声对应的目标声学特征。
89.语音识别模型和语音转换模型的训练，可以单独进行，或者合并进行。
90.图2是本发明一个示例性实施例提供的语音转换过程的示意图，如图2所示，该转换过程具体包括：第一训练阶段、第二训练阶段以及转换阶段。
91.其中，在第一训练阶段中，利用语音识别语料，训练得到一个说话人无关(speaker independent，si)的语音识别模型201。
92.在第二训练阶段中，利用训练后的语音识别模型201对训练数据进行语音识别，并利用语音识别结果对语音转换模型202进行训练，语音转换模型202的学习目标和输出可以包括：目标声学特征，该目标声学特征可以包括：梅尔倒谱系数(mcc，melcepstral coefficients)、基频(f0，fundamental frequency)和非周期分量(aperiodic component，ap)等频谱特征中的至少一种。
93.在转换阶段，通过语音识别模型201确定源语音的语音识别结果，将该语音识别结果输入语音转换模型202，由语音转换模型202输出mcc、f0和ap等目标声学特征，将该目标声学特征输入声码器203后生成与该源语音语义对应的目标语音。
94.在实际应用中，语音识别结果中通常包括源语音的相关信息，如语气信息、音调信息、文本信息和音色信息等信息，传统技术的语音转换模型202一律保留这些相关信息，并根据这些相关信息得到目标声学特征，这将导致转换后的目标语音中带有第一人声的音色信息，进而影响目标语音的音色与第二人声的音色之间的相似度，使得语音转换的效果较差。
95.针对传统技术中语音转换的效果较差的技术问题，本发明实施例提供了一种语音转换模型的训练方法，该方法具体包括：确定第一训练数据；上述第一训练数据包括：n(n可以为大于1的自然数)个训练样本；根据上述n个训练样本，对上述语音转换模型进行训练；上述对上述语音转换模型进行训练，具体包括：从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息。
96.本发明实施例在语音转换模型的训练过程中，从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息，这样，本发明实施例的经过滤除后的处理结果中可以不包含源语音说话人的音色信息。在此基础上，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。
97.在实际应用中，训练样本可以包括：源语音说话人的语音。通常，一个源语音说话人可以对应一个训练样本，当然，一个源语音说话人可以对应多个训练样本。
98.本发明实施例对于第一训练数据对应源语音说话人的数量m(m可以为自然数)不加以限制。例如，在m的数值较大的情况下，可以使语音转换模型掌握更多源语音说话人的共性特征，进而能够提升语音转换模型对于源语音说话人的音色信息的滤除能力。当然，在m的数值较小的情况下，语音转换模型也可以掌握源语音说话人的共性特征。因此，本发明实施例对于m的具体数值不加以限制。
99.为了滤除上述训练样本对应的音色信息，语音转换模型的训练过程可以包括：
100.预先训练包括对训练样本对应的语音识别结果进行特征提取，根据至少部分所述特征提取结果，进行说话人预测；
101.确定所述说话人预测的结果与预置说话人标识之间的误差；
102.在反向传播过程中，根据所述误差对所述特征提取的参数进行更新。
103.在具体实现中，可以对训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行训练样本对应的说话人预测，并基于说话人预测的结果的处理，对语音转换模型的说话人预测能力进行混淆，增加说话人预测难度。这样，可以控制特征提取朝着区分说话人的反方向更新，对n个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略；从而使语音转换模型的特征提取环节具备源语音说话人的音色信息的滤除能力。
104.根据误差的不同情况，本发明实施例可以提供滤除上述训练样本对应的音色信息的如下技术方案：
105.技术方案1中，滤除上述训练样本对应的音色信息，具体包括：对训练样本对应的语音识别结果进行特征提取；根据至少部分的特征提取结果，进行训练样本对应的说话人预测；确定说话人预测的结果与预置说话人标识之间的第一误差，以在反向传播过程中，根据所述第一误差对所述特征提取的参数进行更新；其中，所述n(n可以为自然数)个训练样本对应相同的预置说话人标识。
106.预置说话人标识可以作为说话人预测的预测目标。由于n个训练样本对应相同的预测目标，故该相同的预测目标向特征提取环节传达如下信息：n个训练样本对应相同的说话人，这将使得特征提取环节在反向传播过程中，基于第一误差、对n个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略。因此，本发明实施例能够使得特征提取环节具备源语音说话人的音色信息的滤除能力。
107.本发明实施例的语音转换模型和特征提取环节，可以采用神经网络的结构。
108.前向传播(forward propagation)与反向传播(back propagation)是神经网络中的概念，其用于模拟人脑中神经元的正向传导和反向反馈信号回路。其中，前向传播对输入信号进行处理，并产生第一误差；反向传播根据第一误差更新神经网络的参数，该参数可以包括但不限于：权重矩阵。
109.特征提取环节对训练样本对应的语音识别结果进行特征提取，能够提取语音识别结果中包含的信息。
110.上述特征提取环节对所述训练样本对应的语音识别结果进行特征提取，所采用的特征提取方式具体包括如下中的任一或组合：
111.特征提取方式1、对所述训练样本对应的语音识别结果进行特征提取处理，以得到第一特征；
112.特征提取方式2、对所述训练样本对应的语音识别结果进行离散处理和特征提取处理，以得到第二特征；
113.特征提取方式3、针对所述训练样本对应的预设说话人，确定对应的第三特征。
114.在实际应用中，训练样本对应的语音识别结果可由语音识别模型提供。语音识别结果可以包含：训练样本对应的与发音和文本相关的信息。
115.在实际应用中，语音识别结果可以包括但不限于：音素后验概率(ppgs，phonetic posterior grams)。ppgs可以对应于说话人的发音，并且对应于说话人的说话内容(文本)。
116.例如ppgs的语音识别结果通常包括：连续信息。由于训练样本对应的源语音样本
通常包括：连续的多个语音帧，故语音识别结果包含的连续信息通常与连续的多个语音帧相应。例如，ppgs可以表征一句话中第i(i可以为大于0的自然数)个语音帧的音素后验概率。
117.特征提取方式1可以对语音识别结果包含的连续信息进行特征提取处理，得到的第一特征也可以与连续的多个语音帧相应。在具体实现中，每个第i帧均可以对应有第一特征。
118.特征提取方式2对语音识别结果进行离散处理后，再进行特征提取处理，得到的第二特征可以与文本特征等离散信息相应。
119.特征提取方式3针对所述训练样本对应的预设说话人，确定对应的第三特征，该第三特征可以包含训练样本对应说话人的信息，如训练样本对应说话人的音色信息。训练样本对应的预设说话人可以包括：源语音说话人。当然，预设说话人还可以不同于源语音说话人，例如，预设说话人可以为待转换的目标说话人。目标说话人可以对应目标语音对应的第二人声。目标说话人可由用户或系统指定，例如，目标说话人可以为新闻播报人或明星等。
120.在具体实现中，可以对第一特征、第二特征和第三特征进行融合，并将得到的融合特征输出给下一级单元。
121.根据至少部分的特征提取结果，进行说话人预测，得到的说话人预测的结果可以包括：训练样本对应说话人的预测标识。在实际应用中，可以利用说话人识别技术，进行说话人预测，本发明实施例对于具体的说话人预测过程不加以限制。
122.在具体实现中，可以根据一个训练样本在预设帧的特征提取结果，进行说话人预测。预设帧可由本领域技术人员根据实际应用需求确定，例如，预设帧可以为包含的信息量符合预设条件的语音帧。
123.在本发明的一种实施方式中，特征提取环节可以采用：长短期记忆网络(lstm，long short-term memory)的结构。
124.在训练过程中，可以将语音识别结果逐帧输入lstm，由lstm输出第i个语音帧对应的特征提取结果。由于lstm具备记忆功能，在处理第i个语音帧的情况下，其会记忆第i个语音帧之前的语音帧的信息，故最后一个语音帧对应的特征提取结果会包括：之前语音帧的信息，因此，预设帧可以为：最后一个语音帧，此种情况下，根据最后一个语音帧对应的特征提取结果，进行说话人预测，能够利用尽可能多的信息进行说话人预测，因此能够提高说话人预测的准确度。当然，本发明实施例对于具体的预设帧不加以限制，例如，预设帧还可以为倒数第二个语音帧等。
125.本发明实施例可以利用例如交叉熵损失函数的损失参数，确定说话人预测的结果与预置说话人标识之间的第一误差，当然，本发明实施例对于第一误差的具体确定方式不加以限制。
126.本发明实施例的预测目标可以为预置说话人标识，n个训练样本对应相同的预置说话人标识，这样，可以向特征提取环节传达如下信息：n个训练样本对应相同的说话人，这将使得特征提取环节在反向传播过程中，基于第一误差、对n个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略。
127.综上，技术方案1在语音转换模型的训练过程中，根据至少部分的特征提取结果，
进行说话人预测，并确定说话人预测的结果与预测目标之间的第一误差，以在反向传播过程中，根据上述第一误差对上述特征提取的参数进行更新。
128.由于n个训练样本对应相同的预测目标，故该相同的预测目标向特征提取环节传达如下信息：n个训练样本对应相同的说话人，这将使得特征提取环节在反向传播过程中，基于第一误差、对n个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略；因此，本发明实施例能够使得特征提取环节具备源语音说话人的音色信息的滤除能力，换言之，本发明实施例的特征提取环节输出的特征提取结果中可以不包含源语音说话人的音色信息。在此基础上，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。
129.技术方案2
130.技术方案2中，滤除上述训练样本对应的音色信息，具体包括：对所述训练样本对应的语音识别结果进行特征提取；根据至少部分的特征提取结果，进行所述训练样本对应的说话人预测；确定说话人预测的结果与所述训练样本对应实际说话人标识之间的第二误差；对所述第二误差进行梯度反转，以在反向传播过程中，根据反转误差对所述特征提取的参数进行更新。
131.进行梯度反转的方式可以是调用梯度反转函数。梯度反转的作用是将反向传播的第二误差取反，使得梯度反转函数前后的训练目标相反，实现对抗的效果。具体到本发明实施例，第二误差的梯度反转，可以控制特征提取环节朝着区分说话人的反方向更新，对n个训练样本所对应的源语音说话人在语音识别结果中的共性特征进行学习，而语音识别结果中包含的非共性信息(如源语音说话人的音色信息)将会被特征提取环节忽略；从而使语音转换模型的特征提取环节具备源语音说话人的音色信息的滤除能力。
132.综上，本发明实施例的语音转换模型的训练方法，会从上述训练样本对应的语音识别结果中，滤除上述训练样本对应的音色信息，这样，本发明实施例的经过滤除后的处理结果中可以不包含源语音说话人的音色信息。在此基础上，本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度，进而能够提高语音转换的效果。
133.在对语音转换模型进行训练后，可以利用训练后的语音转换模型，将所述第一语音转换为目标音色对应的第二语音，对应的转换过程具体包括：
134.利用语音转换模型，对第一语音进行语音转换；所述语音转换模型包括：特征提取单元；
135.上述对第一语音进行语音转换，具体包括：
136.利用所述特征提取单元，对所述第一语音对应的语音识别结果进行特征提取，以根据得到的特征提取结果，确定所述第一语音和目标音色对应的目标声学特征和目标语音。
137.本发明实施例基于训练样本的训练，使得语音转换模型具备源语音说话人的音色信息的滤除能力。
138.语音转换模型的预先训练过程可以包括：
139.对训练样本对应的语音识别结果进行特征提取，根据至少部分所述特征提取结果，进行说话人预测；
140.确定所述说话人预测的结果与预置说话人标识之间的误差；
141.在反向传播过程中，根据所述误差对所述特征提取的参数进行更新。
142.根据一种实施方式，在所述语音转换模型的训练过程中，对训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行说话人预测，并确定说话人预测的结果与预置说话人标识之间的第一误差，以在反向传播过程中，根据所述第一误差对所述特征提取的参数进行更新；其中，所述语音转换模型对应的n个训练样本对应相同的预置说话人标识。
143.根据另一种实施方式，在所述语音转换模型的训练过程中，对所述训练样本对应的语音识别结果进行特征提取，根据至少部分的特征提取结果，进行所述训练样本对应的说话人预测，确定说话人预测的结果与所述训练样本对应实际说话人标识之间的第二误差，对所述第二误差进行梯度反转，以在反向传播过程中，根据反转误差对所述特征提取的参数进行更新。
144.在具体实现中，所述说话人预测的依据可以包括：一个训练样本在预设帧的特征提取结果。例如，预设帧可以为：训练样本对应的最后一个语音帧。
145.在实际应用中，语音转换模型可以从语音识别模型接收源语音对应的语音识别结果，对语音识别结果进行特征提取，并向下一级单元输出得到的特征提取结果。
146.在一种实施方式中，语音转换模型具体包括：编码器、解码器和声码器，特征提取环节设置于编码器中。其中，编码器可以向解码器输出特征提取结果也即处理结果，解码器可以根据特征提取结果，确定上述源语音和第二人声对应的目标声学特征，声码器可以根据目标声学特征，合成得到目标语音。
147.综上，由于语音转换模型中具备源语音说话人的音色信息的滤除能力，故在对第一语音进行语音转换的过程中，对上述第一语音对应的语音识别结果进行特征提取，得到的特征提取结果中可以不包含第一语音说话人(第一目标对象)的音色信息，因此，本发明实施例能够提高第二语音的音色与目标音色的音色之间的相似度，进而能够提高语音转换的效果。
148.需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。
149.装置实施例
150.参照图3，示出了本发明的一种虚拟对象的处理装置实施例的结构框图，具体可以包括：
151.语音获取模块301，用于获取第一目标对象的第一语音；
152.语音转换模块302，用于将所述第一语音转换为目标音色对应的第二语音；所述目标音色与第一模式相应；
153.图像处理模块303，用于根据所述第一语音，确定动作特征，并根据所述动作特征，确定虚拟对象对应的图像序列；
154.视频确定模块304，用于根据所述第二语音和所述图像序列，确定虚拟对象对应的
视频。
155.可选地，该动作特征可以包括如下特征中的至少一种：表情特征、唇部特征、以及肢体特征。
156.可选地，该装置应用于第二目标对象与虚拟对象对应的对话场景，该第二目标对象的目标对象等级符合预设等级条件，或者，该第二目标对象发送的信息符合预设回复条件。
157.可选地，该装置应用于第二目标对象与虚拟对象对应的对话场景，该第一语音用于对第二目标对象发送的信息进行回复。
158.可选地，该装置应用于第二目标对象与虚拟对象对应的对话场景，该装置还可以包括：
159.关键内容处理模块，用于根据对话内容，确定关键内容，并向第一目标对象提供该关键内容，以使该第一目标对象根据该关键内容得到该第一语音。
160.可选地，通过语言转换模型将所述第一语音转换为目标音色对应的第二语音。
161.该语音转换模型可以包括：
162.特征提取单元，用于对训练样本对应的语音识别结果进行特征提取；
163.预测单元，用于根据至少部分所述特征提取结果，进行说话人预测；
164.分析单元，用于确定所述说话人预测的结果与预置说话人标识之间的误差；
165.更新单元，用于在反向传播过程中，根据所述误差对所述特征提取的参数进行更新。
166.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
167.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
168.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
169.图4是根据一示例性实施例示出的一种用于虚拟对象的处理的装置900的结构框图。例如，装置900可以是移动来电，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
170.参照图4，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(i/o)的接口912，传感器组件914，以及通信组件916。
171.处理组件902通常控制装置900的整体操作，诸如与显示，来电呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。
172.存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，来电簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组
合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
173.电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。
174.多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
175.音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(mic)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。
176.i/o接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
177.传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
178.通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
179.在示例性实施例中，装置900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
180.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，
所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
181.图5是本发明的一些实施例中服务端的结构框图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。
182.服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windowsservertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
183.此外，这里需要指出的是本技术实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的第一跨设备装置和第二跨设备装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图1及图2所对应实施例中语音识别结果的检测方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本技术方法实施例的描述。
184.此外，需要说明的是：本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图1和图2所对应实施例中语音识别结果的检测方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本技术所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本技术方法实施例的描述。
185.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
186.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
187.以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
188.以上对本发明实施例所提供的一种虚拟对象的处理方法、一种虚拟对象的处理装置、一种用于虚拟对象的处理的装置、一种机器可读介质和一种计算机程序产品，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说
明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

技术特征：
1.一种虚拟对象的处理方法，其特征在于，包括：获取第一目标对象的第一语音；将所述第一语音转换为目标音色对应的第二语音；所述目标音色与第一模式相应；根据所述第一语音，确定动作特征，并根据所述动作特征，确定虚拟对象对应的图像序列；根据所述第二语音和所述图像序列，确定虚拟对象对应的视频。2.根据权利要求1所述的方法，其特征在于，所述动作特征包括如下特征中的至少一种：表情特征、唇部特征、以及肢体特征。3.根据权利要求1所述的方法，其特征在于，所述方法应用于第二目标对象与虚拟对象对应的对话场景，所述第二目标对象的目标对象等级符合预设等级条件，或者，所述第二目标对象发送的信息符合预设回复条件。4.根据权利要求1所述的方法，其特征在于，所述方法应用于第二目标对象与虚拟对象对应的对话场景，所述第一语音用于对第二目标对象发送的信息进行回复。5.根据权利要求1所述的方法，其特征在于，所述方法应用于第二目标对象与虚拟对象对应的对话场景，所述方法还包括：根据对话内容，确定关键内容，并向第一目标对象提供所述关键内容，以使所述第一目标对象根据所述关键内容得到所述第一语音。6.根据权利要求1至5中任一所述的方法，其特征在于，通过语言转换模型将所述第一语音转换为目标音色对应的第二语音；所述语音转换模型的预先训练包括：对训练样本对应的语音识别结果进行特征提取，根据至少部分所述特征提取结果，进行说话人预测；确定所述说话人预测的结果与预置说话人标识之间的误差；在反向传播过程中，根据所述误差对所述特征提取的参数进行更新。7.一种虚拟对象的处理装置，其特征在于，包括：语音获取模块，用于获取第一目标对象的第一语音；语音转换模块，用于将所述第一语音转换为目标音色对应的第二语音；所述目标音色与第一模式相应；图像处理模块，用于根据所述第一语音，确定动作特征，并根据所述动作特征，确定虚拟对象对应的图像序列；视频确定模块，用于根据所述第二语音和所述图像序列，确定虚拟对象对应的视频。8.根据权利要求7所述的装置，其特征在于，所述动作特征包括如下特征中的至少一种：表情特征、唇部特征、以及肢体特征。9.根据权利要求7所述的装置，其特征在于，所述装置应用于第二目标对象与虚拟对象对应的对话场景，所述第二目标对象的目标对象等级符合预设等级条件，或者，所述第二目标对象发送的信息符合预设回复条件。10.根据权利要求7所述的装置，其特征在于，所述装置应用于第二目标对象与虚拟对象对应的对话场景，所述第一语音用于对第二目标对象发送的信息进行回复。11.根据权利要求7所述的装置，其特征在于，所述装置应用于第二目标对象与虚拟对
象对应的对话场景，所述装置还包括：关键内容处理模块，用于根据对话内容，确定关键内容，并向第一目标对象提供所述关键内容，以使所述第一目标对象根据所述关键内容得到所述第一语音。12.根据权利要求7至11中任一所述的装置，其特征在于，通过语言转换模型将所述第一语音转换为目标音色对应的第二语音；所述语音转换模型包括：特征提取单元，用于对训练样本对应的语音识别结果进行特征提取；预测单元，用于根据至少部分所述特征提取结果，进行说话人预测；分析单元，用于确定所述说话人预测的结果与预置说话人标识之间的误差；更新单元，用于在反向传播过程中，根据所述误差对所述特征提取的参数进行更新。13.一种用于虚拟对象的处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现权利要求1至6中任一所述方法的步骤。14.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的虚拟对象的处理方法。15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的计算机设备执行权利要求1-6任一项所述的方法。

技术总结
本发明实施例提供了一种虚拟对象的处理方法、装置和介质，其中的方法具体包括：获取第一目标对象的第一语音；将所述第一语音转换为目标音色对应的第二语音；所述目标音色与第一模式相应；根据所述第一语音，确定动作特征，并根据所述动作特征，确定虚拟对象对应的图像序列；根据所述第二语音和所述图像序列，确定虚拟对象对应的视频。本发明实施例可以提高模式切换的流畅性。切换的流畅性。切换的流畅性。

技术研发人员：孟凡博刘金锁魏远明王从涛朱伟基
受保护的技术使用者：北京搜狗科技发展有限公司
技术研发日：2021.11.04
技术公布日：2022/3/7

专利

最新回复(0)