数据处理方法、电子设备及计算机程序产品与流程

专利查询3月前  35



1.本技术实施例涉及计算机技术领域,尤其涉及一种数据处理方法、电子设备及计算机程序产品。


背景技术:

2.随着深度学习的普及,语音识别技术得到了很快的发展,同时基于语音识别技术的智能设备(如智能音箱)也变得越来越流行。为了方便使用,智能设备可以通过语音唤醒,并通过语音与使用者交互。但目前的智能设备的语音交互的反馈比较单一,无法适应复杂多变的使用环境。


技术实现要素:

3.有鉴于此,本技术实施例提供一种数据处理方案,以至少部分解决上述问题。
4.根据本技术实施例的第一方面,提供了一种数据处理方法,包括:获取当前次交互的交互数据,所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据;根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;根据所述语言风格确定反馈语句文本;将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,以使用所述反馈语音与所述交互对象交互。
5.根据本技术实施例的第二方面,提供了一种数据处理装置包括:获取模块,用于获取当前次交互的交互数据,所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据;第一确定模块,用于根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;第二确定模块,用于根据所述语言风格确定反馈语句文本;转换模块,用于将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,以使用所述反馈语音与所述交互对象交互。
6.根据本技术实施例的第三方面,提供了一种智能语音设备,包括:扬声器和处理器,所述处理器用于获取当前次交互的交互数据,所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据;根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;根据所述语言风格确定反馈语句文本;将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,将所述反馈语音发送至所述扬声器,所述扬声器用于播放所述反馈语音,以与所述交互对象交互。
7.根据本技术实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的方法对应的操作。
8.根据本技术实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
9.根据本技术实施例的第六方面,提供一种计算机程序产品,包括计算机指令,所述
计算机指令指示计算设备执行如上述的方法对应的操作。
10.根据本技术实施例提供的方案,基于交互数据指示的交互对象的情绪或者交互环境的信息,选取反馈语音适合的语言风格,进而根据该语言风格确定相应的反馈语句文本,并将反馈语句文本转换为语言风格对应语气的反馈语音,实现了在不同场景下动态地采用不同语言风格进行反馈,让交互对象更容易理解和接受,使得交互更融洽,实现交互对象与智能设备之间更自然、更智能的互动。
附图说明
11.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
12.图1为根据本技术一实施例的一使用场景示意图;
13.图2为根据本技术一实施例的数据处理方法的步骤流程的示意图;
14.图3为根据本技术一实施例的不同语言风格的语音的特征数据的示意图;
15.图4为根据本技术一实施例的数据处理方法的步骤204的流程的示意图;
16.图5为根据本技术一实施例的数据处理方法的步骤204的流程的示意图;
17.图6为根据本技术一实施例的数据处理方法的步骤204的流程的示意图;
18.图7为根据本技术一实施例的一使用场景的流程示意图;
19.图8为根据本技术一实施例四的数据处理装置的结构框图;
20.图9为根据本技术一实施例的一种电子设备的结构示意图。
具体实施方式
21.为了使本领域的人员更好地理解本技术实施例中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术实施例一部分实施例,而不是全部的实施例。基于本技术实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本技术实施例保护的范围。
22.下面结合本技术实施例附图进一步说明本技术实施例具体实现。
23.本技术涉及基于交互对象(如用户)的语音和情绪等进行智能交互的方案。其中,交互对象的语音可以通过智能设备上搭载的麦克风等收音设备采集,也可以从与智能设备连接的其他设备(如手机、pad、计算机等)获取。智能设备例如为智能音箱,当然也可以其他能够与交互对象进行交互的设备,如智能电视、智能手表等等。
24.以智能音箱为例,图1示出了一种交互对象与智能音箱交互的场景示意图。其中,交互对象通过语音指令控制智能音箱100或者与智能设备连接的其他设备。如,交互对象通过语音指令控制智能音箱100播放音乐或者说明所在地的天气信息。或者,交互对象通过语音指令控制智能音箱100连接的灯打开或者关闭,或者控制智能音箱100连接的窗帘卷起或者放下等。
25.在交互对象通过语音与智能设备进行交互的过程中,智能设备需要通过语音的方式对交互对象的语音进行反馈,以便交互对象能够知道自己的语音指令是否被接收和响
应,或者,在一些场景中,交互对象的语音指令中存在缺失信息的情况,智能设备可能需要通过语音反馈的方式与交互对象对话从而获取需要的信息,以便响应语音指令。对于这些情况,都需要智能设备能够进行语音反馈,而现有的智能设备的语音反馈基本都是基于tts(text to speech)技术,即简单地将反馈的文本转换为语音并朗读。这种方式导致智能设备的反馈语音单调、且语音的声音大小等不合适,容易给交互对象造成不好的体验。
26.为了解决此问题,本技术实施例一提供一种数据处理方法,如图2所示,该方法包括以下步骤:
27.步骤s202:获取当前次交互的交互数据。
28.交互对象和智能对象的一个交互过程可以包含多轮的交互,如一问一答可以为一轮交互(也可以认为是一次交互)。当前次交互可以是交互对象和智能设备最新的一轮交互,当然,也可以从已完成的交互轮次中选取一个需要处理的轮次的交互作为当前次交互,本实施例对此不作限制。
29.所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据。
30.交互对象的语音数据可以是通过智能设备上搭载的麦克风收集的语音,也可以是从存储设备读取的语音,或者是从与智能设备连接的其他设备获取的语音等。语音的特征数据可以是语音的频谱。通过对语音进行适当的处理(其可以根据需要确定)可以获得语音的频谱,该频谱在一定程度上说明了交互对象在当前环境中认为比较适宜的语言风格,或者说该频谱体现了交互对象比较喜欢的语言风格。图3展示了三种不同语言风格的语音的特征数据。语言风格包含但不限于:正常、窃窃私语和听觉反馈。
31.其中,正常指示语音的音高、语调等均较为适中,而窃窃私语则表示语音的音高较低。听觉反馈主要包含音高、音长、音强、音色、以及反馈声感的心理机制。听觉反馈能力属于人类抽象语言能力的一个重要组成部分,听觉反馈在言语发声交互中具有极其重要的作用。其中,自我检测是听觉反馈的一种处理机制,如环境噪声加大时,由于生理和心理的影响,交互对象的语音的声学特征会发生变化,如音强加大。这一现象也称为隆巴德效应。
32.情绪数据可以基于交互对象的语音、表情和肢体动作等获取。如,交互对象高兴时会微笑或者产生高兴的微表情,不悦会皱眉等。其情绪也会反应在语音中,如语调降低等。在一具体实现中,可以采集交互对象的图像,基于图像和语音进行多模态分析,获得多模态情绪数据。如果交互对象和智能设备已经进行了一轮或一轮以上的交互,则该情绪数据在一定程度上表征了交互对象对于智能设备之前的反馈语音的喜好,如是否喜欢这种语言风格。
33.交互环境特征数据可以基于采集的环境声音获得。该交互环境特征数据至少指示了交互环境中的噪声大小,但不限于此。
34.步骤s204:根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格。
35.为了使得向交互对象反馈的反馈语音更加拟人化、智能化,提升交互的丰富度和真实程度,根据交互数据确定反馈语音对应的语言风格,这样使得反馈语音更加符合场景。
36.例如,在一种具体实现方式中,如图4所示,步骤s204可以通过下述的子步骤s2041和子步骤s2042实现。
37.子步骤s2041:根据所述交互数据中语音的特征数据,确定所述交互对象的语言风
格。
38.例如,将语音的特征数据与不同语言风格对应的预设的特征数据进行匹配,获取相似度最高的预设的特征数据对应的语言风格作为交互数据中语音的特征数据的语言风格。
39.或者,在其他例子中,可以将语音的特征数据输入到神经网络模型中,由神经网络模型对其进行识别,并输出识别出的语言风格。或者也可以采用其他适当的方式确定语言风格,对此不作限制。
40.语言风格可以是正常、窃窃私语和听觉反馈等。其中,语言风格为正常的特征数据(频谱)如图3中(a)所示,语言风格为窃窃私语的特征数据如图3中(c)所示,语言风格为听觉反馈的特征数据如图3中(b)所示。
41.子步骤s2042:根据所述交互数据中交互环境特征数据、所述交互对象的语言风格和所述情绪特征数据,确定所述当前次交互的反馈语音对应的语言风格。
42.在一示例中,交互环境特征数据除了可以指示交互环境中噪声大小之外,还可以指示交互对象的相关属性(如男、女、岁数等)。基于交互环境特征数据、交互对象的语言风格和情绪特征数据可以确定当前次交互的反馈语音对应的语言风格。
43.如,交互环境特征数据指示环境的噪声较大,交互对象的语言风格为“听觉反馈”而交互对象的情绪数据指示为“不悦”,则表示交互环境比较嘈杂,交互对象比较难以听到智能设备的反馈语音,或者交互对象前一反馈语句的语言风格不太满意,因此当前次交互的反馈语音对应的语言风格可以是“听觉反馈”,也即在当前次的反馈语句中需要进行一些修正。
44.步骤s206:根据所述语言风格确定反馈语句文本。
45.在一示例中,如图5所示,步骤s206可以通过子步骤s2061和子步骤s2062实现。
46.子步骤s2061:从与所述语言风格对应的候选反馈语句文本中,确定与所述交互对象的语音的语义匹配的候选反馈语句文本。
47.不同的语言风格可以预设一个或一个以上的候选反馈语句文本。如,正常的语言风格预设的候选反馈语句文本例如为:“我在,你说”、“在呢,什么事”等等。窃窃私语的语言风格预设的候选反馈语句文本例如为:“在”、“在的”等等。听觉反馈的语言风格预设的候选反馈语句文本例如为:“我刚刚声音有点大,您需要什么”、“我小声点,您可以再说一遍么”等等。
48.同一语言风格可以包含多个不同语义的候选反馈语句文本,以应对不同的对话。若当前次交互的语音风格为“听觉反馈”,则可以选取“听觉反馈”对应的候选反馈语句文本,再从这些候选反馈语句文本中选取与交互对象的语音的语义匹配的候选反馈语句文本,以防止答非所问的情况。
49.一种具体的实现方式例如:使用训练的神经网络模型从候选反馈语句文本中选取语义与交互对象的语音匹配的候选反馈语句文本。神经网络模型可以学习交互过程的上下文信息,进而选取出满足交互对象的语音的语义的候选反馈语句文本。
50.子步骤s2062:根据所述候选反馈语句文本,确定所述反馈语句文本。
51.针对不同的语言风格根据候选反馈语句文本确定反馈语句文本的方式可以不同。例如,若语言风格为正常或者窃窃私语,则可以将候选反馈语句文本作为反馈语句文本。又
例如,若语言风格为听觉反馈,则可以获取插入语;根据所述插入语和所述候选反馈语句文本,确定所述反馈语句文本。插入语如呃、嗯、啊、对不起、我的意思是
……
等。将插入语加入候选反馈语句文本的适当位置,并以加入插入语的候选反馈语句文本作为反馈语句文本。
52.例如,候选反馈语句文本为“我刚刚声音有点大,您需要什么”,插入语为“呃”,则反馈语句文本可以为“呃,我刚刚声音有点大,您需要什么?”。
53.步骤s208:将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,以使用所述反馈语音与所述交互对象交互。
54.在一具体实现中,如图6所示,步骤s208可以通过下述子步骤实现。
55.子步骤s2081:将所述反馈语句文本输入神经网络模型中,以获得所述神经网络模型输出的候选反馈语音。
56.例如,将所述反馈语句文本输入神经网络模型中,获得所述神经网络模型输出的多个不同语言风格对应语气的候选反馈语音。
57.在本实施例中,该神经网络模型用于将输入的候选反馈语句文本转换为不同语言风格的候选反馈语句。
58.当然,在其他实施例中,神经网络模型也可以仅用于输出与当前次交互的语言风格对应的反馈语句,对此不作限制。
59.如图7所示,一种可用的神经网络模型包括一个基于注意力机制的seq2seq网络和一个循环神经网络(rnn)。其可以在预训练的具有泛化能力的神经网络模型基础上进行改进(fine-tuning)得到,该神经网络模型使用不同语言风格的训练样本进行训练获得。将反馈语句文本输入到训练的神经网络模型的基于注意力机制的seq2seq网络中,由该网络将其处理成梅尔频谱,梅尔频谱输入到循环神经网络中,由循环神经网络对其进行进一步处理,以使得输出不同语言风格的候选反馈语音,该候选反馈语音以波形的形式表示。
60.如,将反馈语句文本输入到神经网络模型中,该神经网络模型输出正常的语言风格对应的波形、窃窃私语的语言风格对应的波形和听觉反馈的语言风格对应的波形。
61.可选地,本实施例的神经网络模型可以在与交互对象的交互过程中使用历史轮次的交互语音和反馈语句的文本进行迭代训练,从而使得其可以更好地与交互对象进行交互。
62.子步骤s2082:根据所述候选反馈语音,确定符合所述语言风格所对应语气的反馈语音。
63.若神经网络模型输出多种不同语言风格的反馈语音,则子步骤s2082可以实现为:从多个不同语言风格对应的所述候选反馈语音中,选取当前次交互的语言风格对应的候选反馈语音作为目标反馈语音,并对所述目标反馈语音进行处理,以处理后的所述目标反馈语音作为符合所述语言风格对应语气的反馈语音。
64.例如,若当前次交互的语言风格为窃窃私语,则选取与窃窃私语对应的候选反馈语音作为目标反馈语音。为了进一步提升拟人性和真实性,还可以对目标反馈语音进行处理,使其更加符合当前次交互的语境和想要表达的语义。
65.在一具体示例中,对所述目标反馈语音进行处理可以包括:根据所述交互环境特征数据和所述反馈语句文本的语义中至少之一,对所述目标反馈语音执行基频调整、能量转移、元音拉长和共振峰调整中至少之一。
66.由于环境背景的噪声对语速和音高的影响不显著,而对音强的影响显著,因此,若交互环境特征数据指示噪声较大,则可以通过对目标反馈语音进行基频调整、能量转移、元音拉长和共振峰调整等处理中的至少一个而增强其音强,以使交互对象能够更加容易地听到反馈语音。
67.由于反馈语句文本中的语义和语境对音强和音高有影响,因此在需要表达不同语义时可以通过对目标反馈语音进行基频调整、能量转移、元音拉长和共振峰调整等调整中的至少一个,以使处理获得的反馈语音满足需要表达的语义。
68.获取反馈语音后可以通过智能设备上搭载的扬声器等设备播放该反馈语音,以使交互对象能听到反馈语音。当然,在其他实施例中,也可以通过网络等方式将反馈语音发送给连接的其他设备,由其他设备对反馈语音进行播放,只要使交互对象能够听到反馈语音即可。
69.通过该方法可以实现智能设备的自我检测,而自我检测是一种听觉反馈,在交互过程中,智能设备确定对交互对象的反馈不满足其需求或者反馈错误时,智能设备可以意识到自己反馈语音中的错误,并按照自我修正逻辑处理(如进行自我停顿(self-interruptions)、或者加入插入语(editing expressions),并对反馈语音进行自我修正(self-repairs),使得最终的反馈语音更加情感化和拟人化。
70.这样就实现了,智能设备基于交互对象的语音、情绪等对自己的反馈语音进行自我监听和反馈,基于适当的网络架构和数据处理方式,利用有限的数据进行不同语音的反馈;同时利用听觉反馈机制,使得反馈语音更加情感化、自然化。
71.本方案能够在不同语境和交互环境下,通过动态化的反馈交互,来调整反馈交互的语言风格,以适应当前的语境和交互环境。比如:较为安静的交互环境中,交互对象和智能设备的语音交互可以是一种比较亲昵私密的方式,而在较为热闹的交互环境中,语音交互可以是一种比较适合在嘈杂的环境中的互动方式,例如具有较强的音强、独特的音高等。
72.综上,本实施例的方法基于交互数据指示的交互对象的情绪或者交互环境的信息,选取反馈语音适合的语言风格,进而根据该语言风格确定相应的反馈语句文本,并将反馈语句文本转换为语言风格对应语气的反馈语音,实现了在不同场景下动态地采用不同语言风格进行反馈,让交互对象更容易理解和接受,使得交互更融洽,实现交互对象与智能设备之间更自然、更智能的互动。
73.本实施例的方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、pad等)和pc机等。
74.实施例二
75.参照图8,示出了本技术实施例二的一种数据处理装置的结构框图。
76.该装置包括:
77.获取模块802,用于获取当前次交互的交互数据,所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据;
78.第一确定模块804,用于根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;
79.第二确定模块806,用于根据所述语言风格确定反馈语句文本;
80.转换模块808,用于将所述反馈语句文本转换为与所述语言风格所对应语气的反
馈语音,以使用所述反馈语音与所述交互对象交互。
81.可选地,第一确定模块804,用于根据所述交互数据中语音的特征数据,确定所述交互对象的语言风格;根据所述交互数据中交互环境特征数据、所述交互对象的语言风格和所述情绪特征数据,确定所述当前次交互的反馈语音对应的语言风格。
82.可选地,第二确定模块806用于从与所述语言风格对应的候选反馈语句文本中,确定与所述交互对象的语音的语义匹配的候选反馈语句文本;根据所述候选反馈语句文本,确定所述反馈语句文本。
83.可选地,第二确定模块806用于在根据所述候选反馈语句文本,确定所述反馈语句文本时,若所述语言风格为听觉反馈风格,则获取插入语;根据所述插入语和所述候选反馈语句文本,确定所述反馈语句文本。
84.可选地,所述转换模块808用于将所述反馈语句文本输入神经网络模型中,以获得所述神经网络模型输出的候选反馈语音;根据所述候选反馈语音,确定符合所述语言风格所对应语气的反馈语音。
85.可选地,所述转换模块808用于在将所述反馈语句文本输入神经网络模型中,以获得所述神经网络模型输出的候选反馈语音时,将所述反馈语句文本输入神经网络模型中,获得所述神经网络模型输出的多个不同语言风格对应语气的候选反馈语音;所述转换模块808用于在根据所述候选反馈语音,确定符合所述语言风格所对应语气的反馈语音时,从多个不同语言风格对应的所述候选反馈语音中,选取当前次交互的语言风格对应的候选反馈语音作为目标反馈语音,并对所述目标反馈语音进行处理,以处理后的所述目标反馈语音作为符合所述语言风格对应语气的反馈语音。
86.可选地,转换模块808用于在对所述目标反馈语音进行处理时,根据所述交互环境特征数据和所述反馈语句文本的语义中至少之一,对所述目标反馈语音执行基频调整、能量转移、元音拉长和共振峰调整中至少之一。
87.本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
88.实施例三
89.本实施例中,提供一种智能语音设备,包括:扬声器和处理器,所述处理器用于获取当前次交互的交互数据;根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;根据所述语言风格确定反馈语句文本;将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,将所述反馈语音发送至所述扬声器,所述扬声器用于播放所述反馈语音,以与所述交互对象交互。
90.该智能语音设备可以是智能音箱、智能手表、智能电视、智能投影仪等配置有扬声器和处理器的设备。处理器用于对数据进行处理,例如,处理器可以接收交互对象的语音、环境声音和其他多模态数据,基于这些数据进行处理从而获得当前次交互的交互数据。所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据。
91.处理器基于交互数据确定当前次交互的语言风格,如正常、窃窃私语或者听觉反馈等。进而处理器基于语言风格确定对应的反馈语句文本。例如,语言风格为听觉反馈,则
反馈语句文本中可以包含一些停顿词如“嗯
……”
等,或者包含一些对之前的反馈语句的修正,如“不好意思”等。将确定的反馈语句文本转换为语言风格对应语气的反馈语音,从而使得反馈语音的语气和语言更加多样化、更加丰富,从而使交互更加拟人化。
92.扬声器用于播放反馈语音,以实现与交互对象的交互。该智能设备能够以更加拟人、更加智能化的方式与交互对象进行交互,从而提升交互效果。
93.实施例四
94.参照图9,示出了根据本技术实施例四的一种电子设备的结构示意图,本技术具体实施例并不对电子设备的具体实现做限定。
95.如图9所示,该电子设备可以包括:处理器(processor)902、通信接口(communications interface)904、存储器(memory)906、以及通信总线908。
96.其中:
97.处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。
98.通信接口904,用于与其它电子设备或服务器进行通信。
99.处理器902,用于执行程序910,具体可以执行上述方法实施例中的相关步骤。
100.具体地,程序910可以包括程序代码,该程序代码包括计算机操作指令。
101.处理器902可能是处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本技术实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
102.存储器906,用于存放程序910。存储器906可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
103.程序910具体可以用于使得处理器902执行上述方法对应的操作。
104.程序910中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
105.本技术实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。
106.本技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的方法。
107.需要指出,根据实施的需要,可将本技术实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本技术实施例的目的。
108.上述根据本技术实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,
ram、rom、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
109.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术实施例的范围。
110.以上实施方式仅用于说明本技术实施例,而并非对本技术实施例的限制,有关技术领域的普通技术人员,在不脱离本技术实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本技术实施例的范畴,本技术实施例的专利保护范围应由权利要求限定。

技术特征:
1.一种数据处理方法,包括:获取当前次交互的交互数据,所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据;根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;根据所述语言风格确定反馈语句文本;将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,以使用所述反馈语音与所述交互对象交互。2.根据权利要求1所述的方法,其中,所述根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格,包括:根据所述交互数据中语音的特征数据,确定所述交互对象的语言风格;根据所述交互数据中交互环境特征数据、所述交互对象的语言风格和所述情绪特征数据,确定所述当前次交互的反馈语音对应的语言风格。3.根据权利要求1所述的方法,其中,所述根据所述语言风格确定反馈语句文本,包括:从与所述语言风格对应的候选反馈语句文本中,确定与所述交互对象的语音的语义匹配的候选反馈语句文本;根据所述候选反馈语句文本,确定所述反馈语句文本。4.根据权利要求3所述的方法,其中,所述根据所述候选反馈语句文本,确定所述反馈语句文本,包括:若所述语言风格为听觉反馈风格,则获取插入语;根据所述插入语和所述候选反馈语句文本,确定所述反馈语句文本。5.根据权利要求1所述的方法,其中,所述将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,包括:将所述反馈语句文本输入神经网络模型中,以获得所述神经网络模型输出的候选反馈语音;根据所述候选反馈语音,确定符合所述语言风格所对应语气的反馈语音。6.根据权利要求5所述的方法,其中,所述将所述反馈语句文本输入神经网络模型中,以获得所述神经网络模型输出的候选反馈语音,包括:将所述反馈语句文本输入神经网络模型中,获得所述神经网络模型输出的多个不同语言风格对应语气的候选反馈语音;所述根据所述候选反馈语音,确定符合所述语言风格所对应语气的反馈语音,包括:从多个不同语言风格对应的所述候选反馈语音中,选取当前次交互的语言风格对应的候选反馈语音作为目标反馈语音,并对所述目标反馈语音进行处理,以处理后的所述目标反馈语音作为符合所述语言风格对应语气的反馈语音。7.根据权利要求6所述的方法,其中,所述对所述目标反馈语音进行处理,包括:根据所述交互环境特征数据和所述反馈语句文本的语义中至少之一,对所述目标反馈语音执行基频调整、能量转移、元音拉长和共振峰调整中至少之一。8.一种智能语音设备,包括:扬声器和处理器,所述处理器用于获取当前次交互的交互数据,所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据;根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;根据所述
语言风格确定反馈语句文本;将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,将所述反馈语音发送至所述扬声器,所述扬声器用于播放所述反馈语音,以与所述交互对象交互。9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的方法对应的操作。10.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。11.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-7中任一所述的方法对应的操作。

技术总结
本申请实施例提供了一种数据处理方法、电子设备及计算机程序产品。该数据处理方法,包括:获取当前次交互的交互数据,所述交互数据包括下述至少之一:交互对象的语音的特征数据、情绪数据和交互环境特征数据;根据所述交互数据,确定所述当前次交互的反馈语音对应的语言风格;根据所述语言风格确定反馈语句文本;将所述反馈语句文本转换为与所述语言风格所对应语气的反馈语音,以使用所述反馈语音与所述交互对象交互。该方法可以提升交互智能性。性。性。


技术研发人员:朱益 赵冬迪 钱能锋 鲍懋 韩翀蛟 王欣
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2021.11.29
技术公布日:2022/3/8

最新回复(0)