一种基于唇部动作的政务场景多模态语音交互方法与流程

本发明属于政务服务，具体为一种基于唇部动作的政务场景多模态语音交互方法。

背景技术：

1、政务“数字人”以一体机的形式出现在公众面前，保税区政务办将企业和群众办理的高频事项统一集成到政务“数字人”，实现了“数字人”与政务服务事项的咨询、受理、办理等应用场景无缝融合，促进政务服务由传统政务服务大厅模式向规范、高效、稳定的数字智能化方向转变，并且创新政务服务“数字人”全程导办、帮办等模式，为企业和群众提供“一对一”沉浸式咨询导办服务。

2、现有的政务场景的自助办理语音交互的过程中，在复杂噪音环境下，尤其是当噪音为周围人声的情况下，识别效果通常较差，识别结果的准确性不高。

技术实现思路

1、针对现有技术的不足，本发明提供了一种基于唇部动作的政务场景多模态语音交互方法，具有能在复杂的噪音环境下高效地进行识别，准确性高的优点。

2、为实现上述目的，本发明提供如下技术方案：一种基于唇部动作的政务场景多模态语音交互方法，交互方法包括：通过双目摄像头采集人脸信息，自动唤醒设备，数字人进行语音提示让用户进行交互；利用窄波束算法对阵列麦音频信号进行增强和定位，进行定向接收，屏蔽其他方向的声音；使用高灵敏度麦克风实时采集用户的语音输入，利用语音处理算法提取语音特征；利用高清摄像设备捕获用户的唇部动作视频，应用计算机视觉技术，实时分析唇部的形态变化和口型轮廓；将语音特征和唇部运动特征进行综合分析，形成综合的用户交互信息，利用深度学习算法进行多模态信息融合；基于多模态信息进行语音和唇部动作进行协同分析与识别；基于采集到的音频信号，传输到nlp大模型，从海量数据和知识中进行客户的需求匹配；建立高精度的数字人模型，利用nlp大模型对用户的问题进行理解和分析，通过数字人播报给出回答。

3、优选地，s1的步骤为：

4、使用双目摄像头采集人脸信息，触发设备自动唤醒功能，将主屏的数字人、背屏的事项列表和触控屏的操作界面进行唤醒，启动触控屏上的操作界面，用户可以进行交互，显示用户可以进行的操作选项，数字人通过语音功能对用户进行语音提升交互，用户进行交互，提示用户可以通过触控屏与语音指令执行特定操作。

5、优选地，s2的步骤为：安排10—20个麦克风按照矩形的几何形状，布置在阵列中，阵列中的每个麦克风在位置上保持3厘米的间距，麦克风同时采集环境中的声音信号，对采集到的音频信号进行预处理；

6、应用窄波束形成算法，来合成和处理各个麦克风的信号，计算每个麦克风信号的时延和权重，合成的波束在特定方向上增强目标信号，抑制其他方向上的信号；

7、波束形成权重向量：

8、其中w是权重向量，a|θ|是指向角为θ)时的方向性向量，而|·|表示向量的欧几里得范数；

9、输出经过波束形成处理后的音频信号，在输出中反映出主波束和副波束的特性；

10、使用波束形成输出来实现对特定方向上声音的定向接收。

11、优选地，s3的步骤为：使用高灵敏度麦克风捕捉用户的连续语音信号，消除背景噪声和其他非语言声音干扰，增强高频部分，补偿在录音过程中丢失的高频成分，将连续的音频流分割成25ms-40ms一帧的时间帧，对每一帧数据应用窗函数以减少频谱泄露效应，对每帧数据进行快速傅里叶变换以转换到频率域分析其频谱特性；

12、对于特定的声学参数，使用倒谱法进行提取基音周期，提取步骤为：

13、傅里叶变换：首先对原始时域信号x(t)进行快速傅里叶变换ff得到其频域表示x(f)：

14、[x(f)＝fx(t)]

15、计算幅值的对数：然后取x(f)得幅度并计算其自然对数：

16、

17、其中t0,tf,k,f/0是相关参数或常量；

18、最后，将上述结果进行逆快速傅里叶变换回到时域空间，并得到“倒谱”：

19、

20、将处理好的数据进行编码，发送给下一个接收系统与存储设备。

21、优选地，s4的步骤为：

22、使用高清摄像机捕捉用户面部的视频，对视频进行去噪、增强对比度的操作来改善图像质量，通过特征点确定人脸的方向和位置，并将图像标准化到统一的大小和方向，在嘴唇区域内识别重要的面部特征点，包括嘴角与唇峰，使用阈值化分割技术将嘴唇从背景中分离出来；

23、阈值化分割技术公式为：

24、[i0(x,y)＝{0ifi(x，y)<t1ifi(x,y)≥t}]

25、其中，i(x，y)是原始图像在(x，y)的强度，而t是预设的全局亮度或颜色的界限；

26、对提取的唇部区域进一步处理以消除噪声，在连续帧之间跟踪关键点的变化，以理解说话时嘴唇的运动模式。

27、优选地，s5的步骤为：将语音特征和唇部运动特征进行综合分析，形成综合的用户交互信息，提取声音的特征，识别并追踪嘴唇的运动，提取关键点位置和口型变化的特征；

28、使用卷积神经网络与递归神经网络来分别学习和编码音频及视觉模态的特征表示；

29、早期融合，在输入阶段就合并两种模态，晚期融合，在决策阶段结合两个独立模型的结果。

30、优选地，s6的步骤为：

31、同时收集用户的音频信号和视频信号对音频数据进行预处理从音频中提取声学特征，从视频中提取视觉特征，包括嘴唇的运动轨迹和形状变化；

32、使用时间戳确保音频和视频数据在时间上的一致性，在视频中识别并追踪嘴唇的关键点；

33、使用神经网络结构训练模型学习从原始音频输入到目标输出之间的映射关系；

34、建立一个完整的系统流程，能够直接接收原始的音视频输入并产生最终的识别结果或用户交互指令。

35、优选地，s7的步骤为：

36、根据解析出的意图和关键信息，在数据库或知识库中搜索相关的服务与产品选项，在对话过程中保持对用户历史交互内容的记忆；

37、训练深度学习模型以优化语义理解能力，并不断调整参数以适应不同领域和用例的需求变化；

38、根据分析结果为用户生成个性化的服务或产品推荐列表，并按相关性排序展示给用户选择；

39、用户对推荐的服务或产品的反馈被用于进一步训练和优化系统的性能。

40、优选地，s8的步骤为：

41、使用nlp技术分析文本内容，提取关键信息，构建包含大量信息的知识库，根据从用户输入中解析出的意图和关键字，在知识库中搜索最相关的信息与答案，设计数字人的面部表情与肢体动作的非语言行为，实现一个系统来管理用户与数字人之间的交互流程，包括问题的回答和反馈循环，结合nlp大模型的分析结果生成回答脚本。

42、优选地，验证所有组件协同工作的效果，将完成测试的系统部署到生产环境，并持续监控其性能表现及时响应问题。

43、与现有技术相比，本发明的有益效果如下：

44、本技术通过对面部表情细节的捕捉，能实现在复杂环境下高效地进行识别，且识别准确性高，带来更好的使用前景与商业价值。

技术特征：

1.一种基于唇部动作的政务场景多模态语音交互方法，其特征在于，交互方法包括：

2.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于，s1的步骤为：

3.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于，s2的步骤为：安排10—20个麦克风按照矩形的几何形状，布置在阵列中，阵列中的每个麦克风在位置上保持3厘米的间距，麦克风同时采集环境中的声音信号，对采集到的音频信号进行预处理；

4.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于，s3的步骤为：使用高灵敏度麦克风捕捉用户的连续语音信号，消除背景噪声和其他非语言声音干扰，增强高频部分，补偿在录音过程中丢失的高频成分，将连续的音频流分割成25ms-40ms一帧的时间帧，对每一帧数据应用窗函数以减少频谱泄露效应，对每帧数据进行快速傅里叶变换以转换到频率域分析其频谱特性；

5.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于：s4的步骤为：

6.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于，

7.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于，s6的步骤为：

8.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于，s7的步骤为：

9.根据权利要求1所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于，s8的步骤为：

10.根据权利要求9所述的基于唇部动作的政务场景多模态语音交互方法，其特征在于：验证所有组件协同工作的效果，将完成测试的系统部署到生产环境，并持续监控其性能表现及时响应问题。

技术总结
本发明涉及政务服务技术领域，具体涉及一种基于唇部动作的政务场景多模态语音交互方法，交互方法包括：采集人脸信息，自动唤醒设备，用户进行交互；对阵列麦音频信号进行增强和定位；实时采集用户的语音输入，利用语音处理算法提取语音特征；捕获用户的唇部动作视频，实时分析唇部的形态变化和口型轮廓；将语音特征和唇部运动特征进行综合分析，形成综合的用户交互信息，进行多模态信息融合；基于多模态信息进行语音和唇部动作进行协同分析与识别；基于采集到的音频信号，传输给到NLP大模型进行需求匹配；建立高精度的数字人模型。本发明通过对面部表情细节的捕捉，能实现在复杂环境下高效地进行识别，且识别准确性高。

技术研发人员：陈嘉,王斌,刘方勇,王丁,查亚东,刘阳桢,方颖,刘好蔓,林宏炜,毛送军,张嘉诚,汪文,王娟,魏薇
受保护的技术使用者：深圳广电数字科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)