1.本发明涉及语音信号处理与分析领域,特别是涉及一种基于细粒度编码的语音分离方法、装置及存储介质。
背景技术:
2.语音分离,即语音处理领域的“鸡尾酒会”问题,旨在从多个说话人同时说话的混合语音中分离出属于每个说话人的干净语音,也称为说话人分离。语音分离技术,作为一种关键的语音预处理技术,通常结合语音识别技术和声纹识别技术,以满足日常生活中嘈杂环境下的语音交互需求,被广泛应用于如会议日志翻译、目标人声检索和家庭智能设备交互等场景。本发明针对于单通道条件下的说话人无关语音分离,即在单个声音通道条件下,不依赖于说话人身份的先验信息,实现语音分离。
3.现有的语音分离方法主要包括两种,分别是基于频域的方法和基于可学习隐域的方法。基于频域的方法利用短时傅里叶变换将语音信号转换到频域,得到频谱特征,然后在频域实现说话人分离。这类方法的主要有两个缺点:一方面,大部分方法只重建幅值谱,忽略了相位信息,然而相位信息也是语音的一个重要属性;另一方面,频域不一定是一个最佳的说话人可分的编码空间,不一定可以提供足够的说话人可分性。基于可学习隐域的方法利用深度神经网络,学习一个可用于说话人分离的隐域。相比较于基于频域的方法,基于可学习隐域方法的优势在于,整个分离网络模型,包括编码、分离、解码,都是可学习的。时域语音分离网络tasnet是这类方法中一个经典的例子,该网络利用1-d卷积神经网络学习一个隐域,卷积层的多个卷积核构成了这个隐域的基函数。语音信号被编码到隐域,然后在隐域中实现说话人分离,最后解码得到时域上的语音信号。当前大多数语音分离的研究集中于设计一个高效的特征分离器,来实现更加精确的特征分离。上述两类方法都是在一个单阶的域中实现说话人分离,这个域为频域或可学习的隐域。然而,单阶的无法提供足够的说话人可分性,尤其是对于那些包含语音特征高度相近的说话人的混合语音。
技术实现要素:
4.本发明针对上述问题,提供了一种基于细粒度编码的语音分离方法、装置及存储介质,通过设计基于细粒度编码的逐步细化语音分离方法,对混合语音实现精细的分离。
5.本发明的第一方面,提供了一种基于细粒度编码的语音分离方法,方法包括如下步骤:
6.粗分离阶段:以混合语音为输入,使用卷积神经网络学习一个单阶隐域,得到一个粗粒度编码空间,在粗粒度编码空间得到混合语音的编码特征,利用特征分离器对编码特征序列学习时域依赖、估计特征掩码,得到在粗粒度编码空间中的粗分离特征;
7.细分离阶段:以粗分离特征为输入,根据细粒度编码机制沿着已存在隐域的每一个基函数学习同一个新的隐域,已存在隐域和新学习的隐域共同构成一个高阶的隐域,得到一个细粒度编码空间,在细粒度编码空间中,使用共享参数的多分支网络结构,每个分支
网络结构并行分离来自粗分离阶段得到的每个粗分离特征,将每个分支网络结构并行分离结果进行合并,得到在细粒度编码空间中的细分离特征,细分离特征解码后即为语音分离结果。
8.进一步的,粗分离阶段实现包括粗编码器和粗分离器,粗编码器利用包含nc个滤波器的1-d卷积层结合非线性激活函数学习一个单阶隐域,得到混合语音在粗粒度编码空间的编码特征;粗分离器以编码特征为输入,学习编码特征序列的长时依赖、估计对应q个说话人的q个特征掩码。
9.进一步的,粗分离器采用dptnet分离器,根据双路径时域建模策略来学习编码特征序列的长时依赖,具体步骤包括:
10.使用一个层规范化和一个线性层来调整编码特征的通道数量;
11.将编码特征按照步长为的长度,划分为多个连续的长度为l的特征段;
12.利用r个dptnet块来实现时域建模,每一个dptnet块包括了段内路径和段间路径,分别学习段内的局部时域信息和段与段之间的全局时域信息,在dptnet中,段内路径和段间路径都由改进后的transformer层组成,其中前馈网络的第一个线性层被替换为双向长短时记忆神经网络,用来学习时域上的顺序信息;
13.经过时域建模后,利用一个非线性变换prelu层和一个线性层将通道数扩张q倍;
14.利用重叠求和操作将特征段转化为特征序列,利用一个线性层和一个非线性激活函数估计得到最终的特征掩码。
15.进一步的,在训练过程中,粗分离阶段实现还包括粗解码器,利用1-d转置卷积层将分离后的粗分离特征解码到时域上,得到属于每个说话人的语音信号。
16.进一步的,细分离阶段实现包括精编码器、精分离器、精解码器,细分离阶段实现前,将已存在的隐域上nc个基函数划分为p组,利用精编码器并行作用于每一组粗分离特征,学习同一个新的隐域隐域和隐域共同构成了一个高阶隐域得到细粒度编码空间,每一组得到分解后的编码特征;精分离器沿着隐域上的nc个基函数并行地分离p个编码特征,通过合并不同分支的分离结果,得到每个说话人的特征,精分离器的网络结构与粗分离器一致,为r个dptnet块;精解码器将每个说话人的特征解码到时域信号,得到属于每个说话人的语音信号。
17.本发明的第二方面,提供了一种基于细粒度编码的语音分离装置,所述装置包括:
18.粗分离模块,用于以混合语音为输入,使用卷积神经网络学习一个单阶隐域,得到一个粗粒度编码空间,在粗粒度编码空间得到混合语音的编码特征,利用特征分离器对编码特征序列学习时域依赖,估计特征掩码,得到在粗粒度编码空间中的粗分离特征;
19.细分离模块,用于以粗分离特征为输入,根据细粒度编码机制沿着已存在隐域的每一个基函数学习同一个新的隐域,已存在隐域和新学习的隐域共同构成一个高阶的隐域,得到一个细粒度编码空间,在细粒度编码空间中,使用共享参数的多分支网络结构,每个分支网络结构并行分离来自粗分离阶段得到的每个粗分离特征,将每个分支网络结构并行分离结果进行合并,得到在细粒度编码空间中的细分离特征,细分离特征解码后即为语音分离结果。
20.进一步的,粗分离模块包括粗编码器和粗分离器,粗编码器用于利用包含nc个滤
波器的1-d卷积层结合非线性激活函数学习一个单阶隐域,得到混合语音在粗粒度编码空间的编码特征;粗分离器用于以编码特征为输入,学习编码特征序列的长时依赖,估计对应q个说话人的q个特征掩码。
21.进一步的,细分离模块包括精编码器、精分离器、精解码器,细分离模块作用前,将已存在的隐域上nc个基函数划分为p组,精编码器用于并行作用于每一组粗分离特征,学习同一个新的隐域隐域和隐域共同构成了一个高阶隐域得到细粒度编码空间,每一组得到分解后的编码特征;精分离器用于沿着隐域上的nc个基函数并行地分离p个编码特征,通过合并不同分支的分离结果,得到每个说话人的特征,精解码器用于将每个说话人的特征解码到时域信号,得到属于每个说话人的语音信号。
22.本发明的第三方面,提供了一种基于细粒度编码的语音分离装置,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述基于细粒度编码的语音分离方法。
23.本发明的第四方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行上述基于细粒度编码的语音分离方法。
24.本发明提供的一种基于细粒度编码的语音分离方法、装置及存储介质,先在单阶隐域所定义的粗粒度编码空间中初步分离混合语音,然后利用细粒度编码机制,将已存在的单阶隐域分解为高阶隐域,构建一个细粒度的编码空间,从而对初步分离的结果实现更加细粒度的特征分离。最终达到的有益效果有:
25.1.设计了一个细粒度编码机制,将单阶隐域分解为高阶隐域,从而将一个粗粒度的编码空间分解成为一个细粒度的编码空间,该空间具有更加精细的表征能力,提供了更强的说话人可分性。
26.2.设计了一个逐步细化的语音分离框架,在粗分离阶段,将粗粒度编码空间中初步分离混合语音;在细分离阶段,使用设计的细粒度的编码机制构建细粒度编码空间,以多分支的网络结构对粗分离阶段的分离结果进行更加精确的分离,不同分支之间共享网络参数。
27.3.本发明方法具有泛化性,可以应用于现有的任意基于编码-分离-解码结构的分离网络tasnet,包括但不限于dprnn-tasnet、dptnet-tasnet。
附图说明
28.图1是本发明实施例中基于细粒度编码的语音分离方法方法流程示意图;
29.图2是本发明实施例中细粒度编码机制方法示意图;
30.图3是本发明实施例中细分离阶段的分离方法示意图;
31.图4是本发明实施例中细分离阶段的解码方法示意图;
32.图5是本发明实施例中基于细粒度编码的语音分离装置结构示意图;
33.图6是本发明实施例中的计算机设备的架构。
具体实施方式
34.为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤。
35.参考图1,一种基于细粒度编码的语音分离方法,方法包括如下步骤:
36.粗分离阶段:以混合语音为输入,使用卷积神经网络学习一个单阶隐域,得到一个粗粒度编码空间,在粗粒度编码空间得到混合语音的编码特征,利用特征分离器对编码特征序列学习时域依赖,估计特征掩码,得到在粗粒度编码空间中的粗分离特征;
37.细分离阶段:以粗分离特征为输入,根据细粒度编码机制沿着已存在隐域的每一个基函数学习同一个新的隐域,已存在隐域和新学习的隐域共同构成一个高阶的隐域,得到一个细粒度编码空间,在细粒度编码空间中,使用共享参数的多分支网络结构,每个分支网络结构并行分离来自粗分离阶段得到的每个粗分离特征,将每个分支网络结构并行分离结果进行合并,得到在细粒度编码空间中的细分离特征,细分离特征解码后即为语音分离结果。
38.在一种可选实施例中,粗分离阶段实现包括粗编码器和粗分离器,粗编码器利用包含nc个滤波器的1-d卷积层结合非线性激活函数学习一个单阶隐域,得到混合语音在粗粒度编码空间的编码特征;粗分离器以编码特征为输入,学习编码特征序列的长时依赖,估计对应q个说话人的q个特征掩码。
39.具体地,粗编码器εc以混合语音x∈r1×
t
为输入,利用包含nc个滤波器的1-d卷积层结合非线性激活函数relu学习一个单阶隐域,由此定义一个粗粒度编码空间,得到混合语音在粗粒度编码空间的编码特征
40.具体地,粗分离器以编码特征fc为输入,学习特征序列的长时依赖,估计q个特征掩码分别对应于q个说话人。特征掩码为非负值,表示对应于不同基函数上的权重。对于说话人i,分离后的特征为其中,
⊙
表示逐元素点乘。
41.在一种可选实施例中,粗分离器可以是现有的多种tasnet中的任意一个分离器。
42.在一种具体实施例中,粗分离器采用dptnet-tasnet中的dptnet分离器,根据双路径时域建模策略来学习编码特征序列的长时依赖,具体步骤包括:
43.步骤1,使用一个层规范化和一个线性层来调整特征fc的通道数量;
44.步骤2,将编码特征fc按照步长为的长度,划分为多个连续的长度为l的特征段;
45.步骤3,利用r个dptnet块来实现时域建模,每一个dptnet块包括了段内路径和段间路径,分别学习段内的局部时域信息和段与段之间的全局时域信息,在dptnet中,段内路径和段间路径都由改进后的transformer层组成,其中前馈网络的第一个线性层被替换为双向长短时记忆神经网络,用来学习时域上的顺序信息;
46.步骤4,经过时域建模后,利用一个非线性变换prelu层和一个线性层将通道数扩张q倍;
47.步骤5,利用重叠求和操作操作来将特征段转化为特征序列,利用一个线性层和一个非线性激活函数relu估计得到最终的特征掩码
48.在一种可选实施例中,在训练过程中,粗分离阶段实现还包括粗解码器,利用1-d
转置卷积层将分离后的粗分离特征解码到时域上,得到属于每个说话人的语音信号。
49.具体地,粗解码器利用1-d转置卷积层将分离后的特征解码到时域上,得到属于每个说话人的语音信号
50.粗分离阶段的解码过程只在训练过程中进行,在推断过程只需要将分离后的特征输入到细分离阶段。
51.在一种可选实施例中,细分离阶段实现包括精编码器、精分离器、精解码器,细分离阶段实现前,将已存在的隐域上nc个基函数划分为p组,利用精编码器并行作用于每一组粗分离特征,学习同一个新的隐域隐域和隐域共同构成了一个高阶隐域共同构成了一个高阶隐域得到细粒度编码空间,每一组得到分解后的编码特征;精分离器沿着隐域上的nc个基函数并行地分离p个编码特征,通过合并不同分支的分离结果,得到每个说话人的特征,精解码器将每个说话人的特征解码到时域信号,得到属于每个说话人的语音信号。
52.具体地,在每个分支中,精编码器εr以粗分离阶段分离后的特征为输入,利用细粒度编码机制对特征进行细粒度编码:
53.参考图2,在细粒度编码机制的执行过程中,将已存在的隐域上nc个基函数划分为p组,然后将精编码器εr并行地应用于每一组学习同一个新的隐域隐域和隐域共同构成了一个高阶(二阶)的隐域得到细粒度编码空间,每一组得到分解后的特征参考图2,在细粒度编码机制的执行过程中,将已存在的隐域上nc个基函数划分为p组,然后将精编码器εr并行地应用于每一组并行地应用于每一组学习同一个新的隐域隐域和隐域共同构成了一个高阶(二阶)的隐域得到细粒度编码空间,每一组得到分解后的特征
[0054][0055]
经过细粒度编码后,得到在细粒度编码空间的特征大小为nr×
p
×
t
′
。
[0056]
参考图3,与细粒度编码机制中编码器共享过程相对应,利用精分离器沿着隐域上的nc个基函数并行地分离p个特征块
[0057][0058][0059]
其中,精分离器和粗分离阶段中的粗分离器在模型结果上一致,由r个dptnet块组成。通过合并不同分支的分离结果,属于第j个说话人的特征为每个分支分离后的第j个成分之和:
[0060]
参考图4,解码器包括两个基于1-d转置卷积层实现的子解码器和沿
着隐域上的nc个基函数并行地处理,即并行地将各个特征块解码到粗分离空间;将特征解码到时域信号,得到属于每个说话人的语音信号
[0061][0062][0063]
进一步地,在训练过程中,对整个方法模型进行端到端地联合优化,优化目标是最大化粗分离阶段和细分离阶段的估计语音与真实语音si(i=1,
…
,q)相比较的尺度不变源噪比si-snr,使用句子级别的置换不变训练方法upit对齐多个输出值和真实值,整个网路的训练损失函数为
[0064][0065][0066][0067]
其中,和分别代表粗分离阶段和细分离阶段的损失函数,π1和π2为在q个说话人的所有可能的q!中种置换所对应的集合中的元素。
[0068]
以下,参照图5来描述根据本公开实施例的与图1至图4所示的方法对应的装置,一种基于细粒度编码的语音分离装置,所述装置100包括:粗分离模块101,用于以混合语音为输入,使用卷积神经网络学习一个单阶隐域,得到一个粗粒度编码空间,在粗粒度编码空间得到混合语音的编码特征,利用特征分离器对编码特征序列学习时域依赖,估计特征掩码,得到在粗粒度编码空间中的粗分离特征;细分离模块102,用于以粗分离特征为输入,根据细粒度编码机制沿着已存在隐域的每一个基函数学习同一个新的隐域,已存在隐域和新学习的隐域共同构成一个高阶的隐域,得到一个细粒度编码空间,在细粒度编码空间中,使用共享参数的多分支网络结构,每个分支网络结构并行分离来自粗分离阶段得到的每个粗分离特征,将每个分支网络结构并行分离结果进行合并,得到在细粒度编码空间中的细分离特征,细分离特征解码后即为语音分离结果。除了这2个模块以外,装置100还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
[0069]
进一步的,粗分离模块101包括粗编码器1011和粗分离器1012,粗编码器1011用于利用包含nc个滤波器的1-d卷积层结合非线性激活函数学习一个单阶隐域,得到混合语音在粗粒度编码空间的编码特征;粗分离器1012用于以编码特征为输入,学习编码特征序列的长时依赖,估计对应q个说话人的q个特征掩码。
[0070]
可选的,粗分离模块101还包括粗解码器1013,用于在训练过程中,利用1-d转置卷积层将分离后的粗分离特征解码到时域上,得到属于每个说话人的语音信号。
[0071]
进一步的,细分离模块102包括精编码器1021、精分离器1022、精解码器1023,细分离模块102作用前,将已存在的隐域上nc个基函数划分为p组,精编码器1021用于并行作用于每一组粗分离特征,学习同一个新的隐域隐域和隐域共同构成了一个高阶
隐域得到细粒度编码空间,每一组得到分解后的编码特征;精分离器1022用于沿着隐域上的nc个基函数并行地分离p个编码特征,通过合并不同分支的分离结果,得到每个说话人的特征;精解码器1023用于将每个说话人的特征解码到时域信号,得到属于每个说话人的语音信号。
[0072]
一种基于细粒度编码的语音分离装置100的具体工作过程参照上述基于细粒度编码的语音分离方法的描述,不再赘述。
[0073]
此外,本发明实施例的装置也可以借助于图6所示的计算设备的架构来实现。图6示出了该计算设备的架构。如图6所示,计算机系统201、系统总线203、一个或多个cpu204、输入/输出组件202、存储器205等。存储器205可以存储计算机处理和/或通信使用的各种数据或文件以及cpu所执行的包括基于细粒度编码的语音分离方法的程序指令。图6所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图6中的一个或多个组件。
[0074]
本发明实施例也可以被实现为计算机可读存储介质。根据实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本发明实施例的基于细粒度编码的语音分离方法。
[0075]
综合上述各实施例提供的基于细粒度编码的语音分离方法、装置及存储介质,先在单阶隐域所定义的粗粒度编码空间中初步分离混合语音,然后利用细粒度编码机制,将已存在的单阶隐域分解为高阶隐域,构建一个细粒度的编码空间,从而对初步分离的结果实现更加细粒度的特征分离。设计了一个细粒度编码机制,将单阶隐域分解为高阶隐域,从而将一个粗粒度的编码空间分解成为一个细粒度的编码空间,该空间具有更加精细的表征能力,提供了更强的说话人可分性;设计了一个逐步细化的语音分离框架,在粗分离阶段,将粗粒度编码空间中初步分离混合语音;在细分离阶段,使用设计的细粒度的编码机制构建细粒度编码空间,以多分支的网络结构对粗分离阶段的分离结果进行更加精确的分离,不同分支之间共享网络参数;本发明方法具有泛化性,可以应用于现有的任意基于编码-分离-解码结构的分离网络tasnet,包括但不限于dprnn-tasnet、dptnet-tasnet。
[0076]
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
[0077]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
技术特征:
1.一种基于细粒度编码的语音分离方法,其特征在于,方法包括如下步骤:粗分离阶段:以混合语音为输入,使用卷积神经网络学习一个单阶隐域,得到一个粗粒度编码空间,在粗粒度编码空间得到混合语音的编码特征,利用特征分离器对编码特征序列学习时域依赖、估计特征掩码,得到在粗粒度编码空间中的粗分离特征;细分离阶段:以粗分离特征为输入,根据细粒度编码机制沿着已存在隐域的每一个基函数学习同一个新的隐域,已存在隐域和新学习的隐域共同构成一个高阶的隐域,得到一个细粒度编码空间,在细粒度编码空间中,使用共享参数的多分支网络结构,每个分支网络结构并行分离来自粗分离阶段得到的每个粗分离特征,将每个分支网络结构并行分离结果进行合并,得到在细粒度编码空间中的细分离特征,细分离特征解码后即为语音分离结果。2.根据权利要求1所述的语音分离方法,其特征在于,粗分离阶段实现包括粗编码器和粗分离器,粗编码器利用包含n
c
个滤波器的1-d卷积层结合非线性激活函数学习一个单阶隐域,得到混合语音在粗粒度编码空间的编码特征;粗分离器以编码特征为输入,学习编码特征序列的长时依赖、估计对应q个说话人的q个特征掩码。3.根据权利要求2所述的语音分离方法,其特征在于,粗分离器采用dptnet分离器,根据双路径时域建模策略来学习编码特征序列的长时依赖,具体步骤包括:使用一个层规范化和一个线性层来调整编码特征的通道数量;将编码特征按照步长为的长度,划分为多个连续的长度为l的特征段;利用r个dptnet块来实现时域建模,每一个dptnet块包括了段内路径和段间路径,分别学习段内的局部时域信息和段与段之间的全局时域信息,在dptnet中,段内路径和段间路径都由改进后的transformer层组成,其中前馈网络的第一个线性层被替换为双向长短时记忆神经网络,用来学习时域上的顺序信息;经过时域建模后,利用一个非线性变换prelu层和一个线性层将通道数扩张q倍;利用重叠求和操作将特征段转化为特征序列,利用一个线性层和一个非线性激活函数估计得到最终的特征掩码。4.根据权利要求1所述的语音分离方法,其特征在于,在训练过程中,粗分离阶段实现还包括粗解码器,利用1-d转置卷积层将分离后的粗分离特征解码到时域上,得到属于每个说话人的语音信号。5.根据权利要求1所述的语音分离方法,其特征在于,细分离阶段实现包括精编码器、精分离器、精解码器,细分离阶段实现前,将已存在的隐域上n
c
个基函数划分为p组,利用精编码器并行作用于每一组粗分离特征,学习同一个新的隐域隐域和隐域共同构成了一个高阶隐域得到细粒度编码空间,每一组得到分解后的编码特征;精分离器沿着隐域上的n
c
个基函数并行地分离p个编码特征,通过合并不同分支的分离结果,得到每个说话人的特征,精解码器将每个说话人的特征解码到时域信号,得到属于每个说话人的语音信号。6.一种基于细粒度编码的语音分离装置,其特征在于,所述装置包括:粗分离模块,用于以混合语音为输入,使用卷积神经网络学习一个单阶隐域,得到一个粗粒度编码空间,在粗粒度编码空间得到混合语音的编码特征,利用特征分离器对编码特征序列学习时域依赖、估计特征掩码,得到在粗粒度编码空间中的粗分离特征;
细分离模块,用于以粗分离特征为输入,根据细粒度编码机制沿着已存在隐域的每一个基函数学习同一个新的隐域,已存在隐域和新学习的隐域共同构成一个高阶的隐域,得到一个细粒度编码空间,在细粒度编码空间中,使用共享参数的多分支网络结构,每个分支网络结构并行分离来自粗分离阶段得到的每个粗分离特征,将每个分支网络结构并行分离结果进行合并,得到在细粒度编码空间中的细分离特征,细分离特征解码后即为语音分离结果。7.根据权利要求6所述的语音分离装置,其特征在于,粗分离模块包括粗编码器和粗分离器,粗编码器用于利用包含n
c
个滤波器的1-d卷积层结合非线性激活函数学习一个单阶隐域,得到混合语音在粗粒度编码空间的编码特征;粗分离器用于以编码特征为输入,学习编码特征序列的长时依赖、估计对应q个说话人的q个特征掩码。8.根据权利要求6所述的语音分离装置,其特征在于,细分离模块包括精编码器、精分离器、精解码器,细分离模块作用前,将已存在的隐域上n
c
个基函数划分为p组,精编码器用于并行作用于每一组粗分离特征,学习同一个新的隐域隐域和隐域共同构成了一个高阶隐域得到细粒度编码空间,每一组得到分解后的编码特征;精分离器用于沿着隐域上的n
c
个基函数并行地分离p个编码特征,通过合并不同分支的分离结果,得到每个说话人的特征,精解码器用于将每个说话人的特征解码到时域信号,得到属于每个说话人的语音信号。9.一种基于细粒度编码的语音分离装置,其特征在于,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-5中任一项所述的基于细粒度编码的语音分离方法。10.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-5中任一项所述的基于细粒度编码的语音分离方法。
技术总结
本发明公开了一种基于细粒度编码的语音分离方法、装置及存储介质,该方法包括粗分离阶段和细分离阶段,粗分离阶段先在单阶隐域所定义的粗粒度编码空间中初步分离混合语音,细分离阶段利用细粒度编码机制,将已存在的单阶隐域分解为高阶隐域,构建一个细粒度的编码空间,从而对初步分离的结果实现更加细粒度的特征分离。本发明设计了一个逐步细化的语音分离框架,可提供更精细的语音分离。可提供更精细的语音分离。可提供更精细的语音分离。
技术研发人员:卢光明 姚增伟 裴文杰 李亚桐 张伟彬 陈东鹏
受保护的技术使用者:哈尔滨工业大学(深圳)
技术研发日:2021.12.28
技术公布日:2022/3/8