本技术涉及用于针对立体声或多声道音频编码和解码来控制分组丢失隐藏的方法和装置。
背景技术:
1、尽管电信网络的容量在不断增加,但限制每个通信信道的需要带宽仍然有极大兴趣。在移动网络中,用于每次呼叫的传输带宽越小,移动设备和基站的功耗就越低。这对于移动运营商转化成对能源和成本的节约,而最终用户将体验更长的电池寿命和更长的通话时间。进一步地,由于每个用户消耗的带宽更少,移动网络可并行为更大数量的用户提供服务。
2、通过现代音乐播放系统和电影院,大多数听众习惯于高质量沉浸式音频。在移动电信服务中,对无线电资源的约束和处理延迟已使质量保持在较低水平,并且大多数语音服务仍然仅传递单声道声音。最近,在需要单声道之外的沉浸式声音再现的虚拟/混合/增强现实的环境中,用于通信服务的立体声和多声道声音获得了动力。在电信网络的带宽约束内渲染高质量空间声音仍然是挑战。另外,声音再现还需要应对变化的信道条件,其中偶尔的数据分组可能例如由于网络拥塞或小区覆盖范围差而丢失。
3、在典型的立体声录音中,声道对表现出高度的相似性或相关性。立体声编码方案[1]的一些实施例可以通过采用参数编码来利用该相关性,其中单个声道被高质量地编码并且被补充有允许全立体图像的重建的参数描述。将声道对减少成单个声道的过程通常被称为下混合,所产生的声道通常被称为下混合声道。下混合过程通常通过在混合声道之前对准声道间时间差(itd)和声道间相位差(ipd)来尝试维持能量。为了维持输入信号的能量平衡,还可以测量声道间电平差(ild)。然后,itd、ipd和ild被编码,并且可以在解码器处重建立体声声道对时被用在反向的上混合过程中。itd、ipd和ild参数描述声道对的相关分量,而立体声声道对也可以包括不能从下混合中重建的非相关分量。这个非相关分量可以用声道间相干参数(icc)来表示。非相关分量可以在立体声解码器处通过使解码的下混合声道通过去相关滤波器来被合成,去相关滤波器输出与解码的下混合具有低相关性的信号。去相关分量的强度可以用icc参数来控制。
4、尽管参数立体声再现在低比特率下给出了良好的质量,但是由于参数模型的限制,质量随着比特率的增加而趋于饱和。为了克服该问题,可以对非相关分量进行编码。该编码是通过在编码器中模拟立体声重建并从输入声道中减去重建信号来实现的,从而产生残差信号。如果下混合变换是可逆的,则对于立体声声道的情况,残差信号可以仅由单个声道表示。通常,残差信号编码的目标是在心理声学上更相关的较低频率,而较高频率可以用去相关器方法来合成。图2是描绘用于包括残差编码器的参数立体声编解码器的常规设置的实施例的框图。在图2中,编码器接收输入信号,在立体声处理和下混合块210中执行上述的处理,经由单声道编码器220对单声道输出进行编码,经由残差编码器230对残差信号进行编码,并且对itd、ipd、ild和icc参数进行编码。解码器接收已编码单声道输出、已编码残差信号和已编码参数。解码器经由残差解码器250对残差信号进行解码,并经由单声道解码器260对单声道信号进行解码。参数合成块270接收已解码单声道信号和已解码残差信号,并基于参数来输出立体声声道ch1和ch2。
5、类似的原理适用于诸如5.1和7.1.4之类的多声道音频以及诸如高保真立体声(ambisonics)或空间音频对象编码之类的空间音频表示。通过利用声道之间的相关性并将减少的声道集与用于在解码器处的声道重建或空间音频渲染的元数据或参数捆绑在一起,可以减少声道数量。
6、为了克服传输错误和丢失数据包的问题,电信服务使用分组丢失隐藏(plc)技术。在数据分组由于连接不良、网络拥塞等被丢失或损坏的情况下,在接收机侧的丢失或损坏数据分组的丢失信息可以由解码器用合成信号代替,以隐藏丢失或损坏数据分组。plc技术的一些实施例通常与解码器密切相关,其中内部状态可以被用于产生信号延续或外推以掩盖分组丢失。对于具有用于不同信号类型的若干操作模式的多模式编解码器,通常有若干种plc技术可被实施以处理丢失或损坏数据分组的隐藏。
7、对于基于线性预测(lp)的语音编码模式,可以使用的技术是基于使用所估计的帧结束音高信息和前一帧的音高周期的复制来调整声门脉冲位置[2]。取决于连续丢失帧的数量和最后一个好帧的稳定性,长时预测器(ltp)的增益随速度收敛到零[2]。基于频域(fd)的编码模式通常被设计为处理一般或复杂的信号,诸如音乐。对于这种信号,可取决于最后接收的帧的特性来使用不同的技术。这种分析可以包括检测到的音调分量的数量和信号的周期性。如果帧丢失发生在高度周期信号(诸如活动语音或单一器乐)期间,则类似于基于lp的plc的时域plc可能适于实施。在这种情况下,fd plc可通过基于最后接收的帧来估计lp参数和激励信号来模拟lp解码器[2]。如果丢失帧发生在非周期或类噪声信号期间,则最后接收的帧可在频谱域中被重复,其中系数与随机符号信号相乘以减少重复信号的金属声音。对于平稳音调信号,已经在一些实施例中发现使用基于检测到的音调分量的预测和外推的方法是有利的。关于上述技术的更多细节可以在[2]中找到。
8、在频域中操作的一种隐藏方法是相位ecu[3]。它可以被实现为在先前已解码和重建的时间信号的缓冲器上操作的独立工具。它的框架是基于正弦分析和合成范式。在该技术中,最后一个好帧的正弦分量被提取并进行相移。当帧丢失时,在dft域中从过去的解码合成中获得正弦频率。首先,通过找到幅度谱平面的峰值来识别对应的频率区(bin)。然后,使用峰值频率区来估计峰值的分数频率。峰值频率区和对应的分数频率可以被存储以用于创建丢失帧的替换。使用分数频率来对与峰值连同相邻值对应的频率区进行相移。对于帧的剩余频率区,过去的合成的幅度被保留,而相位可以被随机化。突发错误也可以被处理,以使得估计信号可以通过使它收敛到零来被平滑地静音。相位ecu的更多详细信息可以在[3]中找到。
9、有许多不同的术语用于分组丢失隐藏技术,包括帧错误隐藏(fec)、帧丢失隐藏(flc)和错误隐藏单元(ecu)。
10、上述的plc技术是被设计用于单声道音频编解码器的技术。对于立体声或多声道解码器,用于错误隐藏的一个解决方案可以是在每个声道上应用任一种上述的plc技术。然而,该解决方案不提供对信号的空间特性的任何控制。使用该解决方案很可能将创建非相关信号,这会给出听起来不自然或太宽的立体声或多声道输出。对于图2中描绘的立体声情况,这转化成对下混合信号和对残差信号分量分别使用单声道plc。
11、残差信号分量的错误隐藏可能特别敏感,因为残差分量可以被添加到在空间上未被掩蔽的副信号(side signal)。不连续性导致副信号的特性发生巨大变化,并且因此在被听见时很容易被检测和发现是扰乱的。
技术实现思路
1、根据本发明构思的一些实施例,提供了一种在解码设备中对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的方法。该方法包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该方法还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该方法还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该方法还包括:使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧,并向参数多声道音频合成组件提供变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧。该方法还包括执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。
2、将用于频谱的峰值的相位演变错误隐藏方法与来自通过去相关器后的错误隐藏下混合信号的噪声频谱相结合的潜在优势在于:该操作通过对峰值进行相位调整来避免了周期信号分量中的不连续性。另外,噪声频谱与下混合信号保持期望的关系,例如期望的相关性水平。另一个潜在优势是该操作在帧丢失期间将残差信号的能级保持在稳定水平。
3、根据本发明构思的其他实施例,一种装置被配置为对所接收的多通道音频信号的丢失或损坏多通道音频帧进行近似。该装置包括至少一个处理器和与处理器通信耦合的存储器,所述存储器包括可由处理器执行的指令,这些指令使得处理器执行操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧,并向参数多声道音频合成组件提供变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧。该操作还包括执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。
4、根据本发明构思的其他实施例,一种解码器被配置为执行操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧,并向参数多声道音频合成组件提供经换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧。该操作还包括执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。
5、根据本发明构思的其他实施例,一种计算机程序产品包括存储计算机程序代码的非暂时性计算机可读介质,该计算机程序代码在由至少一个处理器执行时使得至少一个处理器:生成下混合错误隐藏帧;将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧;对变换后下混合隐藏帧去相关以生成去相关隐藏帧;获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱;使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧;向参数多声道音频合成组件提供变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧;以及执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。
6、根据本发明构思的一些其他实施例,提供了一种在包括处理器的解码设备中对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的方法,该方法包括由处理器执行的以下操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧。该操作还包括获得多声道音频替换参数集。该操作还包括执行变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、和来自先前接收的多声道音频信号帧的多声道音频参数的逆频域变换,以生成变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧、和多声道音频时域参数。该操作还包括向参数多声道音频合成组件提供变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧和多声道音频时域参数,以生成合成多声道音频替换帧。
7、根据本发明构思的一些其他实施例,一种计算机程序产品包括存储计算机程序代码的非暂时性计算机可读介质,该计算机程序代码在由至少一个处理器执行时使得至少一个处理器:生成下混合错误隐藏帧;将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧;对变换后下混合隐藏帧去相关以生成去相关隐藏帧;获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱;使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧;获得多声道音频时域替换参数集;执行变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧的逆频域变换,以生成变换后下混合错误隐藏时域帧和能量被调整的去相关残差隐藏时域帧;以及向参数多声道音频合成组件提供变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧、和多声道音频时域替换参数,以生成合成多声道音频替换帧。
8、根据本发明构思的一些其他实施例,提供了一种被配置为对所接收的多通道音频信号的丢失或损坏多通道音频帧进行近似的装置。该装置包括至少一个处理器和与处理器通信耦合的存储器,所述存储器包括可由处理器执行的指令,这些指令使得处理器执行操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧。该操作还包括获得多声道音频替换参数集。该操作还包括执行变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、和来自先前接收的多声道音频信号帧的多声道音频参数的逆频域变换,以生成变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧、和多声道音频时域参数。该操作还包括向参数多声道音频合成组件提供变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧和多声道音频时域参数,以生成合成多声道音频替换帧。
1.一种在解码设备中对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,通过重复来自所述先前接收的多声道音频信号帧的参数来获得所述多声道音频替换参数集。
3.根据权利要求1所述的方法,还包括:
4.根据权利要求1所述的方法,其中,获得所述残差信号频谱包括:从存储设备取回所述残差信号频谱。
5.根据权利要求1所述的方法,其中,生成所述能量被调整的去相关残差信号隐藏帧包括:
6.根据权利要求1所述的方法,其中,生成所述能量被调整的去相关残差信号隐藏帧包括:
7.根据权利要求1所述的方法,其中,生成所述能量被调整的去相关残差信号隐藏帧包括:在分数频率的尺度上检测在所述已存储残差信号的所述残差信号频谱中是否存在峰值频率。
8.根据权利要求7所述的方法,其中,响应于在所述残差信号频谱中没有检测到峰值频率,使用所述能量被调整的去相关残差信号隐藏帧的谱系数来填充所述残差信号隐藏频谱的每个区。
9.根据权利要求5所述的方法,其中,调整所述能级包括:将所述去相关隐藏帧的区的相位与所述残差信号隐藏频谱的区的幅度进行组合。
10.根据权利要求9所述的方法,其中,组合所述相位包括:通过将所述残差信号隐藏频谱的实分量和虚分量的符号和阶数匹配到所述去相关隐藏帧来应用近似相位调整。
11.一种音频解码器,被配置为对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似,所述音频解码器被配置为:
12.根据权利要求11所述的音频解码器,其中,通过重复来自所述先前接收的多声道音频信号帧的参数来获得所述多声道音频替换参数集。
13.根据权利要求12所述的音频解码器,进一步被配置为:
14.根据权利要求11所述的音频解码器,其中,获得所述残差信号频谱包括:从存储设备取回所述残差信号频谱。
15.根据权利要求11所述的音频解码器,其中,生成所述能量被调整的去相关残差信号隐藏帧包括:
16.根据权利要求11所述的音频解码器,其中,生成所述能量被调整的去相关残差信号隐藏帧包括:
17.根据权利要求11所述的音频解码器,其中,生成所述能量被调整的去相关残差信号隐藏帧包括:在分数频率的尺度上检测在所述已存储残差信号的所述残差信号频谱中是否存在峰值频率。
18.根据权利要求17所述的音频解码器,进一步被配置为:响应于在所述残差信号频谱中没有检测到峰值频率,使用所述能量被调整的去相关残差信号隐藏帧的谱系数来填充所述残差信号隐藏频谱的每个区。
19.根据权利要求15所述的音频解码器,其中,调整所述能级包括:将所述去相关隐藏帧的区的相位与所述残差信号隐藏频谱的区的幅度进行组合。
20.根据权利要求19所述的音频解码器,其中,组合所述相位包括:通过将所述残差信号隐藏频谱的实分量和虚分量的符号和阶数匹配到所述去相关隐藏帧来应用近似相位调整。