噪声回放系统的研究与运用
引言
随着人们的生活品质提高,对于音频产品的要求也越来越高。在乘坐飞机、火车时,为了获得安静的休息空间,人们通常会选用带ANC降噪的耳机,减小耳道内的噪声干扰。在进行通话的时候,需要突出主讲方的话语声,周围的环境噪声也要被过滤掉,因此通讯设备必须具备ENC算法。再或者是人们需要在嘈杂的环境下使用智能语音交互设备,比如开着电视的时候想让自己的智能音箱播报时间, 如果不对麦克风收到的声音信号做过滤处理,智能设备可能无法被唤醒,或者被误唤醒。
因此,在音频领域,对噪声的处理已经变得越来越重要。音频工程师在调试噪声处理算法的时候,如果去户外进行调试,户外的噪声环境多变,调试完成后并不能准确的复现前一次的场景。因此怎样在实验室环境下,真实复现实际环境中不同场景下的背景噪声,就显得非常必要。
1 噪声回放系统的运用
噪声回放系统主要运用在于需要在特定的声场环境中复现出多种不同的实景噪声,给声学算法研发提供一个稳定可控的测试环境[1]。目前噪声回放系统主要运用在三个领域:隔音降噪测试、通话降噪测试、语音识别测试。
1.1隔声降噪测试
隔声降噪的作用,是让人能尽可能的听不到外界的噪声。如乘坐飞机、火车等交通工具的时候,人们需要一个安静的环境休息,或者在安静的环境下享受一些音乐,耳机隔声降噪便能在这样的情境下起到很大的作用。再或者车内需要一个安静的环境,不能被路噪干扰太多。
隔声降噪分为两部分,物理降噪和算法降噪。物理降噪是靠物体本身,如耳机的耳塞部分,车的整体密封性,都能起到一定的降噪作用。低频的声音绕射能力强,高频的声音绕射能力弱,因此物理降噪针对高频有良好的降噪效果。针对低频噪声,一般采用ANC降噪,也就是反相波抵消的方式降噪。扬声器播放与外界噪声同幅反相的声波,使其与噪声叠加抵消。而高频很难适用。根据公式
T= 1/f (1)
100Hz的声音传过自身波长的时间是10ms,5000Hz的声音传过自身波长的时间是0.2ms,算法的适配时间很难做到这么低,因此高频很难使用ANC降噪。
在实验室中,我们实际采用实际录制的环境噪声,在消声室中进行噪声回放,测试Airpods Pro的降噪曲线,如图1所示。
蓝线:原始噪声曲线 红线:被动降噪曲线
绿线:主动降噪曲线
图1 AirPods Pro 的降噪曲线
1.2 通话降噪测试
在通讯过程中,背景噪声传输质量是影响语音感知整体质量的一个重要因素。 通话降噪一般采用多mic降噪,利用波束成型的算法,针对人嘴方向作为主要收音方向,其余方向的声音被作为环境噪声。利用wiener filter等滤波器进行噪声的剔除。
测试采用ETSI 103 106[2]标准,在消声室中进行回放标准的场景噪声,同时人工头说标准的语音。分析麦克风采集到的声音,传输背景噪声不能太大,并且时域与频域都要平稳为佳。人嘴的语音要完整清晰,不能有过多衰减。测试结果为mos值评定。Nmos评估对噪声的抑制能力,Smos评估对语音的还原能力。测试值从1~5分进行打分,分数越高代表能力越佳。
1.3 语音识别测试
语音识别与通讯降噪类似,需要在噪声+与语音的环境中识别语音剔除噪声,并且进行识别[3]。在有混响的听音室中进行噪声回放,模拟家庭/户外的环境噪声,测试智能设备在噪声下的唤醒率、识别率、误唤醒率。
2 噪声回放系统的硬件架构
2.1 原始声场录音设备
噪声回放系统的录音通常需要模拟人耳的听感,使回放后的声音与原始噪声场的听感完全相同[4]。录音采用能代表多数人头模型的头肩模拟器[5],头肩模拟器应满足ITU-T P.58的标准。人工头垂直头部截面尺寸如图2所示,耳廓的设计需满足ITU-T P.57的标准要求,耳廓的平面与截面如图3所示。
图2 垂直头部截面尺寸(单位毫米)
图3 耳廓的平面与截面(单位毫米)
图4中所示的由HBK公司制作4128C人工头Type3.3右耳的测量数据,从2N~18N,以2N作为一个步进,测量各频点的灵敏度。
图4 不同压力下的耳频响曲线测试
因为人头设计有差异,不同的人头会对声场会有不同的频响曲线。为了使不同的人头的得到的曲线归一化,录音时会引入双耳均衡。双耳均衡一般有三种:
(1)自由场均衡(Free Field Equalization):接收在消声室中从正面传来的入射声时,人头频响曲线是一条直线。
(2)扩散场均衡(Diffuse Field Equalization):接收在扩散场中从随机方向传来的入射声时,人头频响曲线是一条直线。
(3)无方向场均衡(Independent of Direction Equalization):只考虑无方向性的器件影响(如共振,耳道等),人头频响曲线是一条直线。
2.2 测试声场要求
噪声回放系统需要在特定的房间中进行搭建,房间要求如下:
·房间尺寸: 房间尺寸需要在 2.5 m×3m 到 3.5 m×4m 之间。房间高度在2.2m 到 2.5m 之间。
·在200Hz-8kHz之间,房间混响时间小于0.7s。
·房间的本底噪声小于30 dB (A)。
2.3 背景噪声回放设备
·四个高保真扬声器,扬声器功率在100 W以上,灵敏度至少80dB(1 W/1m),频响曲线至少在120Hz-20kHz的区间范围内波动不超过±3dB。
·低音炮,提供20Hz~200Hz的低频声音。
·国际标准人工头(同2.1)。
·高品质功放。
·高品质声卡(能进行EQ调试)。
·测量分析系统(如 HBK LAN-XI 3160-A042)。
3 噪声回放系统搭建流程
3.1 声场还原技术要求
声场的还原应做到人在声场中心的听感与在实际场景中的听感没有太大区别。在数据上表现为原始声场与模拟声场平均的声压级的大小差异应在±1dB之内,频域曲线对比每个频域点差值在±3dB之内。
3.2 声场布置
扬声器的布置应是按照矩形摆放,如图5所示。人工头放在声场的正中心位置,四个扬声器按照矩形放在人头的四个角上,距离为两米,但是不要放置在房间的四个角上。如果房间是一个非矩形的形状,音箱不按照严格的矩形摆放,稍不对称是可取的。高质量的扬声器应与理想的频率响应相差9dB之内,过于强烈的滤波器需求,通常会导致不稳定的声场。在全消声室中,稍微的不对成摆放可以减轻comb filter由于对称所造成的干扰。四个扬声器的高度基本相同,低音炮的摆放方式不重要,由于低频的强穿透效果,低音炮可以摆放在除了房间角落之外的任何区域。
图5 扬声器的布置位置
3.3 声场声压级调节
人工头放在中心位置,选用与录音时相对应的滤波方式(FF,DF,ID)采集声音。调节扬声器音量大小。由于声场是需要由四个扬声器一起形成的,因此每个扬声器的声压级需要比声源小6dB。
3.4 声场均衡
① 对单个扬声器进行均衡。使用一个粉红噪声,分别给到四个喇叭。给的信号频率范围为120Hz~20kHz。左边的扬声器作为左通道被左耳接收,计算耳接收到的频率曲线,与原始音源的频率曲线相比较,根据公式
可以计算出扬声器的相对频响曲线,取3rd OCT。获得了相对频响曲线后,需要反向推出滤波均衡函数
(3)
均衡的结果在120Hz ~10kHz之间的波动在
±3dB之内。且均衡最大衰减或补偿值不能超过9dB。均衡后的曲线如图6。
图6 均衡后的频响曲线
② 将左/右两个扬声器作为一组,如②步骤调节滤波器进行均衡,使得一组扬声器的曲线能够在±3dB之内波动。为了消除粉红噪声周期性带来的干扰,这个声源一般使用平稳的实际录音(如车噪)。如果一组扬声器可以达到符合框线的频响曲线,单个扬声器没有达到也是被允许的。
③ 低音炮的均衡频率在30Hz~120Hz之间。高于120Hz的部分需要以18 dB/OCT的分频斜率做低通滤波。为了避免过多的低频干扰,可以使用50Hz的高通滤波器,分频斜率为12dB/OCT。
均衡依旧采用粉红噪声作为测试声源,用3rd OCT做频域曲线,框线衔接高频扬声器,为±3dB。
④ 为了减轻扬声器叠加所产生的相位干扰与梳状滤波器效应,四个扬声器需要被加上不同的延时。由于房间几何形状与摆放方式的不同,延时值需要搭配FIR/IIR滤波器使用。最大的延时长度不应超过50ms。在标准的矩形测试室中,布置标准的扬声器位置,四个扬声器的延时值约为0ms、11ms、17ms、29ms。
3.5 声场验证
验证声场的均衡,将四个扬声器与低音炮一起播放声源,声源选择平稳的实际录音。检查频率范围50Hz~10kHz,检查频响曲线是否在±3dB的框线之内,检查人耳听到的平均声压级与音源的声压级的差值在±1dBz之内。
4 声场回放效果对比分析
在VoiceX实验室中,搭建HBK的STQ型背景噪声回放系统,如图7所示。
图7 VoiceX语音测试实验室
HBK的STQ型背景噪声回放系统做到了全程声场均衡自动化,能非常精准的进行声场均衡校准。如图8所示。
声场布置完成后进行实际测试检验。将人工头放在声场中间,播放录制好的场景噪声,用人工头的左耳和右耳分别录制背景噪声,得到频域曲线。再将频域曲线与原始录音的频域曲线进行对比,如图9、图10所示。由图可见,均衡后的声场与原始噪声声场频域曲线几乎贴合,拥有较好的声场还原性[6]。
图8 HBK STQ系统声场均衡界面
图9 左耳曲线对比
图10 右耳曲线对比
5 总结
本文围绕在实验室环境中实现背景噪声声场还原的需求,提出了背景噪声回放系统的搭建技术要求和实现手段,重点分析了声场滤波均衡的过程,实现了在实验室中就可复现出外界环境噪声的期望,为音频算法的研发提供了极大的便利。
未来,该系统可搭配语音识别系统使用。并且可增加通道数,将音箱数量扩大到8个甚至更多,形成环绕的音箱矩阵,让模拟的声场具有更良好的方向感。人在声场中间闭眼倾听,仿佛身临其境,从声场感受出环境中的位移变换。该系统还可用于车载中,在高速行驶的车中使用多麦克风录音后,在实验室中还原出车在行驶时的噪声,可为车载降噪技术提供强有力的辅助[7]。