干货周记: 趣说“语音降噪”(三)(番外篇19)

145     2025-02-04 13:29:16

上回,咱们说到了“传统语音降噪”里的各路江湖门派。

干货周记:趣说“语音降噪”(一)(番外篇17)

干货周记:趣说“语音降噪”(二)(番外篇18)

虽说各大门派都曾风光一时,也都是武林中的经典侠客,但却也难免,各有各的软肋,比如当非稳态等“花式噪声”入侵时,很多选手是招架不住的。

然而,这些老师傅们,既然能一直与AI并存,自然也有其道理(算得快、功耗低、占用资源少),“冷兵器”和“火药"都有自己的用武之地。

如果说“传统降噪”是封闭式游戏,那么“AI降噪”就是开放式的游戏世界,而且在这里,氪金很好使。

上次说过,Roy在一个论坛活动上,碰到了一个语音降噪的demo,效果奇好,上前询问,得知其用了一个口碑不错的AI模型,代价是其对算力和资源的消耗巨大,一般的DSP跑不下。

很多时候,只要钱给够,无脑上“高制程芯片”+“AI大参数/计算算法”,效果就能嘎嘎好。这也让Roy发现了件事儿:很多原先“手艺人”的绝世妙招,在AI日益精进的衬托之下,开始变得黯淡了。

很多学者毕生研究出的独门秘技,可能一出门,就被隔壁小王的AI模型,给秒杀了。这一幕是不是很戏剧?

(说到AI,顺便提一下,非常开心看到咱Deepseek和Kimi的崛起,这还真是个不错的新年礼物)。

一、AI降噪小历史

早期的AI降噪,很多是基于支持向量机SVM的,但它的局限也明显:不善于处理非结构化数据,当数据复杂时,效果明显会受限。

然后,基于“简单神经网络的AI降噪”开始兴起,从SVM到NN,在自由度上前进了一大步。但这个阶段,还主要以单纯基于CNN、RNN和DNN的模型为主,威力有限,效果谈不上有多好。

再然后,基于“混合神经网络的AI降噪”上线了,包括“实数神经网络”、“复数神经网络”、“端到端时域神经网络”、“单阶段处理”、“多阶段处理”等模型的玩法,层出不穷。以Roy有限的了解,“复数神经网络+多阶段处理”是目前的佼佼者,其降噪效果,已经可以令人称奇了。

二、基础概念

在聊AI降噪之前,咱得先了解几个概念:

DNN:深度神经网络。它像个大脑。有很多层神经元。数据从最外层神经元进去,每层神经元都会根据自己所学,对输入数据处理,最后由末层输出预测结果。这里的 “深度” 就是指可以有很多层,层级深。

补充:它包括输入层、隐藏层和输出层。隐藏层通常有很多层,神经元之间通过权重连接。数据在各层间传递,经过非线性激活函数处理,不断学习输入数据的复杂特征表示,用于解决分类、回归等各种问题。

CNN:卷积神经网络。它是个局部细节控,善于提取局部特征。它工作时,会拿“卷积核"去扫数据,一次就扫一小块。每扫完一块,就会得到一个特征值。扫完后,它还会做池化(类似无损压缩),精简信息,最后再做判别。

补充:通过卷积层对输入数据做卷积,用卷积核在数据上滑动,进行加权求和,提取局部特征。之后可能会由池化层,对数据下采样,减少数据量的同时,保留特征。最终由全连接层,做分类或回归。

RNN:循环神经网络。它是个记忆高手。RNN在处理数据时,会结合上一个处理结果,更好地去思考和理解。因为它记得前面的信息,所以可以敏锐地捕捉到数据上下文联系。它很适合处理像语音、文本这种有顺序的数据。

它的记忆力是咋来的?这主要归功于反馈连接,它允许信息在神经元之间循环流动。在处理序列数据x(t)时,此刻的隐藏状态h(t)不仅取决于x(t),还取决于上一时刻的隐藏状态h(t-1), 即,

其中 Wxh, Whh是权重矩阵,bh是偏置,f是非线性激活函数。这种结构能让RNN具备记忆力。

LSTM:长短期记忆网络。它是RNN 的“升级版”。RNN虽能记住前面的信息,但太长了也会忘。LSTM为加强记忆力,解决梯度爆炸等问题,引入了三个门。一个叫 “输入门”,它决定哪些新信息可以放入记忆;第二个是“遗忘门”,它可决定哪些旧信息可以忘掉;第三个是“输出门”,它决定取出哪些记忆信息来处理当前数据。

其中,Ct为记忆单元,it为输入门,ft为遗忘门,ot为输出门。

GRU:门控循环单元。它也是RNN改进版,和LSTM有点像,但更简洁一些。它只有两个门,一个”更新门”,决定要保留旧记忆还是接受新信息;一个“重置门”,决定要把多少旧记忆忘掉。它虽然没有 LSTM 那么复杂,效果也不差,而且计算起来,还更快。

其中,Zt是更新门,rt是重置门。“更新门”决定将多少过去的隐藏状态h(t-1)保留到此刻,“重置门”决定在当前候选隐藏状态对过去隐藏状态的依赖程度。

GAN:对抗生成网络。这是一场“艺术家”和“评论家”的较量。它有一个生成器,用来创作内容,还有一个判别器,用来判断内容的真伪。生成器努力创作,想骗过判别器,而判别器则努力提高自己的鉴别力,避免被骗到。在这个过程中,二者的水平都会不断地提升。

CRN:卷积递归神经网络。它是CNN和RNN的深度融合体。取二者之所长,可同时从时间和空间进行建模,既能得到精细的局部特征,又有全局特征的时间建模记忆力(通常会包含CED和递归层架构),此外,还有DPCRN, DCCRN...等等,不再赘述。

ERB和DF。

ERB指增强残差块:它是一种网络结构单元,其作用是进一步提高网络性能,通常在传统残差块基础上做了些改进,减少了运算复杂性,节省资源,也有助于更好地解决深度NN训练过程中的各种“梯度”问题。

DF即为导数,用于描述函数在某一点的变化率。神经网络里,导数主要用于计算损失函数对各个参数的梯度,以便进行反向传播和参数更新,让系统朝着损失函数最小化的方向进行训练。

编码器与解码器。

模型编码器:将“低纬度高复杂度"信息,转为“高维度低复杂度”的特征信息,就像是把一篇文章的要点,提取要点,浓缩在一张卡片上一样。

模型解码器:就是上述的逆过程,就像从卡片上的关键词,恢复出原本文章内容。在AI降噪/增强应用中,它的输出就代表着清晰的语音信号。

好,了解完这些基本概念,咱以后再看到那些唬人的框图,就不至于再懵圈了。咱下期,也就可以不那么啰嗦了。

行,天儿也不早了,今儿就先聊到这儿,咱们下期给“AI降噪”收官。

End

Roy个人观点,仅供参考。

如果你对数码产品、英语学习和励志成长也感兴趣,也可关注各平台上的同名视频账号:微博、抖音、视频号,B站、小红书:科技朋克Roy,知乎:Roy