Skip to content

Latest commit

 

History

History
34 lines (21 loc) · 2.95 KB

File metadata and controls

34 lines (21 loc) · 2.95 KB

The-guidebook-of-speech-enhancement

这是一个自娱自乐的项目。

Sorry, this repostitory is just for fun, and does not support English or other non-Chinese languages at this time.

自2018年Prof. Wang的Supervised Speech Separation Based on Deep Learning: An Overview之后, 似乎总缺少关于语音增强领域的综述。然而不论是学术界还是业界,近年来语音增强领域的发展都是迅速的。 因此,面对他人问及有关深度学习语音增强技术的资料时,我总不能找到一份于今日而言仍是满意的文献或博客。

另一方面,近年来无疑语音增强的涉入者日趋增多,开源社区和研究文献愈加丰富,远胜于当年。虽然我对开源文化并不积极,抑或说对降低门槛之类的言论仍持否定。 但不得不承认,这些工作确实一定程度上加速了社区的发展。然而,其中一些常不慎落入陷阱之中出现失误,这些失误若不能鉴别可能会受其误导(包括但不限于有误的结论、无意识的非实时[测试代码]、不公平的消融实验以及审稿人要求与有误的文章进行对比等)。

最后,适当结合论文、代码和社区可能对初学者更有帮助,在另一个项目awesome-speech-enhancement中我已经试图将一些代表性文章、对应代码和作者的github账号结合展示, 很高兴这个项目得到了社区中许多同伴的支持和帮助。因此,这点的沿用似乎是可以的,但是仅仅以这种形式却无法解决第二点问题。

恰逢一段闲暇时,便开了这样一个项目以抛砖引玉。当然这个项目既不敢称为综述(也确实不是综述),亦不能称之为书(却也不足以成书),甚至不知以我之拖延能否坚持写完。只希望项目完成之时供初学者能做个参考, 但凡有一星半点对他人有益,即可谓得其所哉了。

一则此项目望供初学者初窥门径,二则笔者也尚在探究之中,故命名以 语音增强初探

本项目可通过该链接🔗访问查看。

  • 本项目因并未完成且涉及社区开源代码,暂不支持任何形式的转载;
  • 本项目请勿issue、fork和PR,如有问题或希望参与其中可邮件沟通;
  • 本项目参考文献引用尚不完全、内容尚待更新、图文尚需校正;之所以现在设为public是因为无法在项目private时通过网址访问;
  • 本项目暂不考虑英文版;
  • 本项目初步打算完成基于深度学习的单通道语音增强算法部分(Part 1),后续可能会拓展去混响、AEC、AGC和阵列部分作为其他Part;
  • Latex模板修改自Springer

行笔匆匆,疏漏难免。如有错讹,烦请见谅。