拿到一个声音,听出来其中有文本,但是也有噪声,需要分析噪声的来源,噪声的特点,噪声的去除方式
可能使用神经网络来后处理解决,也可能生成的时候就借由神经网络解决,也可能采用传统语音后处理的方式
比如由tacotron合成的lpc features接上lpcnet,合成声音有噪声,明显看出波形的某个位置突然很极端
波形图和语谱图:
(不会用goldwave来看语谱图)
先观察波形,以挑噪声的角度来看
可能的后处理方案
https://www.sohu.com/a/146988029_778200https://blog.csdn.net/bibinGee/article/details/105104158ffmpegPyAudiosoxhttps://www.jianshu.com/p/cd47c4e6c661但它们的降噪功能并不强,只能去除背景噪声,而不能去除动态噪声(次声噪声之类的)
一般对于录音来说,够用,对于误差带来的特别的噪声,没有办法处理
需要讨论理解吴老师的想法
需要讨论理解吴老师的想法
这是目前的解决办法,凑出来的Spec不好,就不用了,考虑往前推,将矛盾的PPG送入到DCBHG,输出的Spec竟然是平滑的。利用了NN的误差的容忍能力
下面的是标准的:
下面的是矛盾的Spec:
下面的是矛盾的PPG经过CBHG生成的平滑的Spec:
不过不理解下面的话: