该版本EnglishASR指使用英文ASR的PPG做跨语言,由于效果明显中国人合成中文就有很明显的含糊,因此不再进行版本优化
将此版本作为历史版本,ckpt放在那里,不做迭代性改动,做减法。抱歉~作为对比baseline打分mos同步实验室和公司,作为第一个能出声的项目实验一下流程Git地址:https://github.com/ruclion/bilingual-ppg/tree/EnglishASR-hujiankun590-1019
代码上下游修改锁在Git的readme中,也截个图吧
在服务器上,将 /datapool/home/hujk17/ppg_decode_spec_5ms_sch_DataBakerCN 移动到bilingual-ppg下面
不会cp并且排除ckpt,所以先mv ckpt dir到上一层,然后再拷贝(老方法,注意名字特殊点)拷贝后更改.gitignore,status中不会看具体文件夹内部的,只能保证.ignore准确;回头问下git一系列操作到web上和中文一样
从Git:https://github.com/ruclion/ppgs_extractor_5ms_lh
服务器:/datapool/home/hujk17/ppgs_extractor_5ms_lh
简化而来
目的是给一段wav文件,可以得到mfcc,ppg,mel,spec对
以两句话为例子:
inference_wavs_path_list.txt:
0.wav
1.wav
简化声学特征提取:bilingual-ppg/wav_extract_ppg/Get_MFCC_SPEC_MEL_XXX_5ms.py改正audio.py为我的,原来的audio.py加上old_1后缀在路径bilingual-ppg/wav_extract_ppg下:python Get_MFCC_SPEC_MEL_XXX_5ms.py 生成的东西也在bilingual-ppg下:bilingual-ppg/xxx_mfcc_5ms_by_audio_2(所有生成的东西都在大目录下)同样修改wav_extract_ppg/generate_batch_XXX_5ms.py,生成bilingual-ppg/xxx_ppg_5ms_by_audio_2
语谱图没有画,太差了,没必要画,等到下一个代码出来以后再对比吧