bilingual-ppg项目分支EnglishASR-hujiankun590-1019

it2023-01-20  53

说明

该版本EnglishASR指使用英文ASR的PPG做跨语言,由于效果明显中国人合成中文就有很明显的含糊,因此不再进行版本优化

将此版本作为历史版本,ckpt放在那里,不做迭代性改动,做减法。抱歉~作为对比baseline打分mos同步实验室和公司,作为第一个能出声的项目实验一下流程

Git地址:https://github.com/ruclion/bilingual-ppg/tree/EnglishASR-hujiankun590-1019

代码上下游修改锁在Git的readme中,也截个图吧

Git和服务器

ppg_decode_spec_DataBakerCN

在服务器上,将 /datapool/home/hujk17/ppg_decode_spec_5ms_sch_DataBakerCN 移动到bilingual-ppg下面

不会cp并且排除ckpt,所以先mv ckpt dir到上一层,然后再拷贝(老方法,注意名字特殊点)拷贝后更改.gitignore,status中不会看具体文件夹内部的,只能保证.ignore准确;回头问下git一系列操作到web上

ppg_decode_spec_LJSpeech

和中文一样

wav_extract_ppg

从Git:https://github.com/ruclion/ppgs_extractor_5ms_lh

服务器:/datapool/home/hujk17/ppgs_extractor_5ms_lh

简化而来

目的是给一段wav文件,可以得到mfcc,ppg,mel,spec对

以两句话为例子:

inference_wavs_path_list.txt:

0.wav

1.wav

 

简化声学特征提取:bilingual-ppg/wav_extract_ppg/Get_MFCC_SPEC_MEL_XXX_5ms.py改正audio.py为我的,原来的audio.py加上old_1后缀在路径bilingual-ppg/wav_extract_ppg下:python Get_MFCC_SPEC_MEL_XXX_5ms.py 生成的东西也在bilingual-ppg下:bilingual-ppg/xxx_mfcc_5ms_by_audio_2(所有生成的东西都在大目录下)同样修改wav_extract_ppg/generate_batch_XXX_5ms.py,生成bilingual-ppg/xxx_ppg_5ms_by_audio_2

wav_extract_ppg + ppg_decode_spec_LJSpeech/ppg_decode_spec_DataBakerCN

修改ppg_decode_spec_LJSpeech/inference_cbhg_ljspeech.py,接着上一小节的输出,生成bilingual-ppg/xxx_rec_wavs_audio_2修改ppg_decode_spec_DataBakerCN/inference_cbhg_DataBaker.py,接着上一小节的输出,生成bilingual-ppg/xxx_rec_wavs_audio_2

语谱图没有画,太差了,没必要画,等到下一个代码出来以后再对比吧

 

最新回复(0)