原数据:
预处理
TEXT=examples/translation/py_hz
fairseq-preprocess --source-lang input --target-lang label --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test --destdir data-bin/py_hz_pre
训练模型
fairseq-train data-bin/py_hz_pre --task translation --source-lang input --target-lang label --arch fconv --optimizer adam --adam-betas '(0.9,0.98)' --clip-norm 0.1 --lr 0.01 --lr-scheduler inverse_sqrt --warmup-updates 2000 --dropout 0.2 --weight-decay 0.0001 --max-tokens 8000 --save-dir checkpoints --eval-bleu
解码
fairseq-generate data-bin/py_hz_pre --path checkpoints/checkpoint_best.pt --remove-bpe --results-path data-bin
S 源预
T 目标语
H 预测的句子,H前的数字是这个句子的预测概率的log再除以总长度
P 每个单词的预测概率的log,全部相加除句子总长度等于H