在做完宏基因组组装这一步后,接下来要进行基因预测。orf预测的软件有很多,比如MetaGene用的很多,但是这个软件输出结果单一,只有一个文件。后续的orf序列提取和翻译需要自己写脚本完成。因此我选择了Prodigal这个软件,Prodigal预测结果文件十分丰富,包括orf的核酸序列文件、氨基酸序列文件、gff文件等,需要注意的是用于宏基因组orf预测的时候得加-p meta参数。
Prodigal(Prokaryotic Dynamic Programming Genefinding Algorithm)用于原核微生物基因组和宏基因组的基因预测。更多信息见:https://github.com/hyattpd/Prodigal/wiki/introduction
软件安装
wget https://codeload.github.com/hyattpd/Prodigal/tar.gz/v2.60 tar -zxvf Prodigal-2.6.1.tar.gz make install安装完后输入prodigal -v,出现如下帮助文档则安装成功。 软件使用
prodigal的使用非常简单,只需一步即可,直接敲prodigal命令就会弹出软件帮助信息。
-a 是输出氨基酸文件-c 不允许基因一边断开,也就是要求完整的orf,有起始和终止结构 -d 输出预测基因的序列文件 -f 选择输出文件格式,有gbk,gff,和sco格式可供选择 -g 指定密码子,原核为第11套 -i 输入文件,即需要预测的基因组序列文件 -m 屏蔽基因组中的N碱基 -o 输出文件,默认为屏幕输出 -p 选择方式,是单菌还是meta样品 -q 不输错错误信息到屏幕 -t 指定训练集 -s 输出所有潜在基因以及分值到一个文件中
cd prodigal/ prodigal -p meta -a protein_seq.fasta -m -d nucleotide_seq.fasta -o genes.gff -f gff -s poteintial.stat -i /data1/jl/megahit/CP1S1/final.contigs.fa提醒下如果是宏基因组数据记得加上-p mate参数;软件运行速度很快,结束后会生成如下四个文件: 我们打开其中nucleotide_seq.fasta查看一下输出文件的样子 less nucleotide_seq.fasta