Prodigal基因预测

it2023-12-30 136

Prodigal基因预测

在做完宏基因组组装这一步后，接下来要进行基因预测。orf预测的软件有很多，比如MetaGene用的很多，但是这个软件输出结果单一，只有一个文件。后续的orf序列提取和翻译需要自己写脚本完成。因此我选择了Prodigal这个软件，Prodigal预测结果文件十分丰富，包括orf的核酸序列文件、氨基酸序列文件、gff文件等，需要注意的是用于宏基因组orf预测的时候得加-p meta参数。

Prodigal(Prokaryotic Dynamic Programming Genefinding Algorithm)用于原核微生物基因组和宏基因组的基因预测。更多信息见：https://github.com/hyattpd/Prodigal/wiki/introduction

软件安装

wget https://codeload.github.com/hyattpd/Prodigal/tar.gz/v2.60 tar -zxvf Prodigal-2.6.1.tar.gz make install

安装完后输入prodigal -v，出现如下帮助文档则安装成功。软件使用

prodigal的使用非常简单，只需一步即可，直接敲prodigal命令就会弹出软件帮助信息。

-a 是输出氨基酸文件-c 不允许基因一边断开，也就是要求完整的orf，有起始和终止结构 -d 输出预测基因的序列文件 -f 选择输出文件格式，有gbk,gff,和sco格式可供选择 -g 指定密码子，原核为第11套 -i 输入文件，即需要预测的基因组序列文件 -m 屏蔽基因组中的N碱基 -o 输出文件，默认为屏幕输出 -p 选择方式，是单菌还是meta样品 -q 不输错错误信息到屏幕 -t 指定训练集 -s 输出所有潜在基因以及分值到一个文件中

cd prodigal/ prodigal -p meta -a protein_seq.fasta -m -d nucleotide_seq.fasta -o genes.gff -f gff -s poteintial.stat -i /data1/jl/megahit/CP1S1/final.contigs.fa

提醒下如果是宏基因组数据记得加上-p mate参数；软件运行速度很快，结束后会生成如下四个文件：我们打开其中nucleotide_seq.fasta查看一下输出文件的样子 less nucleotide_seq.fasta

最新回复(0)