哪家白癜风能治愈 http://pf.39.net/bdfyy/01gff/gtf 一个物种的基因组测序完成后,需要对基因组进行结构预测,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。 GFF(generalfeatureformat):这种格式主要是用来注释基因组。现大部分利用的是第三版,即gff3。GTF(genetransferformat):主要是用来对基因进行注释。当前所广泛使用的gtf格式为第二版,即gtf2。 02gff/gtf格式说明gff和gtf格式基本类似,共有9列,如下: chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC";chr1Gnomonexon.-.transcript_id"rna1";gene_id"gene0";gene_name"LOC"; 其中: 1)seqid:序列的id。(Thenameofthesequencewherethefeatureislocated.)2)source:注释的来源,一般指明产生此gff3文件的软件或方法(e.g.AugustusorRepeatMasker)。如果未知,则用点(.)代替。3)type:类型,此处不受约束,但为下游分析方便,建议使用gene,repeat_region,exon,CDS,或SO对应编号等。4)start:起始位置,从1开始计数(区别于bed文件从0开始计数)。5)end:终止位置。6)score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。(indicatestheconfidenceofthesourceontheannotatedfeature)7)strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?”表示未知.8)phase:步进。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。9)attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。 03gff和gtf的异同主要是第9列,gff以=为分格,而gtf为空格为分格,一般来说gff可以储存基因组的所有格式信息,而gtf仅保存转录相关的信息。 列GTF2GFF3referencesequencenamesamesameannotationsourcesamesamefeaturetypefeaturerequirementsdependonsoftwarecanbeanythingstartcoordinatesamesame5.endcoordinatesamesamescorenotusedoptionalstrandsamesameframesamesameattributes空格分隔#NAME?预览时标签不可点收录于话题#个上一篇下一篇转载请注明原文网址:http://www.kbgiw.com/kjscyf/821482.html |