基因组注释分析主要包括哪些内容
基因组注释包括以下方面的内容:
(1) 重复序列的预测。通过比对已知的重复序列数据库,找出序列中包含的重复序列,识别类型并转化为N或者X,统计各种类型重复序列的分布。
(2) 编码基因的预测。通过将转录组或EST数据比对到拼接后的基因组序列上,找出编码基因位置,预测编码基因结构。或者通过专业的外显子预测软件,预测编码基因的外显子结构。
(3) 小RNA基因的预测。通过比对已知的小RNA的数据库,或者通过生物信息(bioinformation)学软件预测,找出这些小RNA基因,并进行分类。
(4) 调控序列和假基因的预测。
基因功能的注释,使用的数据库包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比对的方法,如blast,找出同源相近的基因,并注释功能。
111 开发环境本系统基于PC 微机,操作系统为Linux。
测试系统为PIII 550 双CPU 微机,内存1GB ,运行RedHat 710 Linux 系统。数据库管理系统使用MySQL ,Web 服务器程序使用Apache ,应用程序接口用Perl 脚本语言编写。
本系统也可在单CPU 微机上运行,内存不小于512MB。所有系统软件和应用软件均可以从Internet 网上免费获得。
112 测试数据本系统用蓝细菌( Synechococcus sp. ) PCC7002 基因组初步拼接所得最大重叠连续群(Contig) 作测试数据,共3 03247bp 。113 MGAP 的基因组注释系统基因组注释系统是MGAP 的核心,整合了许多常用的基因识别和蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多个数据库,如非冗余蛋白质序列数据库(Non redundant , NR) 、已知三维空间结构的蛋白质序列数据库(PDBSeq) 、国际蛋白质资源信息系统( InterPro) [6] 和直系同源蛋白质家族数据库(Cluster of orthologousgroups ,COG) 等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。
MGAP 整合的一般模块,可以被其他任何一种微生物基因组直接使用。不同实验室可根据实际研究需要,增加相应模块或数据,如蓝细菌Anabaena sp. strain PCC 7120 的蛋白质序列库等。
基因识别是MGAP 的第一步,本系统采用微生物基因组基因识别最为权威的Gene2Marks 软件进行基因预测,通过http :PPopal .biology.gatech.. cgi 网站提交重叠连续群测试序列(3 03247bp) ,使用GeneMarks 缺省参数,预测得到279 个基因。然后用MGAP 的数据加载模块(Loaddata) 将预测结果导入ORF 表中。
114 MGAP 的用户接口用户接口用于展示注释结果,提供易于操作和分析平台。本系统用户接口基于Web设计开发,用户可通过浏览器访问基因组注释系统,包括基因组环状图展示、基因和ORF在染色体上分布图,并对注释信息进行检索。
基因组环状基因分布图构建基于如下信息:预测所得基因的起始位置、长度,编码基因的正负链信息,以及预测的基因功能分类。2 结果图1 是MGAP 系统对PCC7002 基因组重叠连续群测试序列注释结果。
A 为基因展示图,B 为ORF 显示页面。A 中由外向内依次为: (1) 正链编码基因; (2) 负链编码基因; (3)GC 含量统计; (4) GC 偏离量统计。
该系统构建的环状基因组,可显示正负链上的编码基因,用相应颜色表示功能类别。本系统沿用经典蛋白质功能分类方法[8] ,即把微生物基因组所有基因按功能分为16 大类,进而细分为113 个子类。
此外,还增加了统计GC 含量和GC 偏离量(GC Bias) 功能。计算GC 含量时以200bp 为滑动窗口,计算GC 偏离量时以13kb 为滑动窗口。
GC 偏离量表示G和C 含量的差别,定义为: (G2C)P(G+ C) [9] 。点击A图中环状基因组展示图,则可得到B 图基因组局部ORF 显示页面。
点击图中某个ORF ,即可调出其所有注释信息,包括该ORF 在基因组中的位置、长度、正负链信息、核酸和蛋白序列,以及对NR 蛋白库、COG数据库、InterPro 、PDBseq 数据库的搜索结果。所有结果都有相对应的连接可以直接连到原始数据库。
3 讨论新基因组功能注释是基因组研究的重要方面,MGAP 把注释所用软件和公共数据库进行有机集成,使注释过程自动进行并把结果存储到数据库系统中,最终提供友好的界面,可为中小实验室提供方便实用的微生物基因组注释系统,减少人工参与,提高注释效率。该系统考虑到国内一般中小实验室的实际情况,基于廉价的PC 微机和免费Linux、MySQL 、Apache 和Perl 等软件系统开发。
必须指出,目前所有计算机注释信息,均不能保证完全准确。MGAP 在一定程度上依赖于现有数据库中的注释信息。
由于各种原因,这些注释信息必然有一些错误。显然,这些错误信息将不可避免地引入新的注释系统。
为此,MGAP 综合了多种注释方法,并互为补充。例如,一个ORF 既有BLASTP从NR 数据库搜索到的相似序列,又在InterPro 蛋白质模体库中找到相应功能位点,也可找到高分匹配的COGs ,那么该注释结果就比较可靠。
此外,必要的人工注释,可以避免或纠正自动注释的错误。例如,由于测序错误产生的读码框移位或是缺失,会导致一个基因被拆分成两段,这种错误目前只能由手工纠正。
基因组注释是一个复杂、繁琐的过程,需要大量的生物学知识。详尽、准确的注释需要经过严格的生物学实验才能获得。
本系统对测试序列的注释结果仍有许多未知功能基因,需不断扩充新数据而逐步更新。MGAP 的新版本将增加交互式用户注释模块,进一步扩充和增强该系统注释功能。
基因组注释 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释。
基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合:
(1)分析mRNA 和EST数据以直接得到结果;
(2)通过相似性比对从已知基因和蛋白质序列得到间接证据;
(3)基于各种统计模型和算法从头预测。
对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释:
(1)序列数据库相似性搜索;
(2)序列模体搜索;
(3)直系同源序列聚类分析。
扩展资料:
基因注释重大突破:
1、中国科学院水生生物研究所葛峰研究员学科组利用蛋白基因组学的研究策略和方法,成功对单细胞光合真核生物三角褐指藻的基因组进行了深度注释,完成了三角褐指藻的蛋白质组精细图谱,并建立了完整的真核生物基因组深度注释实验技术和分析流程。
该研究成果的取得,有望进一步推动蛋白基因组学在生命和健康领域特别是精准医学方面的应用。
2、美国加州大学旧金山分校研究人员发现,GABP蛋白的一种特定成分GABP-β1L,是与端粒酶逆转录酶(TERT)启动子突变相关的胶质母细胞瘤细胞不受控制地分裂、繁殖的关键。
他们10日在《肿瘤细胞》杂志上发表论文称,新发现提供了一个很有前途的用药靶点,对未来胶质母细胞瘤及其他多种与TERT启动子突变相关癌症的治疗具有重要意义。
参考资料来源:百度百科-基因组注释
出现在重叠基因中:
①在核糖体结合位点之后含有多重起始位点,或终止密码的漏读(其中UGA、UAG易被漏读、错读,UAA能严格终止),例如两种蛋白质均从同一起始密码开始起译,其中一种蛋白在遇到第一个终止密码是就停止翻译,另一种蛋白由于发生漏读,核糖体继续翻译到下一个终止密码处;
②以不同的读码框架对同一条mRNA进行识读和翻译;
③选择不同的起始密码AUG,但按同一个读码框架对同一条mRNA进行识读和翻译;
④编码在同一DNA区段不同极性单链上的重叠基因,即反向重叠基因;
⑤真核生物内含子选择性剪接可由同一初级转录物产生多种蛋白质,即同源异型蛋白。
另一个版本:
①在核糖体结合位点之后含有多重起始位点
②在一两个碱基的移码方式出现重叠的可读框
③不同的剪接方式,产生不同的mRNA方式
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:3.128秒