| |
|
本中心研究与开发 |
|
 |
PAK,蛋白质注释系统(Proteome
Annotation Knowledgebase,PAK)本质上是一套注释和查询系统,致力于为各个物种,尤其是真核生物的蛋白质组提供深层次全面的注释信息;最终目标是标明每一个蛋白的功能。核心系统包括不可分割的两部分,蛋白为中心的注释系统(PCAS)和模体为中心的注释系统。这两套系统整合了很多最新的生物信息学算法来注释各个蛋白质组,结果通过友好的网页界面返给用户。 |
 |
KOBAS,基于KO的序列注释分析系统(KEGG Orthologo Based Annotation System),以国际上数据质量高而闻名的KEGG数据资源为基础,通过分析未知序列与KEGG已注释序列之间的亲缘关系,自动地对未知序列进行KO本体注释;在此基础上充分利用KEGG Orthology在KEGG GENE与KEGG PATHWAY之间的桥梁作用,用超几何分布统计方法来预测统计上显著的代谢通路。目前,实现为命令行程序包和在线Web服务两个版本
|

|
分泌蛋白数据库,分泌蛋白是指那些分泌到细胞膜外的蛋白质。它们定位于胞外,很容易与各种药物相互作用;因此经常作为药靶。基于一套半自动的筛选流程,分泌蛋白数据库(SPD)致力于收集来自人、小鼠和大鼠的分泌蛋白。目前,它含有来自SwissProt/Trembl,RefSeq和Ensembl等三个数据源的18152条蛋白序列。
|
 |
拟南芥转录因子数据库(The Database of Arabidopsis Transcription Factors DATF)于2006年升级到了第二个版,收集和分类了所有文献确认的或预测的拟南芥转录因子(共1922个基因,2290个蛋白,分64个家族)。它包含有来自“拟南芥全部转录因子的蛋白质组研究”项目的1177个基因的克隆和测序信息。DATF还包括了蛋白质的三维结构模板信息、核定位信号(NLS)、亮氨酸拉链信息、UniGene EST表达信息、转录因子结合位点信息等独特的数据以及基因结构、蛋白质功能模体、GO注释,与水稻转录因子的同源连接,参考文献和其他相关数据库的链接等数据。 |
 |
Loops是蛋白质三维空间结构回环数据库。该数据库由北京大学生物信息中心和英国帝国癌症研究基金会(Imperial
Cancer Research)共同开发,收集了233个已知空间结构的非同源蛋白的α-α、α-β、
β-α、β-β连接和β-β发夹环5个大类、56个子类的回环,列出了不同家族回环的构像参数,并提供Java程序显示回环的空间结构,并可进行旋转、缩放等操作。
|
 |
Domains是蛋白质结构域分类数据库,由北京大学生物信息中心和英国帝国癌症研究基金会(Imperial
Cancer Research)共同开发,收集了284个已知空间结构的非同源蛋白质中结构域分布,其中197个蛋白质仅含1个结构域,67蛋白质含2个结构域,13个蛋白质含3个结构域,6个蛋白质含4个结构域,1个蛋白质含5个结构域。 |
 |
基因结构显示服务器 (GSDS:Gene Structure Display Server)提供在线绘制基因结构示意图服务,用户可以提交fasta序列,NCBI序列号或基因外显子位置信息来绘制基因结构示意图,还可以根据用户提供的信息标出相应功能结构域在基因上的位置以及标注各个内含子的相位,生成的图片可以有多种选择,包括位图、PDF格式、SVG矢量图、黑白、彩色、图片宽度等。 |
 |
高频转录的酵母基因的潜在的上游区和内含子之间的短程协同作用图谱, 我们的前期工作表明,酵母的高频转录基因的内含子(intron)可能参与基因转录调控。这些内含子参与转录调控的一个可能的方式是与上游区的协同作用。为了研究这个问题,我们同样选取了两组具有相反生物学性质的酵母基因,其中一组具有很高的转录频率(>=
30 mRNA/hr),另一组则具有很低的转录频率(<=10mRNA/hr)。通过寡核苷酸比较的方法,我们提取了高频转录基因的上游区和内含子中的可能的调控片段(motif)。之后,我们检测每一对motif(一个位于上游区,另一个位于内含子)是否具有潜在协同作用。为了进一步研究潜在协同作用,我们在30条高频转录基因的序列上标注了所有潜在的具有协同作用的四、五核苷酸对,得到了一幅短程协同作用的图谱。详细... |
 |
RDFolder是RNA二级结构预测Web服务器。RDFolder所用螺旋随机堆积(Random
stacking)和螺旋分布(Helix region distribution)方法,由李武举博士提出。(Li, W.J. and
Wu, J.J. (1998) Prediction of RNA secondary structure based on helical
regions distribution. Bioinformatics, 14, 700-706)螺旋随机堆积方法采用蒙特卡罗模拟,寻找最可能的RNA二级结构。对于较长的序列,则采在随机堆积的基础上,进一步采用螺旋分布的方法,以确定RNA二级结构。详见:
Ying X, Luo H, Luo J, Li W. (2004) RDfolder: a web server for prediction
of RNA secondary structure. NAR, 32:W150-3. |
 |
根据国际和国内对水稻矮缩病毒基因组的研究,利用已有的基因序列和结构、功能等方面的数据,以计算机网络为载体,参考国际通用数据库的格式,尝试建立一个简洁的、友好的通用性好的而且专用性强的二级数据库:水稻矮缩病毒基因组的数据库。 |
 |
BioLand是一个基于Fedora
Core的Linux发行版。它的目的是通过整合相关生物软件,如EMBOSS,BLAST,并且为相应生物软件自动更新生物学数据库,为生物学家提供一个易于安装,维护的生物信息操作环境。
BioLand被设计为面向中小型实验室或工作组的数据平台和数据分析服务器,它提供生物数据库自动更新程序Biodate (原名updata)来自动下载远端服务器上的生物数据。BioLand同时提供rpm和apt软件包管理器来更新软件。
|
 |
CVTree是用组分矢量方法(Composition
Vector)构建系统发育树的Web服务器。组分矢量方法由郝柏林院士和他的研究组提出,统计全基因组序列中核苷酸碱基或全蛋白质组序列中氨基酸残基各种短串出现的频率,并在此基础上计算不同物种间的进化距离,构建系统发育树。该方法避免了传统的序列比对在全基因组序列分析中由于基因组大小不等而产生的弊病,对140多个已经完成全序列测定的古细菌、真细菌以及酵母、线虫、拟南芥等真核生物分析结果取得了和文献报道一致的结果。CVTree
Web服务器为用户提供利用组分矢量方法构建系统树的服务。用户可以把某个物种的蛋白组序列按FASTA格式上载到服务器,与服务器上提供的140多个物种蛋白组序列进行比较,构建系统发育树。详见:Qi
J, Luo H, Hao B. (2004) CVTree: a phylogenetic tree reconstruction
tool based on whole genomes. NAR, 32:W45-7. |
 |
PGAAS适用于基因组SHOTGUN拼接完成阶段的补GAP的工作,PGAAS基于序列比对得到的连接信息,对于使用基于“OVERLAP-LAYOUT-CONSENSUS”的拼接程序(例如PHRAP软件包)产生的CONTIGS的进行定位,并自动取CONTIGS的两端设计引物,以辅助整个基因组拼接的最终完成。PGAAS使用开放源代码的PHP,PERL,BIOPERL工具,具有较好的扩展性。 |