分子生物信息学数据库

1.5 二次数据库

上面介绍的基因组数据库、序列数据库和结构数据库是最基本、最常用的的分子生物信息数据库。以基因组、序列和结构数据库为基础,结合文献资料,研究开发更具特色、更便于使用的二次数据库,或专用数据库信息系统,已经成了生物信息学研究的一个重要方面。随着互联网技术的发展和普及,这些数据库多以Web界面为基础,不仅具有文字信息,而且以表格、图形、图表等方式显示数据库内容,并带有超文本连接。从用户角度看,许多二次数据库实际上就是一个专门的数据库信息系统。必须说明,二次数据库和一次数据库之间,其实并没有明确的界限,上述GDB和AceDB基因组数据库、SCOP和CATH结构分类数据库,无论从内容,还是用户界面,实际上都具有二次数据库的特色。即使是最基本的蛋白质序列数据库SwisProt,也已经增加了许多与其它数据库的交叉索引,蛋白质分析专家系统ExPASy提供的SwissProt浏览网页,同样具有表格、图形等功能。

1.5.1 基因组信息二次数据库

本章第1节中已经介绍了不少基因组数据库和基因组信息资源。此处,简单介绍法国巴斯德研究所构建的大肠杆菌基因组数据库,作为基因组二次数据库的一个实例。该数据库除了具有浏览、检索和数据库搜索(BALST/FASTA)功能外,还将大肠杆菌基因组用环形图表示(图1.12),点击图中某个区域,就会显示该区域基因分布图(图1.13),也可以用键盘输入起始位置和序列长度检索,使用十分方便。有关大肠杆菌和其它已经完成全序列测定的细菌基因组的二次数据库还有很多,巴斯德研究所还开发了枯草杆菌基因组数据库。

德国生物工程研究所开发的真核生物基因调控转录因子数据库TransFac是一个比较完善的二次数据库,包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核甘酸分布6个子库。该二次数据库始建于1988年,采用关系数据库模式,用表格存放数据。1997年起,基于Web的版本开始上网,北京大学生物信息中心建有镜象(图1.15)。目前,该数据库正在进一步开发,如构建各种转录因子在不同细胞组织中的表达特异性数据库等[Wingender]。

1.5.2 蛋白质序列二次数据库

蛋白质序列二次数据库的问世已经有几年的历史,Prosite数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物信息学研究所SIB维护[Hofmann等, 1999]。Protsite数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,Prosite数据库实际上是蛋白质序列功能位点数据库。通过对Prosite数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。Prosite数据库实际上包括两个数据库文件,一个为数据文件即Prosite(框1.8),另一个为说明文件PrositeDoc(框1.9)。文件Prosite的格式与SwissProt数据库格式类似,使用“ID”、“AC”等双字母识别字。框1.8和框1.9是Prosite数据库实例,识别字DE行表明这是细菌组蛋白类DNA结合蛋白,识别字PA行给出其功能位点的序列模式:

[GSK]-F-x(2)-[LIVMF]-x(4)-[RKEQA]-x(2)-[RST]-x-[GA]-x-[KN]-P-x-T.

这里,方括号中为可选残基,如第一个方括号[GSK]中3个残基中甘氨酸G、丝氨酸S和赖氨酸L中的任意一个均可出现。x(2)表示可以有两个任意残基。因此,序列片段GFxxLxxxxRxxRxGxKPxT是其中一种可能的模式。识别字DR行是SwissProt数据库代码索引,即P02347等几十个蛋白质序列都具有这种模式,而识别字3D则为PDB数据库代码索引,即1HUE等3个蛋白质分子的三维结构含这种序列模式。标识字DO行给出PrositeDoc说明文件中相应的代码PDOC00044。PrositeDoc说明文件中给出该序列模式的生物学功能及其文献资料来源。

Prosite数据库基于多序列比较得到的单一保守序列片段,或称序列模体。除Prosite外,蛋白质序列二次数据库还有蛋白质序列指纹图谱数据库Prints(Attwood, 1998)、蛋白质序列模块数据库Blocks(Henikoff, 1998)、蛋白质序列家族数据库Pfam(Sonnhammer, 1998)、蛋白质序列概貌数据库Profile、蛋白质序列识别数据库Identify等(表1.16)。这些数据库的共同特点是基于多序列比对,它们的不同之处是处理比对结果的原则和方法,Prints和Blocks利用了序列中的多重保守片段,Profiles着眼于构建序列概貌库,而Pfam采用了隐马氏模型,Identify则利用模糊正则表达式的概念(图1.15)。应该说,这些方法各有一定的特色。

从某种意义上说,蛋白质序列二次数据库实际上也是蛋白质功能数据库,因为从这些数据库中,可以得到有关蛋白质功能、家族、进化等信息。

1.5.3 蛋白质结构二次数据库

蛋白质结构数据库PDB主要存放原子坐标,属于一次数据库。早在80年代,就已经出现了从PDB数据库的坐标数据中提取信息的程序,并在此基础上构建了蛋白质二级结构构象参数数据库(Definition of Secondary Structure of Proteins,简称DSSP)。DSSP数据库根据PDB中的原子坐标,计算每个氨基酸残基的二级结构构象参数,包括氢键、主链和侧链二面角、二级结构类型等。框1.8是DSSP数据库中胰岛素分子3INS实例。90年代以来,随着PDB数据库数据量的增长,出现了许多蛋白质分类数据库。蛋白质家族数据库(Families of Structurally Similar Proteins,简称FSSP)就是其中的一个。它把PDB数据库中的蛋白质通过序列和结构比对进行分类。与DSSP和FSSP相关的另一个蛋白质结构数据库是同源蛋白数据库(Homology Derived Secondary Structure of Proteins,简称HSSP)。该数据库不但包括已知三维结构的同源蛋白家族,而且包括未知结构的蛋白质分子,并将它们按同源家族分类。这3个蛋白质结构二次数据库为蛋白质分子设计、蛋白质模型构建和蛋白质工程等研究提供了很好的信息资源和工具[Sander, 1990]。

除了DSSP、FSSP、HSSP外,还有其它许多不同种类和层次的蛋白质结构二次数据库,如蛋白质结构域分配数据库、蛋白质回环分类数据库等[图1.16]。


Copyright, 23-Juns-2000, luojc@pku.edu.cn