Biopython BioSQL模块
BioSQL 是一个通用的数据库模式,主要是为所有RDBMS引擎存储序列及其相关数据而设计。它的设计方式是,它可以保存所有流行的生物信息学数据库的数据,如GenBank, Swissport等。它也可以用来存储内部数据。
BioSQL currently provides specific schema for the below databases −
- MySQL (biosqldb-mysql.sql)
- PostgreSQL (biosqldb-pg.sql)
- Oracle (biosqldb-ora/*.sql)
- SQLite (biosqldb-sqlite.sql)
它还提供了对基于Java的HSQLDB和Derby数据库的最小支持。
BioPython为基于BioSQL的数据库提供了非常简单、方便和先进的ORM功能。 BioPython提供了一个模块,BioSQL 可以实现以下功能
- 创建/删除一个BioSQL数据库
- 连接到BioSQL数据库
- 解析序列数据库,如GenBank、Swisport、BLAST结果、Entrez结果等,并直接将其加载到BioSQL数据库。
- 从BioSQL数据库中获取序列数据
- 从NCBI BLAST中获取分类数据并将其存储在BioSQL数据库中
- 对BioSQL数据库运行任何SQL查询
BioSQL数据库模式概述
在深入了解BioSQL之前,让我们了解一下BioSQL模式的基本知识。BioSQL模式提供了25个以上的表来保存序列数据、序列特征、序列类别/本体和分类学信息。其中一些重要的表如下
- biodatabase
- bioentry
- biosequence
- seqfeature
- taxon
- taxon_name
- antology
- term
- dxref
创建一个BioSQL数据库
在本节中,让我们使用BioSQL团队提供的模式创建一个BioSQL数据库样本,biosql。我们将使用SQLite数据库,因为它很容易上手,而且没有复杂的设置。
在这里,我们将使用以下步骤创建一个基于SQLite的BioSQL数据库。
第1步 - 下载SQLite数据库引擎并安装它。
第2步 - 从GitHub网址下载BioSQL项目。 https://github.com/biosql/biosql
第3步 - 打开一个控制台,使用mkdir创建一个目录,并进入其中。
第4步 - 运行下面的命令来创建一个新的SQLite数据库。
第5步 --从BioSQL项目中复制biosqldb-sqlite.sql文件(/sql/biosqldb-sqlite.sql`),并将其保存在当前目录中。
第6步 - 运行下面的命令来创建所有的表。
现在,所有的表都在我们的新数据库中创建。
第7步 - 运行下面的命令来查看我们数据库中所有的新表。
前三个命令是配置命令,用于配置SQLite,使其以格式化的方式显示结果。
第8步 - 将BioPython团队提供的GenBank样本文件ls_orchid.gbk复制到 当前目录并保存为orchid.gbk。
第9步 - 使用下面的代码创建一个python脚本,load_orchid.py,并执行它。
上述代码解析了文件中的记录,并将其转换为python对象,然后插入到BioSQL数据库中。我们将在后面的部分分析该代码。
最后,我们创建了一个新的BioSQL数据库并将一些样本数据加载到其中。我们将在下一章中讨论重要的表格。
简单的ER图
biodatabase 表位于层次结构的顶端,它的主要目的是将一组序列数据组织到一个单一的组/虚拟数据库中。 biodatabase中的每个条目都指向一个单独的数据库,它不会与另一个数据库混合。 BioSQL数据库中的所有相关表都引用biodatabase条目。
生物条目 表保存了所有关于序列的细节,除了序列数据。一个特定的 生物条目的 序列数据将被保存在 生物序列 表中。
taxon和taxon_name是分类学细节,每个条目都参考这个表来指定它的分类信息。
在了解了模式之后,让我们在下一节看看一些查询。
BioSQL查询
让我们深入研究一些SQL查询,以更好地了解数据是如何组织的,以及表之间的关系。在继续之前,让我们用下面的命令打开数据库,并设置一些格式化的命令–
.header和.mode是格式化选项,可以更好地将数据可视化。 你也可以使用任何SQLite编辑器来运行查询。
列出系统中可用的虚拟序列数据库,如下所示-
这里,我们只有一个数据库, 兰花
用下面的代码列出 兰花 数据库中的条目(前3条)。
列出与一个条目相关的序列细节(加入-Z78530,名称-C. fasciculatum 5.8S rRNA基因和ITS1和ITS2 DNA),并给出代码-
使用以下代码获得与条目相关的完整序列(加入号 – Z78530,名称 – C. fasciculatum 5.8S rRNA基因和ITS1和ITS2 DNA) —
列出与生物数据库相关的分类群,兰花
将数据加载到BioSQL数据库中
让我们在本章中学习如何将序列数据加载到BioSQL数据库中。我们在上一节已经有了将数据加载到数据库的代码,代码如下
我们将深入了解每一行的代码及其目的
第1行 - 加载SeqIO模块。
第2行 - 加载BioSeqDatabase模块。这个模块提供了与BioSQL数据库交互的所有功能。
第3 行 – 加载os模块。
第5 行 – open_database用配置好的驱动(driver)打开指定的数据库(db),并返回一个到BioSQL数据库(server)的句柄。Biopython支持sqlite, mysql, postgresql和oracle数据库。
第6-10行 - load_database_sql方法从外部文件加载sql并执行它。 commit方法提交事务。我们可以跳过这一步,因为我们已经用模式创建了数据库。
第12行 - new_database方法创建了新的虚拟数据库orchid,并返回一个句柄db来执行针对orchid数据库的命令。
第13 行 – load方法将序列条目(可迭代的SeqRecord)加载到orchid数据库中。SqlIO.parse解析GenBank数据库并将其中的所有序列作为可迭代的SeqRecord返回。load方法的第二个参数(True)指示它从NCBI blast网站获取序列数据的分类细节,如果它在系统中还没有可用的话。
第14行 - commit 提交交易。
第15行 - close 关闭数据库连接并销毁服务器句柄。
获取序列数据
让我们从兰花数据库中获取一个标识符为2765658的序列,如下所示
这里,server["orchid"]
返回从虚拟数据库orchid中获取数据的句柄。 lookup 方法提供了一个基于标准选择序列的选项,我们选择了标识符为2765658的序列。因为我们已经知道如何使用SeqRecord`,所以很容易从它获得数据。
删除一个数据库
删除一个数据库很简单,只要用适当的数据库名称调用remove_database方法,然后按照下面的规定提交即可。