biopython|极客教程

biopython

Biopython 是一个专注于生物信息学的 Python 库，提供了许多有用的工具和类来处理生物信息学数据，包括序列分析、比对、结构、进化和数据库操作等。Biopython 使得生物信息学研究人员可以更轻松地进行数据分析和可视化，同时还可以与其他流行的科学计算库（如 NumPy 和 matplotlib）结合使用。

安装

要安装 Biopython，可以通过 pip 来进行安装：

pip install biopython

基本数据结构

Biopython 提供了许多常用的数据结构和类来表示生物信息学数据，包括序列、序列记录、比对、进化树等。下面是一些常用的数据结构及其基本操作：

Sequence

Sequence 类表示一个生物序列，可以是 DNA、RNA 或蛋白质序列。可以通过以下方式创建 Sequence 对象：

from Bio.Seq import Seq

dna_seq = Seq("ATCGATCG")
rna_seq = Seq("AUCGAUCG", alphabet='RNA')
protein_seq = Seq("MGLSDGEWQLVLNVWGKVEGDAG", alphabet='protein')

SeqRecord

SeqRecord 类表示一个包含序列及其相关信息的记录，可以包含序列、ID、描述、注释等信息。可以通过以下方式创建 SeqRecord 对象：

from Bio.SeqRecord import SeqRecord
from Bio.Seq import Seq

seq = Seq("ATCGATCG")
seq_record = SeqRecord(seq, id="seq1", description="example sequence")

MultipleSeqAlignment

MultipleSeqAlignment 类表示多序列比对结果，可以包含多个序列及其对齐信息。可以通过以下方式创建 MultipleSeqAlignment 对象：

from Bio.Seq import Seq
from Bio.Align import MultipleSeqAlignment

seq1 = Seq("ATGCTG")
seq2 = Seq("ATGCCG")
seq3 = Seq("CTGCTA")

alignment = MultipleSeqAlignment([seq1, seq2, seq3])

PhyloTree

PhyloTree 类表示一个进化树，可以包含树的拓扑结构、分支长度等信息。可以通过以下方式创建 PhyloTree 对象：

from Bio.Phylo.TreeConstruction import DistanceTreeConstructor
from Bio import Phylo

constructor = DistanceTreeConstructor()
tree = constructor.build_tree(alignment)

序列操作

Biopython 提供了许多方法来处理序列数据，包括序列的基本操作、转录翻译、序列比对、序列搜索等。下面是一些常用的序列操作方法：

基本操作

from Bio.Seq import Seq

seq = Seq("ATCGATCG")

print(seq.complement())
print(seq.reverse_complement())
print(seq.transcribe())
print(seq.translate())

序列比对

from Bio import pairwise2
from Bio.SubsMat import MatrixInfo as matlist

seq1 = Seq("ATGCTG")
seq2 = Seq("ATGCCG")

alignments = pairwise2.align.globalds(seq1, seq2, matlist.blosum62, -10, -0.5)

for a in alignments:
    print(pairwise2.format_alignment(*a))

序列搜索

from Bio.Blast import NCBIWWW

result_handle = NCBIWWW.qblast("blastn", "nt", "GTAGTCAGTAGTTGA")

数据库操作

Biopython 支持与多种生物信息学数据库（如 NCBI、EMBL、DDBJ）的交互操作，在这些数据库中进行数据的搜索、下载和上传等。下面是一些常用的数据库操作方法：

搜索数据库

from Bio import Entrez

Entrez.email = "your_email@example.com"
handle = Entrez.esearch(db="nucleotide", term="Homo sapiens[ORGN]", retmax=10)
record = Entrez.read(handle)

下载数据

handle = Entrez.efetch(db="nucleotide", id="NM_001278687", rettype="gb", retmode="text")
record = handle.read()

上传数据

from Bio import SeqIO

SeqIO.write(seq_record, "seq_record.fasta", "fasta")

实例演示

下面以一个简单的示例来演示如何使用 Biopython 完成序列操作和数据库查询：

from Bio.Seq import Seq
from Bio import SeqIO
from Bio import Entrez

# 创建一个 DNA 序列
dna_seq = Seq("ATCGATCG")

# 保存序列到文件
SeqIO.write(dna_seq, "dna_seq.fasta", "fasta")

# 读取文件中的序列
for seq_record in SeqIO.parse("dna_seq.fasta", "fasta"):
    print(seq_record.id)
    print(seq_record.seq)

# 搜索数据库
Entrez.email = "your_email@example.com"
handle = Entrez.esearch(db="nucleotide", term="Homo sapiens[ORGN]", retmax=10)
record = Entrez.read(handle)
print(record)