如何用Python编写索引功能|极客教程

如何用Python编写索引功能

在信息检索系统中，索引是一个非常重要的概念。通过建立索引，我们可以快速定位到关键词对应的文档或数据，提高检索效率。在本文中，我们将详细讨论如何用Python编写索引功能，包括建立倒排索引和实现基本的检索功能。

什么是倒排索引

倒排索引（Inverted Index）是信息检索系统中常用的一种索引方式。它将文档集合中的每个关键词映射到包含该关键词的文档列表，从而实现快速检索。倒排索引由两部分组成：词典和倒排列表。

词典：保存了所有出现过的关键词，每个关键词对应一个唯一的ID。
倒排列表：保存了每个关键词在文档集合中出现的位置信息，可以使用倒排列表快速定位到包含某个关键词的文档。

建立倒排索引

接下来，我们将演示如何用Python建立倒排索引。假设我们有一个简单的文档集合，包含若干文档。我们首先需要对文档进行分词，然后构建倒排索引。

import jieba

# 构建文档集合
documents = [
    "我爱北京天安门",
    "天安门上太阳升",
    "伟大领袖毛主席",
    "我爱毛主席"
]

# 构建倒排索引
inverted_index = {}

for doc_id, doc in enumerate(documents):
    words = jieba.lcut(doc)
    for word in words:
        if word not in inverted_index:
            inverted_index[word] = []
        inverted_index[word].append(doc_id)

# 打印倒排索引
for word, posting_list in inverted_index.items():
    print(word, posting_list)

上面的代码首先使用jieba分词工具对文档进行分词，然后构建倒排索引。最后打印出每个关键词对应的倒排列表。

运行结果如下：

我 [0, 3]
爱 [0, 3]
北京 [0]
天安门 [0, 1]
上 [1]
太阳 [1]
升 [1]
伟大 [2]
领袖 [2]
毛主席 [2, 3]

我们可以看到，每个关键词对应的倒排列表中包含了包含该关键词的文档ID。

检索功能实现

有了倒排索引，我们就可以实现基本的检索功能。给定一个查询词，我们可以通过倒排索引快速定位到包含该词的文档。

def search(query, inverted_index):
    words = jieba.lcut(query)
    result_docs = set(range(len(documents)))
    for word in words:
        if word in inverted_index:
            result_docs = result_docs.intersection(inverted_index[word])
    return result_docs

# 查询关键词
query = "我爱毛主席"
result = search(query, inverted_index)
print("查询结果：", result)

上面的代码定义了一个简单的search函数，接受一个查询词和倒排索引作为参数，返回包含所有查询词的文档ID。然后我们用”我爱毛主席”作为查询词进行检索。

运行结果如下：