Python程序获取单词出现频率的百分比

Python程序获取单词出现频率的百分比

在本文中,我们将学习如何使用Python获取字符串列表中每个单词的百分比。

假设我们已经输入一个字符串列表。我们现在将在所给的字符串列表中查找每个单词的百分比。

公式

(X单词出现次数/总单词数)*100

使用的方法

  • 使用sum(),Counter(),join() 和 split()函数

  • 使用join(),split()和count()函数

  • 使用operator模块中的countOf()函数。

方法1:使用sum(),Counter(),join()和split()函数

join() 是Python中的字符串函数,用于连接由字符串分隔符分隔的序列元素。该函数将序列元素连接起来形成一个字符串。

Counter() 函数是计算可散列对象的子类。在调用/调用时,它在可迭代的哈希表中隐式地创建哈希表。

算法(步骤)

以下是执行所需任务的算法/步骤:

  • 使用import关键字从collections模块中导入Counter函数。

  • 创建一个变量来存储字符串列表的 输入列表 并打印该列表。

  • 使用 join() 函数将输入列表中的所有字符串元素连接起来。

  • 使用 split() 函数(将字符串拆分为列表。我们可以定义分隔符;默认分隔符是任何空格)将连接的字符串拆分为单词列表,并使用 Counter() 函数获取单词频率作为键值对。

  • 使用 values() 函数从Counter中获取所有值(频率/计数)并使用sum()函数获取它们的总和(返回可迭代项中所有项目的总和)。

  • 使用上述计数器单词中的 items() 函数获取每个单词的百分比(返回一个视图对象,即一个列表中以元组的形式包含字典的键值对)。

  • 打印输入列表中每个单词的百分比。

例子

下面的程序使用sum(),Counter(),join()和split()函数返回所给的字符串列表中每个单词的百分比:

#从collections模块导入Counter函数
from collections import Counter

#输入字符串列表
inputList = ["hello tutorialspoint", "python codes", "tutorialspoint for python", "see python codes tutorialspoint"]
print("Input list:\n", inputList)

#使用join()函数连接列表中所有的字符串元素
join_string = " ".join(i for i in inputList)

#将连接的字符串拆分为单词列表并获取单词频率作为键值对
counter_words = Counter(join_string.split())
#从计数器中获取所有的值(频率/计数)并找到它们的总和
total_sum = sum(counter_words.values())

#从上述计数器单词中获取每个单词的百分比
res_percentage = {key: value / total_sum for key,
value in counter_words.items()}

#打印输入列表中每个单词的百分比
print("Percentage of each word from the input list:\n", res_percentage)

输出结果

运行上面的程序,将生成以下输出:

输入列表:
['hello tutorialspoint', 'python codes', 'tutorialspoint for python', 'see python codes tutorialspoint']
每个单词的百分比:
{'hello':0.09090909090909091, 'tutorialspoint':0.2727272727272727, 'python':0.2727272727272727, 'codes':0.18181818181818182, 'for':0.09090909090909091, 'see':0.09090909090909091}

方法2:使用join()、split()和count()函数

算法(步骤)

以下是执行所需任务的算法/步骤:

  • 创建一个空字典,用来存储结果百分比/单词频率。

  • 使用for循环遍历单词列表。

  • 使用if条件语句,使用keys()函数检查当前元素是否不在字典的键中。

  • 如果上述条件为真,则使用count()函数获取此关键字(单词)的计数。

  • 将其除以单词数以获得当前单词频率,并将其存储为上述新建字典中的键。

  • 打印输入列表中每个单词的百分比。

示例

以下程序使用join()split()count()函数返回给定输入字符串列表中每个单词的百分比:

# 输入字符串列表
inputList = ["hello tutorialspoint", "python codes", "tutorialspoint for python", "see python codes tutorialspoint"]

# 使用join()连接列表中的所有元素
join_string = " ".join(i for i in inputList)

# 将连接的字符串拆分为单词列表
listOfWords = join_string.split()

# 创建一个空字典,用来存储结果百分比
resDict = dict()

# 遍历单词列表
for item in listOfWords:
   # 检查当前元素是否不在字典的键中
   if item not in resDict.keys():
      # 如果条件为真,则获取当前单词的百分比
      resDict[item] = listOfWords.count(item)/len(listOfWords)

# 打印输入列表中每个单词的百分比
print("每个单词的百分比:\n", resDict)

输出

执行上述程序后,将生成以下输出:

每个单词的百分比:
{'hello':0.09090909090909091, 'tutorialspoint':0.2727272727272727, 'python':0.2727272727272727, 'codes':0.18181818181818182, 'for':0.09090909090909091, 'see':0.09090909090909091}

方法3:使用operator模块的countOf()函数

示例

以下程序使用countOf()函数返回给定输入字符串列表中每个单词的百分比:

import operator as op

# 输入字符串列表
inputList = ["hello tutorialspoint", "python codes", "tutorialspoint for python", "see python codes tutorialspoint"]

# 使用join()连接列表中的所有元素
join_string = " ".join(i for i in inputList)

# 将连接的字符串进行拆分
listOfWords = join_string.split()

# 创建一个空字典用于存储结果百分比的字典
resDict = dict()

for item in listOfWords:
    # 检查当前元素是否不在字典的键中
    if item not in resDict.keys():
        # 如果条件为真,则获取当前单词的百分比
        resDict[item] = op.countOf(listOfWords, item)/len(listOfWords)

# 打印输入列表中每个单词的百分比
print("每个单词的百分比:\n", resDict)

输出

执行上述程序后,将生成以下输出:

输入列表中每个单词的百分比:
{'hello': 0.09090909090909091, 'tutorialspoint': 0.2727272727272727, 'python': 0.2727272727272727, 'codes': 0.18181818181818182, 'for': 0.09090909090909091, 'see': 0.09090909090909091}

结论

本文介绍了三种不同的Python方法来计算单词频率的百分比。我们还学习了如何使用操作符模块的新函数countOf()来获取列表元素的频率。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程