Numpy计算Python中.wav文件的频谱图

在本文中，我们将介绍如何利用Numpy库计算音频文件.wav的频谱图，即声音的频率随时间变化的图像。这是一个常见的信号处理任务，可以帮助我们更好地理解音频数据。

阅读更多：Numpy 教程

频谱图简介

在讨论如何计算频谱图之前，我们先来了解一下频谱图是什么。频谱图是指在时间轴上呈现声音的频率内容的图像，通常是以颜色的形式来记录声音能量的不同频率分布。在频谱图上，我们可以看到音频文件中不同频率声音的强度和数量的变化。例如，在音频文件中，人们说话时，所使用的音调和声音频率会随时间变化。频谱图可以帮助我们可视化这种变化。

计算spectrogram

下面让我们来具体讨论如何使用Numpy计算频谱图。首先，我们需要将音频文件读取到Python中。我们可以使用Python的wave模块来读取.wav文件：

import wave

# 打开wav文件
wav_file = wave.open('example.wav', 'r')

在我们的示例中，我们读取了文件名为example.wav的音频文件。

接下来，我们需要将这些音频数据转换成Numpy数组。我们可以使用NumPy的frombuffer方法将音频数据转换为数字，然后转换为numpy数组：

import numpy as np

# 读取音频数据
audio_data = wav_file.readframes(-1)

# 将音频数据转换为数字
audio_samples = np.frombuffer(audio_data, dtype=np.int16)

请注意，我们确保强制将数据类型转换为int16，因为音频数据以16位（2字节）整数形式进行采样。下一步是将数据窗口化，这表示我们将数据分成一系列窗口，然后在每个窗口内进行频率分析。这可以帮助我们获得更精确的频率分析。以下是如何执行此操作的示例代码：

# 定义窗口大小
window_size = 1024

# 定义窗口步长
step_size = 512

# 滚动窗口
samples_per_window = len(audio_samples)
n_windows = int(np.ceil((samples_per_window - window_size) / step_size))

# 在每个窗口上执行傅里叶变换
frequency_data = []
for i in range(n_windows):
    start_index = i * step_size
    end_index = start_index + window_size

    # 应用窓口功能以减少噪声
    windowed_samples = audio_samples[start_index:end_index] * np.blackman(window_size)

    # 进行FFT变换，并正规化以进行频率分析
    frequency = np.fft.fft(windowed_samples)
    frequency_data.append(np.abs(frequency))

通过上面的代码，我们得到了一个频率数据列表，其中每个元素是每个窗口的频率分析结果。现在我们可以将这些频率数据转换为Spectrogram。下面是如何做到这一点的示例代码：

# 将频率数据转换为spectrogram矩阵
spectrogram = np.hstack(frequency_data).reshape(-1, window_size).T

通过上面的代码，我们得到了一个spectrogram矩阵，其中每个行表示音频文件的时间轴上的一个时间刻度，每个列表示特定范围内的频率。

绘制频谱图

通过上面的计算，我们现在已经拥有了音频文件的频谱图数据。接下来，我们可以使用Python的Matplotlib库来绘制频谱图。以下是绘制频谱图的示例代码：

import matplotlib.pyplot as plt

# 定义x轴的时间刻度
time_steps = np.arange(0, spectrogram.shape[1], 1) * step_size / audio_sample_rate

# 定义y轴的频率刻度
freqs = np.arange(0, spectrogram.shape[0], 1) * audio_sample_rate / window_size

# 绘制频谱图
plt.pcolormesh(time_steps, freqs, 20 * np.log10(spectrogram), cmap='viridis')
plt.xlabel('Time (seconds)')
plt.ylabel('Frequency (Hz)')
plt.title('Spectrogram of Audio Data')
plt.colorbar()
plt.show()

在上面的示例代码中，我们使用pcolormesh函数来绘制频谱图。我们还添加了标题和坐标轴标签。最后，我们使用colorbar函数添加一个颜色刻度。

总结

在本文中，我们介绍了如何使用Numpy库计算音频文件的频谱图，这是一个常见的信号处理任务。我们使用Python的wave模块将音频文件读取到Python中，并使用NumPy库将音频数据转换为数字。我们还学习了如何在窗口化音频数据模式下执行傅里叶变换，并将频率数据转换为Spectrogram矩阵。最后，我们使用Matplotlib库绘制了频谱图。