PyTorch 中的 SVM 算法实现

引言

支持向量机（Support Vector Machine，SVM）是一种常用的监督学习算法，广泛应用于分类和回归问题中。PyTorch是一个开源的深度学习框架，提供了强大的张量计算和自动微分功能，也可以用于实现SVM算法。本文将介绍如何利用PyTorch实现一个简单的SVM算法，并对其进行详细解析。

SVM算法原理

SVM最初是针对二分类问题提出的，后来通过不同的技巧扩展到了多分类和回归问题。以下是SVM算法的基本原理。

函数间隔和几何间隔

对于二分类问题，SVM试图找到一个超平面，将正类样本和负类样本分开。对于样本点(x,y)，其中x是输入特征，y是类别标签，超平面可以表示为w·x+b=0。其中w是法向量，决定超平面的方向，b是位移项，决定超平面的位置。对于样本点(x,y)离超平面的距离，可以用函数间隔来表示：

$\hat{\gamma}=y(w·x+b)$

如果超平面能够将正负样本完全分开，则函数间隔的绝对值等于1。函数间隔越大，表示样本点离超平面越远。

为了简化计算，我们通常将法向量w和位移项b进行缩放，使得函数间隔等于几何间隔。几何间隔可以定义为：

$\gamma=y(\frac{w}{|w|}·x+\frac{b}{|w|})$

其中， $|\cdot|$ 表示向量的范数。几何间隔表示样本点离超平面的距离。同样，几何间隔越大，表示样本点离超平面越远。

目标函数和优化问题

对于线性可分的二分类问题，SVM的目标是找到一个超平面，使得所有正类样本的几何间隔与所有负类样本的几何间隔之和最大。可以把这个问题转化为一个优化问题，即最大化间隔：

$\max_{w,b}{\frac{1}{|w|}\min_{i=1,\dots,n}{y_i(w·x_i+b)}}$

其中，n是训练样本数量。

进一步地，我们可以将目标函数进行等价转化：

$\max_{w,b}{\frac{1}{|w|}\min_{i=1,\dots,n}{y_i(w·x_i+b)}}=\min_{w,b}{\frac{1}{2}|w|^2}$

需要满足的条件是：

$y_i(w·x_i+b) \geq 1, i=1,\dots,n$

对偶问题和支持向量

上述优化问题是一个凸二次规划问题，在约束条件下求解最小值。利用拉格朗日乘子法，可以将上述优化问题转化为对偶问题，通过求解对偶问题可以得到原始问题的最优解。对偶问题可以表示为：

$\min_{\alpha}{\frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{y_iy_j\alpha_i\alpha_j(x_i·x_j)}}-\sum_{i=1}^{n}{\alpha_i}}$

需要满足以下约束条件：

$\alpha_i \geq 0, i=1,\dots,n$

$\sum_{i=1}^{n}{\alpha_iy_i}=0$

其中， $\alpha_i$ 是拉格朗日乘子，用于确定支持向量。支持向量是距离超平面最近的样本点，决定了超平面的位置。

通过软间隔处理线性不可分问题

对于线性不可分的情况，我们可以引入松弛变量(slack variable)来允许样本点出现在超平面的错误一侧。通过引入松弛变量，目标函数可以变为：

$\min_{w,b,\xi}{\frac{1}{2}|w|^2+C\sum_{i=1}^{n}{\xi_i}}$

需要满足以下约束条件：

$y_i(w·x_i+b) \geq 1-\xi_i, i=1,\dots,n$

$\xi_i \geq 0, i=1,\dots,n$

其中，C是一个常数，用于平衡间隔和错误分类的权重。通过调整C的值，可以控制模型的容错性。当C趋于无穷大时，意味着模型更关注于正确分类，当C较小时，模型更关注于最大化间隔。

核方法处理非线性问题

SVM算法最初是为线性可分问题设计的。然而，在许多现实世界的问题中，数据往往是非线性可分的。为了处理这类问题，我们可以借助核函数(kernel function)将输入特征映射到高维空间，使得数据在高维空间中线性可分。常用的核函数有线性核、多项式核、高斯核等。

通过引入核函数，SVM算法可以表示为以下形式：

$\min_{w,b,\xi}{\frac{1}{2}|w|^2+C\sum_{i=1}^{n}{\xi_i}}$

需要满足以下约束条件：

$y_i(w·\phi(x_i)+b) \geq 1-\xi_i, i=1,\dots,n$

$\xi_i \geq 0, i=1,\dots,n$

其中， $\phi(\cdot)$ 是基于核函数进行的映射函数。

PyTorch实现 SVM

接下来，我们将利用PyTorch来实现一个简单的SVM算法。我们将使用线性核和soft margin来处理非线性可分问题。首先，我们需要导入所需的库：

import torch
import torch.optim as optim
import torch.nn.functional as F
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

数据准备

我们使用make_blobs函数生成一个分类任务的合成数据集。这个函数可以生成多个高斯分布簇，每个簇代表一个类别。我们可以通过调整centers参数来控制簇的数量。我们将生成两个簇，每个簇包含100个样本。

# 生成合成数据集
X, y = make_blobs(n_samples=200, centers=2, random_state=0, cluster_std=1.0)
y = 2 * y - 1  # 将类别标签转换为-1和1

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 将数据转换为PyTorch张量
X_train = torch.FloatTensor(X_train)
y_train = torch.FloatTensor(y_train)
X_test = torch.FloatTensor(X_test)
y_test = torch.FloatTensor(y_test)

# 可视化数据集
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap='bwr')
plt.xlabel('X1')
plt.ylabel('X2')
plt.title('Binary Classification Dataset')
plt.show()

运行以上代码，我们可以得到生成的合成数据集的可视化结果。

定义SVM模型

接下来，我们需要定义一个SVM模型。我们使用PyTorch的nn.Module来创建一个自定义的模型。模型包含一个线性层和一个偏置。

class SVM(torch.nn.Module):
    def __init__(self):
        super(SVM, self).__init__()
        self.linear = torch.nn.Linear(2, 1)  # 输入特征维度为2，输出维度为1

    def forward(self, x):
        return self.linear(x)

model = SVM()

定义损失函数和优化器

模型的训练过程中需要使用损失函数和优化器。我们使用PyTorch提供的torch.optim.SGD优化器，并使用Hinge Loss作为损失函数。

loss_fn = F.hinge_embedding_loss
optimizer = optim.SGD(model.parameters(), lr=0.01)

训练模型

我们使用训练集来训练模型。迭代20个epoch，每个epoch对整个训练集进行一次遍历。在每个epoch中，我们计算训练集上的损失，并根据损失更新模型的参数。

epochs = 20

for epoch in range(epochs):
    # 前向传播
    outputs = model(X_train)

    # 计算损失
    loss = loss_fn(outputs, y_train.unsqueeze(1))

    # 反向传播和优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    # 打印损失值
    print(f'Epoch {epoch+1}/{epochs}, Loss: {loss.item():.4f}')

模型评估

训练完成后，我们使用测试集来评估模型的性能。根据模型的预测结果，我们计算准确率并可视化分类结果。

# 在测试集上进行预测
preds = model(X_test)
pred_labels = torch.sign(preds.squeeze())  # 根据预测结果生成类别标签

# 计算准确率
accuracy = (pred_labels == y_test).sum().item() / len(y_test)
print(f'Test Accuracy: {accuracy:.4f}')

# 可视化分类结果
plt.scatter(X_test[:, 0], X_test[:, 1], c=pred_labels.detach().numpy(), cmap='bwr')
plt.xlabel('X1')
plt.ylabel('X2')
plt.title('SVM Classification Result')
plt.show()

运行以上代码，我们可以得到模型在测试集上的准确率，并且通过可视化展示了分类结果。