循环神经网络(RNN)简介,循环神经网络是一种专门处理序列(sequences)的神经网络。它们通常用于自然语言处理(NLP)任务,因为它们在处理文本方面非常有效。在本文中,我们将探索什么是RNNs,了解它们是如何工作的,并在Python中从头构建一个真正的RNNs(仅使用numpy)。
这篇文章假设有神经网络的基本知识。我对神经网络的介绍涵盖了你需要知道的一切,所以我建议你先读一下。
让我们开始吧!
The Why
普通神经网络(以及CNNs)的一个问题是,它们只对预先确定的大小起作用:它们接受固定大小的输入并产生固定大小的输出。RNNs是有用的,因为它让我们有可变长度的序列作为输入和输出。下面是一些关于RNNs的例子:
输入为红色,RNN本身为绿色,输出为蓝色。来源:Andrej Karpathy
这种处理序列的能力使RNNs非常有用。例如:
- 机器翻译(例如谷歌翻译)是通过“多对多”的RNNs来完成的。原始文本序列被输入一个RNN,然后RNN生成翻译文本作为输出。
- 情绪分析(例如,这是一个积极的还是消极的评论?)通常是用“多对一”的RNNs来完成的。要分析的文本被输入一个RNN,然后RNN生成一个输出分类(例如,这是一个积极的评论)。
在这篇文章的后面,我们将从头构建一个“多对一”的RNN来执行基本的情绪分析。
The How
让我们考虑一个“多对多”的RNN,它的输入,,…,,希望产生输出,,…,。这些和是向量,可以有任意的维数。
RNNs的工作方式是迭代地更新一个隐藏状态h,这是一个向量,也可以有任意的维数。在任意给定的步骤t,
- 下一个隐藏状态使用前一个隐藏状态和下一个输入计算来的
- 下一个输出是用计算得来的
多对多RNN
这就是RNN的递归性:它对每个步骤使用相同的权重。更具体地说,一个典型的普通RNN只使用3组权重来进行计算:
- $$W_{xh}$$ 用于所有$$x_t$$–>$$h_t$$的链接
- $$W_{hh}$$ 用于所有$$h_{t-1}$$–>$$h_t$$的链接
- $$W_{hy}$$ 用于所有$$h_t$$–>$$y_t$$的链接
我们的RNN也会使用两个偏差:
- $$b_h$$,计算$$h_t$$时相加
- $$b_y$$,计算$$y_t$$时相加
我们用矩阵表示权重,用向量表示偏差。这3个权重和2个偏差构成了整个RNN!
下面是把所有东西放在一起的方程式:
不要略过这些方程式。停下来,盯着这个看一分钟。另外,记住权重是矩阵,其他变量是向量。
所有的权值都使用矩阵乘法,并将偏差添加到结果乘积中。然后,我们使用tanh作为第一个方程的激活函数(但也可以使用sigmoid等其他激活函数)。
不知道什么是激活函数?阅读我之前提到的关于神经网络的介绍。认真对待。
The Problem
让我们动手干吧!我们将从头实现一个RNN来执行一个简单的情绪分析任务:确定给定的文本字符串是积极的还是负面的。
下面是我为这篇文章收集的小数据集中的一些例子:
The Plan
由于这是一个分类问题,我们将使用“多对一”RNN。这类似于我们前面讨论的“多对多”RNN,但它只使用最终的隐藏状态产生一个输出y:
多对一RNN
每个都是一个向量,表示文本中的一个单词。输出y将是一个包含两个数字的向量,一个表示正数,另一个表示负数。我们将使用Softmax将这些值转换为概率,并最终在正/负之间做出决定。
让我们开始构建我们的RNN!
The Pre-Processing
我前面提到的数据集由两个Python字典组成:
data.py
True = Positive, False = Negative
我们必须做一些预处理才能把数据转换成可用的格式。首先,我们将构建一个包含数据中所有单词的词汇表:
main.py
vocab现在包含了至少一个训练文本中出现的所有单词的列表。接下来,我们将分配一个整数索引来表示vocab中的每个单词。
main.py
我们现在可以用对应的整数索引表示任意给定的单词!这是必要的,因为RNNs不能理解单词——我们必须给他们数字。
最后,回忆一下RNN的每个输入都是一个向量。我们将使用一个热向量(one-hot vectors),它包含一个元素为非零,而其他元素都是0。每个热向量中的“1”将位于单词对应的整数索引处。
由于我们的词汇表中有18个独特的单词,每个将是一个18维的一维热向量。
main.py
稍后,我们将使用createInputs()创建向量输入,以传递到RNN。
The Forward Phase
是时候开始实现我们的RNN了!我们将从初始化RNN需要的3个权重和2个偏差开始:
rnn.py
注意:我们除以1000是为了减小权重的初始方差。这不是初始化权重的最佳方法,但它很简单,适合本文。
我们使用np.random.randn()从标准正态分布初始化权重。
接下来,让我们实现RNN的正向传递(forward pass)。还记得我们之前看到的这两个方程吗?
下面是这些同样的方程被写入代码:
rnn.py
很简单,对吧?注意,我们在第一步中将h初始化为零向量,因为在这一点上没有可以使用的h。
让我们来试试:
main.py
我们的RNN是有效的,但是还不是很有用。让我们改变……
The Backward Phase
为了训练我们的RNN,我们首先需要一个损失函数。我们将使用交叉熵损失,它通常与Softmax配对。我们是这样计算的:
L=−
其中是RNN对正确类(正或负)的预测概率。例如,如果我们的RNN预测一个正文本为90%,则损失为:
L = = 0.105
现在我们有一个损失,我们将训练我们的RNN使用梯度下降来最小化损失。这意味着是时候推导一些梯度了!
下一节假设您具备多元微积分的基本知识。如果你愿意,你可以跳过它,但我建议即使你不太明白也要略读一下。我们将在获得结果时逐步编写代码,甚至表面级别的理解也会有所帮助。
Definitions
首先,一些定义如下:
- 令y表示RNN的原始输出。
- 设p为最终概率:p=softmax(y)
- 让c引用某个文本示例的真实标签,也就是“正确”类
- 设L为交叉熵损失:L=−
- 让,,做为我们的RNN中的3个权重矩阵
- 让,为RNN中的两个偏置向量
Setup
接下来,我们需要编辑正向阶段来缓存一些数据,以便在反向阶段中使用。在此过程中,我们还将为反向阶段设置骨架。它是这样的:
rnn.py
想知道为什么要进行缓存吗?请阅读我在如何训练CNN中的介绍,在这里我们做同样的事情。
Gradients
数学的时间到了。让我们从计算开始。我们知道:
我将用链式法则把的实际推导留给你们做练习,但是结果非常好:
例如,如果我们让p=[0.2,0.2,0.6] 和正确的类 C为0,那么我们可以得到=[−0.8,0.2,0.6]这也很容易转化为代码:
main.py
好了。接下来,让我们研究一下和的梯度,它们只用于将最终的隐藏状态转换为RNN的输出。我们有:
其中为最终隐藏状态。因此,
同样的,
我们现在可以开始实现backprop()了!
rnn.py
注意一下: 我们先前在forward()创建了 self.last_hs
最后,我们需要 、 和的梯度,这些梯度在 RNN 期间每一步都使用。我们有:
因为改变会影响每一个,每个都会影响y,最终影响L。为了充分计算出的梯度,我们需要通过所有的时间步长进行反向传播,这就是所谓的时间反向传播(Backpropagation through Time, BPTT):
时间反向传播
用于所有–>的正向链接,所以我们必须反向传播回这些链接。
一旦我们到达给定的步骤t,我们需要计算:
tanh的导数是众所周知的:
我们像往常一样使用链式法则:
同样地,
我们最不需要的是。我们可以递归地计算:
我们将从最后一个隐藏状态开始实现BPTT并向后工作,所以当我们要计算时,我们已经有了!例外情况是最后一个隐藏状态,:
现在我们终于实现了BPTT和finish backprop()所需的一切:
rnn.py
几件事情需要注意:
- 为了便利我们合并了 * 为
-
我们不断更新一个包含最新 的 d_h 变量,我们需要计算 。
- 在完成BPTT之后,我们将np.clip()的梯度值设置为小于-1或大于1。这有助于缓解爆炸梯度问题,这是当梯度变得非常大,因为有很多乘项。对于普通的RNNs来说,梯度的爆炸或消失是很有问题的——像LSTMs这样更复杂的RNNs通常能够更好地处理它们。
- 一旦所有梯度计算完毕,我们就使用梯度下降更新权重和偏差。
我们完成了RNN。
The Culmination
终于到了我们等待的时刻——让我们测试一下我们的RNN!
首先,我们将编写一个助手函数来处理数据与我们的RNN:
main.py
现在,我们可以编写训练循环:
main.py
运行main.py应该输出如下内容:
从我们自己建立的RNN来看还不错。
想自己尝试或修改这段代码吗?在浏览器中运行这个RNN。它也可以在Github上使用。
The End
就是这样!在这篇文章中,我们完成了循环神经网络的演练,包括它们是什么,它们是如何工作的,它们为什么有用,如何训练它们,以及如何实现它们。不过,你还有很多事情可以做:
- 了解长短时记忆网络(LSTM),一个更强大和流行的RNN架构,或门控递归单元(GRUs), LSTM的一个著名变体。
- 使用适当的ML库(如Tensorflow、Keras或PyTorch)来试验更大/更好的RNNs。
- 阅读有关双向RNNs的信息,它向前和向后处理序列,以便输出层可以获得更多信息。
- 尝试像GloVe或Word2Vec这样的Word Embeddings,它们可以将单词转换成更有用的向量表示形式。
- 查看自然语言工具包(NLTK),这是一个用于处理人类语言数据的流行Python库。
感谢你的阅读!