强化学习|极客教程

强化学习(Reinforcement learning),机器学习的一个领域。它是关于在特定的情况下，采取适当的行动来最大化回报。它被各种软件和机器所利用，以找到在特定情况下应该采取的最佳行为或路径。强化学习不同于监督学习，在监督学习中，训练数据具有答案，因此模型具有正确答案；在强化学习中，没有答案，但强化剂决定做什么来执行给定的任务。在缺乏训练数据集的情况下，必然要从经验中学习。

例如，问题如下:我们有一个代理和一个奖励，中间有很多障碍。代理应该找到获得奖励的最佳可能路径。下面的问题更容易解释这个问题。
强化学习
上图展示了机器人，钻石和火。机器人的目标是获得钻石的奖励，避免火灾的障碍。机器人通过尝试所有可能的路径来学习，然后选择障碍最少的路径作为奖励。每一个正确的步骤都会给机器人一个奖励，每一个错误的步骤都会减去机器人的奖励。总奖励将在到达最终奖励即钻石时计算。

强化学习的要点-

输入:输入应该是模型开始的初始状态
输出:有许多可能的输出，因为对于一个特定的问题有不同的解决方案
训练：训练基于输入，模型将返回状态，用户将根据其输出决定奖励或惩罚模型。
模型继续学习。
最好的解决方案是根据最大的奖励来决定的。

强化学习与监督学习的区别:

强化学习	监督学习
强化学习就是按顺序做决定。简单地说，out取决于当前输入的状态，下一个输入取决于前一个输入的输出	在监督学习中，决策是对初始输入或初始给定的输入作出的
在强化学习中，决策是依赖的，因此我们给依赖决策序列贴上标签	监督学习的决策是相互独立的，所以每个决策都有标签。
例如:国际象棋游戏	例如:对象识别