强化学习(Reinforcement learning),机器学习的一个领域。它是关于在特定的情况下,采取适当的行动来最大化回报。它被各种软件和机器所利用,以找到在特定情况下应该采取的最佳行为或路径。强化学习不同于监督学习,在监督学习中,训练数据具有答案,因此模型具有正确答案;在强化学习中,没有答案,但强化剂决定做什么来执行给定的任务。在缺乏训练数据集的情况下,必然要从经验中学习。
例如,问题如下:我们有一个代理和一个奖励,中间有很多障碍。代理应该找到获得奖励的最佳可能路径。下面的问题更容易解释这个问题。
上图展示了机器人,钻石和火。机器人的目标是获得钻石的奖励,避免火灾的障碍。机器人通过尝试所有可能的路径来学习,然后选择障碍最少的路径作为奖励。每一个正确的步骤都会给机器人一个奖励,每一个错误的步骤都会减去机器人的奖励。总奖励将在到达最终奖励即钻石时计算。
强化学习的要点-
- 输入:输入应该是模型开始的初始状态
- 输出:有许多可能的输出,因为对于一个特定的问题有不同的解决方案
- 训练:训练基于输入,模型将返回状态,用户将根据其输出决定奖励或惩罚模型。
- 模型继续学习。
- 最好的解决方案是根据最大的奖励来决定的。
强化学习与监督学习的区别:
强化学习 | 监督学习 |
---|---|
强化学习就是按顺序做决定。简单地说,out取决于当前输入的状态,下一个输入取决于前一个输入的输出 | 在监督学习中,决策是对初始输入或初始给定的输入作出的 |
在强化学习中,决策是依赖的,因此我们给依赖决策序列贴上标签 | 监督学习的决策是相互独立的,所以每个决策都有标签。 |
例如:国际象棋游戏 | 例如:对象识别 |
强化类型:有两种强化类型。
1.正向强化
正向强化被定义为当一个事件,由于一个特定的行为而发生,增加了该行为的强度和频率。换句话说,它对行为有积极的影响。
2.负向强化
负强化定义为增强行为,因为消极条件被停止或避免。
强化学习的各种实际应用-
- 可用于工业自动化机器人领域。
- 可用于机器学习和数据处理
- 可以用来创建培训系统,根据学生的需求提供定制的教学和材料。
强化学习可用于以下大型环境:
- 环境模型是已知的,但没有分析解;
- 只给出了环境的仿真模型(基于仿真优化的课题)
- 收集环境信息的唯一方法是与环境进行交互。