什么是强化学习?

在现代人工智能(AI)领域中,强化学习(RL)是最酷的研究课题之一。AI和机器学习(ML)开发人员也在关注RL实践,以改进他们开发的智能应用程序或工具。

Machine learning是所有AI产品的原理。人类开发者使用各种ML方法来训练他们的智能应用程序、游戏等。ML是一个高度多样化的领域,不同的开发团队采用了训练机器的新方法。

一种利润丰厚的ML方法是深度强化学习。在这里,你惩罚不希望的机器行为,奖励智能机器的期望行为。专家认为这种ML方法必将推动AI从自身经验中学习。

如果您考虑从事artificial intelligence和机器学习的职业,请继续阅读这本关于智能应用程序和机器的强化学习方法的终极指南。

机器学习中的强化学习是什么?

RL是将机器学习模型教给计算机程序。然后,应用程序可以根据学习模型做出一系列决策。该软件学习在一个可能复杂和不确定的环境中达到一个目标。在这种机器学习模型中,AI面临着类似游戏的情景。

这个AI应用程序利用试错法来发明解决问题的创造性解决方案。一旦AI应用程序学会了正确的ML模型,它会指示它控制的机器执行程序员想要的任务。

基于正确的决策和任务完成,AI会得到奖励。然而,如果AI做出错误的选择,它会面临惩罚,比如失去奖励点数。AI应用程序的终极目标是积累最大数量的奖励点数来赢得游戏。

AI应用程序的程序员制定游戏规则或奖励政策。程序员还提供AI需要解决的问题。与其他ML模型不同,AI程序不会收到来自软件程序员的任何提示。

AI需要找出如何解决游戏挑战以获得最大的奖励。该应用程序可以使用试错法、随机试验、超级计算机技能和复杂的思考策略来达到解决方案。

您必须为AI程序配备强大的计算基础设施,并将其思考系统与各种并行和历史游戏连接起来。然后,AI可以展示人类无法想象的关键和高级创造力。

强化学习的流行示例

#1. 打败最强的围棋人类选手

DeepMind Technologies(Google的子公司)的AlphaGo AI是基于RL的机器学习的领先示例之一。该AI玩的是一种叫做围棋的中国棋盘游戏。这是一个拥有3000年历史的游戏,注重战术和策略。

程序员使用了RL的教学方法来训练AlphaGo。它与人类和自己进行了数千场围棋比赛。然后,在2016年,它在一对一比赛中击败了世界最强的围棋选手李世石。

#2. 真实世界中的机器人技术

人们长期以来一直在生产线上使用机器人,在那里的任务都是预先计划好且重复的。但是,如果您需要为现实世界制造一个通用的机器人,其中的行动并非预先计划,那么这将是一个巨大的挑战。

然而,强化学习能力的AI可以发现两个位置之间的平滑、可导航和短路径。

#3. 自动驾驶车辆

自动驾驶车辆研究人员广泛使用RL方法来教导他们的AI进行:

  • 动态路径规划
  • 轨迹优化
  • 停车和换道等移动规划
  • 优化控制器,电子控制单元(ECU),微控制器(MCU)等
  • 高速公路上基于情景的学习

#4. 自动冷却系统

基于强化学习的人工智能可以帮助减少大型办公楼、商业中心、购物中心和最重要的数据中心的冷却系统的能耗。该人工智能从数千个热传感器收集数据。

它还收集人类和机械活动的数据。根据这些数据,人工智能可以预测未来的热发生潜力,并适时开启和关闭冷却系统以节省能源。

如何设置强化学习模型

您可以根据以下方法设置强化学习模型:

#1. 基于策略

这种方法使得AI程序员可以找到最理想的策略以获得最大的奖励。在此方法中,程序员不使用值函数。一旦设置了基于策略的方法,强化学习代理尝试应用该策略,使其在每个步骤中执行的动作使得AI能够最大化奖励点数。

主要有两种类型的策略:

#1. 确定性:策略在任何给定状态下都可以产生相同的动作。

#2. 随机性:产生的动作取决于其发生的概率。

#2. 基于值

相反,基于值的方法帮助程序员找到在任何给定状态下在某个策略下的最优值函数,即在该策略下的最大值。一旦应用,强化学习代理期望在所述策略下的一个或多个状态下的长期回报。

#3. 基于模型

在基于模型的强化学习方法中,AI程序员为环境创建了一个虚拟模型。然后,强化学习代理在环境中移动并从中学习。

强化学习的类型

#1. 正向强化学习(PRL)

正向学习意味着添加一些元素来增加预期行为再次发生的概率。这种学习方法积极影响强化学习代理的行为。PRL还可以提高您的AI的某些行为的强度。

PRL类型的学习强化应该使AI适应长期的变化。但是注入过多的正向学习可能会导致状态过载,从而降低AI的效率。

#2. 负向强化学习(NRL)

当强化学习算法帮助AI避免或停止负面行为时,它从中学习并改进其未来的行动。这被称为负向学习。它只为AI提供了有限的智能,以满足某些行为要求。

强化学习的实际应用案例

#1. 电子商务解决方案开发商已经构建了个性化的产品或服务建议工具。您可以将该工具的API连接到您的在线购物网站上。然后,AI将从个体用户中学习并建议定制商品和服务。

#2. 开放世界的视频游戏具有无限的可能性。然而,在游戏程序后面有一个学习玩家输入并修改视频游戏代码以适应未知情况的AI程序。

#3. 基于AI的股票交易和投资平台使用强化学习模型从股票和全球指数的波动中学习。然后,它们制定一个概率模型来建议投资或交易的股票。

#4. 像YouTube、Metacafe、Dailymotion等在线视频库使用在强化学习模型上训练的AI机器人来为用户提供个性化视频建议。

强化学习的常见挑战

  • RL算法通常学习环境特定的事物。因此,他们很难泛化,即将这些学习应用于新的情况。
  • 当代码和模型不可用时,这种方法很难复制或改进。
  • 当涉及到现实生活应用时,确保RL算法生成安全和道德决策并不容易。
  • 有效的RL需要大量的数据和经验,这使得它耗时且昂贵。
  • RL算法经常无法平衡对新动作的探索和对现有知识的利用。
  • 非零奖励信号的稀疏性使得RL代理的有效学习变得困难。

强化学习与监督学习的区别

强化学习的目标是训练AI代理以顺序决策。简而言之,可以认为AI的输出取决于当前输入的状态。同样,RL算法的下一个输入将取决于过去输入的输出。

与之相反,在监督学习中,程序员训练AI代理根据开始时或任何其他初始输入的输入做出决策。自动驾驶汽车AI识别环境物体是监督学习的一个很好的例子。

强化学习与无监督学习的区别

到目前为止,您已经了解到RL方法推动AI代理从机器学习模型策略中学习。主要是,AI只会采取能够获取最大奖励点数的步骤。RL通过反复试验帮助AI自我改进。

另一方面,在无监督学习中,AI程序员向AI软件提供未标记的数据。此外,ML讲师不告诉AI有关数据结构或数据中要查找的内容。该算法通过对给定未知数据集上的自己的观察进行分类来学习各种决策。

强化学习课程

现在您已经了解了基础知识,以下是一些在线课程,可学习高级强化学习。您还可以获得证书,可以在LinkedIn或其他社交平台上展示:

强化学习专项课程:Coursera

您是否想要掌握与机器学习上下文中的强化学习的核心概念?您可以尝试这个在线课程,它具有自定进度的学习和认证选择。如果您具备以下背景技能,该课程将适合您:

  • 在(link_3)中具有编程知识
  • 基本统计概念
  • 能够将伪代码和算法转化为Python代码
  • 两到三年的软件开发经验
  • 计算机科学专业的大二学生也符合条件

该课程的评分为4.8星,已有超过36K名学生在不同时间段内报名参加了该课程。此外,该课程提供财政援助,只要候选人符合(link_4)的某些资格标准。

最后,阿尔伯塔大学的阿尔伯塔机器智能研究所提供了该课程(不授予学分)。计算机科学领域的杰出教授将担任您的课程讲师。完成课程后,您将获得Coursera证书。

Python中的AI强化学习:Udemy

如果您从事金融市场或数字营销,并希望为这些领域开发智能软件包,您必须查看这个课程。除了RL的核心原则外,培训内容还将教您如何为在线广告和推荐系统等开发RL解决方案。

这门课程涵盖了一些重要的主题:

  • 强化学习的高级概述
  • 动态规划
  • 蒙特卡洛
  • 逼近方法
  • 基于强化学习的股票交易项目

迄今已有超过42,000名学生参加了该课程。在线学习资源目前拥有4.6星的评级,相当令人印象深刻。此外,该课程旨在满足全球学生群体的需求,因为学习内容可用法语、英语、西班牙语、德语、意大利语和葡萄牙语提供。

Python深度强化学习:Udemy

如果您对深度学习和人工智能有好奇心和基本知识,可以尝试Udemy的这门高级课程。凭借学生们给出的4.6星评级,这是又一门在AI/ML背景下学习强化学习的热门课程。

该课程共有12个部分,涵盖了以下重要主题:

  • OpenAI Gym和基本强化学习技术
  • TD Lambda
  • A3C
  • Theano基础知识
  • Tensorflow基础知识
  • 初学者的Python编码

完成整个课程需要投入10小时40分钟的时间。除了文字内容外,还包括79个专家讲座。

深度强化学习专家:Udacity

想要从Nvidia Deep Learning Institute和Unity等全球AI/ML领导者那里学习高级机器学习?Udacity可以帮您实现这个梦想。请查看这门课程,成为机器学习专家。

但是,您需要具备高级Python、中级统计学、概率论、TensorFlow、PyTorch和Keras的基础知识。

完成该课程需要专注学习长达4个月的时间。在整个课程中,您将学习到诸如深度确定性策略梯度(DDPG)、深度Q网络(DQN)等重要的强化学习算法。

最后的话

强化学习是人工智能发展的下一步。人工智能开发机构和IT公司正在这个领域投入资金,以创建可靠和可信赖的AI培训方法。

尽管强化学习已经取得了很大的进展,但仍有更多的发展空间。例如,单独的强化学习代理之间不共享知识。因此,如果您正在训练一款驾驶汽车的应用程序,学习过程将变得缓慢。因为像对象检测、道路参考等强化学习代理将不会共享数据。

在这些挑战中,您有机会发挥创造力和机器学习专业知识。注册在线课程将帮助您进一步了解高级强化学习方法及其在真实项目中的应用。

您还可以学习与之相关的内容:the differences between AI, Machine Learning, and Deep Learning

类似文章