工具

什么是强化学习？

By姚伟斌 December 2, 2023September 11, 2023

在现代人工智能（AI）领域中，强化学习（RL）是最酷的研究课题之一。AI和机器学习（ML）开发人员也在关注RL实践，以改进他们开发的智能应用程序或工具。

Machine learning是所有AI产品的原理。人类开发者使用各种ML方法来训练他们的智能应用程序、游戏等。ML是一个高度多样化的领域，不同的开发团队采用了训练机器的新方法。

一种利润丰厚的ML方法是深度强化学习。在这里，你惩罚不希望的机器行为，奖励智能机器的期望行为。专家认为这种ML方法必将推动AI从自身经验中学习。

如果您考虑从事artificial intelligence和机器学习的职业，请继续阅读这本关于智能应用程序和机器的强化学习方法的终极指南。

机器学习中的强化学习是什么？

RL是将机器学习模型教给计算机程序。然后，应用程序可以根据学习模型做出一系列决策。该软件学习在一个可能复杂和不确定的环境中达到一个目标。在这种机器学习模型中，AI面临着类似游戏的情景。

这个AI应用程序利用试错法来发明解决问题的创造性解决方案。一旦AI应用程序学会了正确的ML模型，它会指示它控制的机器执行程序员想要的任务。

基于正确的决策和任务完成，AI会得到奖励。然而，如果AI做出错误的选择，它会面临惩罚，比如失去奖励点数。AI应用程序的终极目标是积累最大数量的奖励点数来赢得游戏。

AI应用程序的程序员制定游戏规则或奖励政策。程序员还提供AI需要解决的问题。与其他ML模型不同，AI程序不会收到来自软件程序员的任何提示。

AI需要找出如何解决游戏挑战以获得最大的奖励。该应用程序可以使用试错法、随机试验、超级计算机技能和复杂的思考策略来达到解决方案。

您必须为AI程序配备强大的计算基础设施，并将其思考系统与各种并行和历史游戏连接起来。然后，AI可以展示人类无法想象的关键和高级创造力。

强化学习的流行示例

#1. 打败最强的围棋人类选手

DeepMind Technologies（Google的子公司）的AlphaGo AI是基于RL的机器学习的领先示例之一。该AI玩的是一种叫做围棋的中国棋盘游戏。这是一个拥有3000年历史的游戏，注重战术和策略。

程序员使用了RL的教学方法来训练AlphaGo。它与人类和自己进行了数千场围棋比赛。然后，在2016年，它在一对一比赛中击败了世界最强的围棋选手李世石。

#2. 真实世界中的机器人技术

人们长期以来一直在生产线上使用机器人，在那里的任务都是预先计划好且重复的。但是，如果您需要为现实世界制造一个通用的机器人，其中的行动并非预先计划，那么这将是一个巨大的挑战。

然而，强化学习能力的AI可以发现两个位置之间的平滑、可导航和短路径。

#3. 自动驾驶车辆

自动驾驶车辆研究人员广泛使用RL方法来教导他们的AI进行：

动态路径规划
轨迹优化
停车和换道等移动规划
优化控制器，电子控制单元（ECU），微控制器（MCU）等
高速公路上基于情景的学习

#4. 自动冷却系统

基于强化学习的人工智能可以帮助减少大型办公楼、商业中心、购物中心和最重要的数据中心的冷却系统的能耗。该人工智能从数千个热传感器收集数据。

它还收集人类和机械活动的数据。根据这些数据，人工智能可以预测未来的热发生潜力，并适时开启和关闭冷却系统以节省能源。

如何设置强化学习模型

您可以根据以下方法设置强化学习模型：

#1. 基于策略

这种方法使得AI程序员可以找到最理想的策略以获得最大的奖励。在此方法中，程序员不使用值函数。一旦设置了基于策略的方法，强化学习代理尝试应用该策略，使其在每个步骤中执行的动作使得AI能够最大化奖励点数。

主要有两种类型的策略：

#1. 确定性：策略在任何给定状态下都可以产生相同的动作。

#2. 随机性：产生的动作取决于其发生的概率。

#2. 基于值

相反，基于值的方法帮助程序员找到在任何给定状态下在某个策略下的最优值函数，即在该策略下的最大值。一旦应用，强化学习代理期望在所述策略下的一个或多个状态下的长期回报。

#3. 基于模型

在基于模型的强化学习方法中，AI程序员为环境创建了一个虚拟模型。然后，强化学习代理在环境中移动并从中学习。

强化学习的类型

#1. 正向强化学习（PRL）

正向学习意味着添加一些元素来增加预期行为再次发生的概率。这种学习方法积极影响强化学习代理的行为。PRL还可以提高您的AI的某些行为的强度。

PRL类型的学习强化应该使AI适应长期的变化。但是注入过多的正向学习可能会导致状态过载，从而降低AI的效率。

#2. 负向强化学习（NRL）

当强化学习算法帮助AI避免或停止负面行为时，它从中学习并改进其未来的行动。这被称为负向学习。它只为AI提供了有限的智能，以满足某些行为要求。

强化学习的实际应用案例

#1. 电子商务解决方案开发商已经构建了个性化的产品或服务建议工具。您可以将该工具的API连接到您的在线购物网站上。然后，AI将从个体用户中学习并建议定制商品和服务。

#2. 开放世界的视频游戏具有无限的可能性。然而，在游戏程序后面有一个学习玩家输入并修改视频游戏代码以适应未知情况的AI程序。

#3. 基于AI的股票交易和投资平台使用强化学习模型从股票和全球指数的波动中学习。然后，它们制定一个概率模型来建议投资或交易的股票。

#4. 像YouTube、Metacafe、Dailymotion等在线视频库使用在强化学习模型上训练的AI机器人来为用户提供个性化视频建议。

强化学习的常见挑战

RL算法通常学习环境特定的事物。因此，他们很难泛化，即将这些学习应用于新的情况。
当代码和模型不可用时，这种方法很难复制或改进。
当涉及到现实生活应用时，确保RL算法生成安全和道德决策并不容易。
有效的RL需要大量的数据和经验，这使得它耗时且昂贵。
RL算法经常无法平衡对新动作的探索和对现有知识的利用。
非零奖励信号的稀疏性使得RL代理的有效学习变得困难。

强化学习与监督学习的区别

强化学习的目标是训练AI代理以顺序决策。简而言之，可以认为AI的输出取决于当前输入的状态。同样，RL算法的下一个输入将取决于过去输入的输出。

与之相反，在监督学习中，程序员训练AI代理根据开始时或任何其他初始输入的输入做出决策。自动驾驶汽车AI识别环境物体是监督学习的一个很好的例子。

强化学习与无监督学习的区别

到目前为止，您已经了解到RL方法推动AI代理从机器学习模型策略中学习。主要是，AI只会采取能够获取最大奖励点数的步骤。RL通过反复试验帮助AI自我改进。

另一方面，在无监督学习中，AI程序员向AI软件提供未标记的数据。此外，ML讲师不告诉AI有关数据结构或数据中要查找的内容。该算法通过对给定未知数据集上的自己的观察进行分类来学习各种决策。

强化学习课程

现在您已经了解了基础知识，以下是一些在线课程，可学习高级强化学习。您还可以获得证书，可以在LinkedIn或其他社交平台上展示：

强化学习专项课程：Coursera

您是否想要掌握与机器学习上下文中的强化学习的核心概念？您可以尝试这个在线课程，它具有自定进度的学习和认证选择。如果您具备以下背景技能，该课程将适合您：

在(link_3)中具有编程知识
基本统计概念
能够将伪代码和算法转化为Python代码
两到三年的软件开发经验
计算机科学专业的大二学生也符合条件

该课程的评分为4.8星，已有超过36K名学生在不同时间段内报名参加了该课程。此外，该课程提供财政援助，只要候选人符合(link_4)的某些资格标准。

最后，阿尔伯塔大学的阿尔伯塔机器智能研究所提供了该课程（不授予学分）。计算机科学领域的杰出教授将担任您的课程讲师。完成课程后，您将获得Coursera证书。

Python中的AI强化学习：Udemy

如果您从事金融市场或数字营销，并希望为这些领域开发智能软件包，您必须查看这个课程。除了RL的核心原则外，培训内容还将教您如何为在线广告和推荐系统等开发RL解决方案。

这门课程涵盖了一些重要的主题：

强化学习的高级概述
动态规划
蒙特卡洛
逼近方法
基于强化学习的股票交易项目

迄今已有超过42,000名学生参加了该课程。在线学习资源目前拥有4.6星的评级，相当令人印象深刻。此外，该课程旨在满足全球学生群体的需求，因为学习内容可用法语、英语、西班牙语、德语、意大利语和葡萄牙语提供。

Python深度强化学习：Udemy

如果您对深度学习和人工智能有好奇心和基本知识，可以尝试Udemy的这门高级课程。凭借学生们给出的4.6星评级，这是又一门在AI/ML背景下学习强化学习的热门课程。

该课程共有12个部分，涵盖了以下重要主题：

OpenAI Gym和基本强化学习技术
TD Lambda
A3C
Theano基础知识
Tensorflow基础知识
初学者的Python编码

完成整个课程需要投入10小时40分钟的时间。除了文字内容外，还包括79个专家讲座。

深度强化学习专家：Udacity

想要从Nvidia Deep Learning Institute和Unity等全球AI/ML领导者那里学习高级机器学习？Udacity可以帮您实现这个梦想。请查看这门课程，成为机器学习专家。

但是，您需要具备高级Python、中级统计学、概率论、TensorFlow、PyTorch和Keras的基础知识。

完成该课程需要专注学习长达4个月的时间。在整个课程中，您将学习到诸如深度确定性策略梯度（DDPG）、深度Q网络（DQN）等重要的强化学习算法。

最后的话

强化学习是人工智能发展的下一步。人工智能开发机构和IT公司正在这个领域投入资金，以创建可靠和可信赖的AI培训方法。

尽管强化学习已经取得了很大的进展，但仍有更多的发展空间。例如，单独的强化学习代理之间不共享知识。因此，如果您正在训练一款驾驶汽车的应用程序，学习过程将变得缓慢。因为像对象检测、道路参考等强化学习代理将不会共享数据。

在这些挑战中，您有机会发挥创造力和机器学习专业知识。注册在线课程将帮助您进一步了解高级强化学习方法及其在真实项目中的应用。

您还可以学习与之相关的内容：the differences between AI, Machine Learning, and Deep Learning

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

互联网安全研究人员的数据搜索引擎

By姚伟斌 December 13, 2023September 11, 2023

搜索引擎已成为21世纪每个人，包括IT安全专业人员的必备工具。我们需要像谷歌这样的搜索引擎来检查产品评论，预订酒店，找到一个词的同义词。看着谷歌的巨大成功，现在你可以找到像Safari，Bing，Yandex，DuckDuckGo等这样的搜索引擎。但是你是否认为所有的信息都可以在这些公共搜索引擎上找到? 答案是否定的。那么，如果你需要找到对你公司或网站的安全至关重要的信息，你将怎么办? 如果这些搜索引擎中没有可用的数据怎么办? 不要皱眉，解决方案是存在的! 有一些专门为网络安全团队和安全研究人员的需求而设计的搜索引擎，这些搜索引擎帮助您浏览有价值的信息，可以在安全操作中利用这些信息。您可以使用它们来查找暴露在互联网上的设备，跟踪威胁，进行钓鱼模拟，发现网络安全漏洞等等。本文将介绍更多关于这些搜索引擎的信息，然后看看您可以用于安全研究的最佳搜索引擎。但是，安全研究中信息收集的重要性是什么? 为了保护数据和隐私并分析威胁可能性，收集安全目的的信息是研究人员采取的第一步。该过程包括两个目标：收集与系统相关的数据，如操作系统主机名和系统类型、系统横幅、系统组、枚举等…

工具

长毛象 – 一个现代时代的颠覆性社交媒体平台

By姚伟斌 December 20, 2023September 12, 2023

走向像大象鸟一样社交的方式。 Twitter的私有化推动人们重新思考社交媒体。毕竟，要巩固自己的社交存在需要多年的努力，而你可能随时被某个富有的企业家剥夺这一特权。所有权力的集中化让很多人感到恼怒，特别是在那场Twitter的事件发生后。于是开始寻找新的家园。一个没有监督、没有掺杂的社交平台，没有邪恶算法追踪你的一举一动。这就是…… Mastodon：概述从技术上讲，它不是一个社交网络！Mastodon是一个开源工具，可以让你建立自己的社交网络，并与其他人联系。目前，有超过9200个Mastodon服务器，拥有120万活跃用户。所有这些服务器都有自己的政策，由组织和个人运营。图片来源：Statista 重要的是，服务器上的用户可以像一个大的（社交）网络一样相互交流。此外，有一种方便的一键方式可以将所有时间线的噪音分开，只获取来自你所在服务器上的人的更新。说到这个，一个服务器通常托管志同道合的人。例如，Toot.Garden是为了讨论艺术、游戏和生活的人。根据具体的条件，一些服务器欢迎新用户，而其他服务器则会在接受新用户之前对其进行手动审核。此外，一些Mastodon实例要求缴纳订阅费才能加入。总的来说，Mastodon网络没有一个单一的定义。它是狂野、开放和自由的。这是它成为真正的民众社交网络的事实。幕后花絮 Mastodon是fediverse（联邦宇宙）的一部分。它使用ActivityPub协议，就像许多其他非Mastodon实体，包括ActivityPub、Pixelfed、Plume等。所有实现ActivityPub协议的项目都可以互相交流，就像两个Mastodon网站一样。…

工具

2025年最佳Ruby测试框架

By姚伟斌 November 21, 2023September 13, 2023

Ruby是最受欢迎的服务器端编程语言之一，因为它的语法简单且灵活。这种面向对象的语言主要用于Web开发、数据科学、DevOps和自动化、Web抓取以及静态网站的创建。然而，一个完整的开发环境离不开测试。幸运的是，存在各种专为Ruby语言设计的测试框架。在本文中，我们将定义一个Ruby测试框架，讨论创建Ruby应用程序时测试的重要性，并介绍一些您应该使用的最佳Ruby测试框架。什么是Ruby测试框架？测试框架是一种工具，用于评估和验证软件应用程序或产品是否按预期运行。一个典型的Ruby测试框架具有工具包，帮助开发人员和QA工程师为基于Ruby的应用程序编写测试。测试有不同的形式，例如回归测试、功能测试、性能测试和可用性测试等。由于以下原因，对Ruby进行测试很重要：识别安全威胁：当Ruby应用程序经过深入测试时，可以轻松检测到可能危及用户数据和个人信息的安全漏洞。节省资金：修复错误可能很昂贵，当应用程序已经运行时。测试可以及早发现错误，以便在发布应用程序或更新之前修复。满足客户需求：最终用户始终是开发的焦点。可用性测试确保软件应用程序按预期工作，并满足客户需求。维护公司的良好声誉：在商业世界中竞争将始终存在。没有错误的应用程序很可能会吸引来自最终用户的好评。以下是一些最佳的Ruby测试框架 Minitest Minitest 是一个支持行为驱动开发、测试驱动开发、基准测试和模拟的测试框架。它附带了一个完整的测试套件。…

工具

20个最佳的程序员/开发人员生产力应用

By姚伟斌 December 9, 2023September 12, 2023

生产力应用可以帮助程序员专注于任务，最小化干扰，促进深思熟虑，并按时高质量完成工作。事实上，忙和高效是两回事。你可以忙于做任何可能或可能不会产生成果的事情。或者，你可能会花费大量时间做可以自动化的重复性任务，或者浏览电子邮件。另一方面，高效意味着高质量地高效完成工作，例如编写代码、测试和执行代码，以及在没有拖延或感到精疲力尽的情况下思考逻辑。高效和有效是程序员的重要品质。那些能够以更快的速度编写高质量代码的程序员需求量很大。这是因为他们可以帮助公司或客户比其他人更快地解决问题。此时，你需要既努力又聪明。当然，你需要具备高技能来编写高质量的代码，但你还必须利用自动化和生产力应用程序来帮助简化某些过程。这可能包括代码搜索、任务管理、测试、时间跟踪、代码执行、密码管理等各种任务。使用不同的生产力应用程序，程序员可以掌控时间，有效管理任务，自动化重复性任务，并做出更好的决策。在本文中，我将介绍一些软件开发中的程序员生产力工具。看看它们吧！代码搜索工具如果你想了解系统的组织方式，作为程序员，你必须寻找组成整个系统的不同文件。在包含数千个文件的较大软件系统中查找特定代码是具有挑战性的，这正是代码搜索工具或代码搜索引擎发挥作用的地方。它们通过允许开发人员从各种软件项目中搜索他们正在寻找的代码，简化了开发人员的任务。结果，它帮助他们加快了代码编写部分，使开发过程更快。因此，这里有五个代码搜索工具。 searchcode 使用searchcode的帮助，搜索750亿行代码。它从40多个万项目中提供这些代码行，并提供一个搜索栏，在搜索栏中输入一些特殊字符然后按回车键。 searchcode可以帮助您从公开可用的10个以上代码源中，以243种编程语言编写的真实示例中查找函数、库和api。您可以通过输入特殊字符执行搜索，例如： i++; system.linq;…

工具

尖括号EACCES：CentOS/RHEL 7上的权限被拒绝 – 已修复

By姚伟斌 December 2, 2023August 31, 2023

在安装Nodejs包Browsertime时，解决了EACCES权限被拒绝的错误。

工具

数据标注：机器学习的秘密武器[+ 4个工具]

By姚伟斌 November 8, 2023September 13, 2023

数据标注对于训练机器学习模型非常重要，这些模型用于根据数据中的模式和趋势做出决策。让我们看看数据标注是什么以及执行它的各种工具。什么是数据标注？数据标注是将描述性标签或标注分配给数据以帮助识别和分类它的过程。它涉及各种类型的数据，例如文本、图像、视频、音频和其他形式的非结构化数据。然后使用这些标记的数据来训练算法，以识别模式并进行预测。标注的准确性和质量对于算法的性能影响很大。可以通过人工手动或借助自动化工具来进行标注。数据标注的主要目的是将非结构化数据转化为易于机器理解和分析的结构化格式。数据标注的一个很好的例子可以在图像识别的背景下进行。假设您想要训练一个能够识别图像中的猫和狗的机器学习模型。为了实现这一目标，首先需要将一组图像标记为“猫”或“狗”，以便模型可以从这些已标记的示例中学习。将这些标签分配给图像的过程称为数据标注。注释员会查看每个图像并手动为其分配适当的标签，从而创建一个带有标签的数据集，可用于训练机器学习模型。它是如何工作的？执行数据标注涉及多个步骤，包括：数据收集数据标注过程的第一步是收集需要标注的数据。这可以包括各种数据类型，如图像、文本、音频或视频。标注指南一旦收集到数据，就会创建标注指南，指定将分配给数据的标签或标记。这些指南有助于确保标记的数据与当前的机器学习活动相关，并保持标记的一致性。标注数据的实际标注是由经过培训的注释员或标注者完成的，他们接受了将标注指南应用于数据的训练。可以通过人工手动或使用预定义的规则和算法通过自动化过程来进行标注。…