工具

机器学习中的混淆矩阵是什么？

By姚伟斌 November 16, 2023September 11, 2023

混淆矩阵是用于评估监督式机器学习算法的分类性能的工具。

什么是混淆矩阵？

我们人类对事物有不同的感知方式 – 甚至是真相和谎言。对我而言，一条看起来像是10厘米长的线可能对你来说看起来像是9厘米长的线。但实际值可能是9、10或其他值。我们猜测的是预测值！

就像我们的大脑应用我们自己的逻辑来预测某些事物一样，机器应用各种算法（称为算法）来预测问题的预测值。同样，这些值可能与实际值相同或不同。

在竞争激烈的世界中，我们想要知道我们的预测是正确还是错误，以了解我们自己的表现。同样地，我们可以通过机器学习算法正确进行的预测次数来确定其性能。

那么，什么是机器学习算法？

机器试图通过应用一定的逻辑或一组称为机器学习算法的指令来解决问题。机器学习算法有三种类型 – 监督、无监督或强化。

最简单的算法类型是监督学习，其中我们已经知道答案，我们通过使用大量数据来训练算法以得出答案，就像一个孩子通过反复观察他们的特征来区分不同年龄组的人一样。

监督式机器学习算法有两种类型 – 分类和回归。

分类算法根据一些标准对数据进行分类或排序。例如，如果你想要你的算法根据顾客对食物的喜好将其分组 – 那些喜欢比萨饼和那些不喜欢比萨饼的顾客，你会使用决策树、随机森林、朴素贝叶斯或支持向量机等分类算法。

这些算法中哪个算法会做得最好？为什么要选择一个算法而不选择另一个算法？

进入混淆矩阵……

混淆矩阵是评估分类算法性能的一种方法。

如何评估？

假设你将不同的算法应用于我们之前提到的二元问题：根据是否喜欢或不喜欢比萨饼将人们进行分类。为了评估最接近正确答案的算法，你将使用一个混淆矩阵。对于二元分类问题（喜欢/不喜欢、真/假、1/0），混淆矩阵给出了四个网格值，分别是：

真正例（TP）
真反例（TN）
假正例（FP）
假反例（FN）

混淆矩阵中的四个网格是什么？

通过混淆矩阵确定的四个值构成了矩阵的网格。

真正例（TP）和真反例（TN）是分类算法正确预测的值，

TP代表喜欢比萨饼的人，模型正确对其进行了分类，
TN代表不喜欢比萨饼的人，模型正确对其进行了分类，

假正例（FP）和假反例（FN）是分类器错误预测的值，

FP代表那些不喜欢披萨（负面），但分类器预测他们喜欢披萨（错误的正面）。FP也被称为一类错误。
FN代表喜欢披萨的人（正面），但分类器预测他们不喜欢（错误的负面）。FN也被称为二类错误。

为了进一步理解这个概念，让我们看一个现实生活中的场景。

假设你有一个由400个人组成的数据集，他们接受了新冠病毒检测。现在，你得到了各种算法确定新冠病毒阳性和阴性人数的结果。

这里是两个混淆矩阵供比较：

通过观察两者，你可能会认为第一个算法更准确。但是，为了得到一个确切的结果，我们需要一些可以衡量准确性、精确度和其他指标的指标，以证明哪个算法更好。

使用混淆矩阵的指标及其意义

帮助我们决定分类器是否做出了正确预测的主要指标有：

#1. 召回率/敏感度

召回率或敏感度或真阳性率（TPR）或检出概率是正确的正面预测（TP）与总正面（即TP和FN）的比值。

R = TP/(TP + FN)

召回率是正确的正面结果与可能产生的正确的正面结果数量之比的度量。召回率值越高，假阴性就越少，这对算法来说是好的。当了解假阴性很重要时使用召回率。例如，如果一个人心脏中有多个堵塞，而模型显示他完全健康，可能会有生命危险。

#2. 精确度

精确度是所有预测为正的正确预测结果占所有预测为正的结果的比例，包括真阳性和假阳性。

Pr = TP/(TP + FP)

精确度在假阳性非常重要而不能被忽视的情况下非常重要。例如，如果一个人没有糖尿病，但是模型显示有糖尿病，并且医生开了某些药物。这可能导致严重的副作用。

#3. 特异度

特异度或真阴性率（TNR）是在所有可能为阴性的结果中找到的正确阴性结果。

S = TN/(TN + FP)

它是分类器正确识别负值的度量。

#4. 准确度

准确度是正确预测数量与总预测数量的比例。因此，如果你从一个样本中正确找到了20个阳性和10个阴性的值，你的模型准确度将为30/50。

Accuracy A = (TP + TN)/(TP + TN + FP + FN)

#5. 流行度

流行度是所有结果中获得的阳性结果数量的度量。

P = (TP + FN)/(TP + TN + FP + FN)

#6. F值

有时候，仅使用精确度和召回率这两个指标来比较两个分类器（模型）是困难的，因为它们只是四个格子组合的算术平均值。在这种情况下，我们可以使用F值或F1值，它是调和平均数，因为它对于极高值变化不大，更准确。较高的F值（最大为1）表示一个更好的模型。

F Score = 2*Precision*Recall/ (Recall + Precision)

当需要同时处理假阳性和假阴性时，F1分数是一个很好的指标。例如，那些不是COVID阳性的人（但算法显示为阳性）不需要不必要地隔离。同样，那些是COVID阳性的人（但算法说他们不是）需要隔离。

#7. ROC曲线

准确率和精确度等参数是对于数据平衡的很好的指标。对于不平衡的数据集，高准确率不一定意味着分类器效率高。例如，一个班级中有100个学生，其中90个知道西班牙语。现在，即使你的算法说所有100个学生都知道西班牙语，它的准确率也将是90％，这可能会给出错误的模型图像。对于不平衡数据集，ROC等指标更具有效性。

ROC（接收者操作特征）曲线在不同的分类阈值下可视化显示二元分类模型的性能。它是以不同阈值值计算的TPR（真阳性率）与FPR（假阳性率）的绘图，FPR计算为（1-特异性）。图中最接近45度（左上方）的值是最准确的阈值值。如果阈值太高，我们将不会有很多假阳性，但会得到更多的假阴性，反之亦然。

通常，当绘制各种模型的ROC曲线时，面积最大的曲线被认为是更好的模型。

让我们计算分类器I和分类器II的混淆矩阵的所有指标值：

我们可以看到分类器II的精确度更高，而分类器I的准确率稍高。根据手头的问题，决策者可以选择分类器I或分类器II。

N x N混淆矩阵

到目前为止，我们已经看到了二元分类器的混淆矩阵。如果除了是/否或喜欢/不喜欢之外，还有更多的类别怎么办？例如，如果您的算法要对红色、绿色和蓝色图像进行排序。这种类型的分类被称为多类分类。输出变量的数量决定了矩阵的大小。因此，在这种情况下，混淆矩阵将是3×3。

总结

混淆矩阵是一个很好的评估系统，因为它提供了关于分类算法性能的详细信息。它适用于二元和多类分类器，其中有超过2个参数需要考虑。混淆矩阵易于可视化，我们可以使用混淆矩阵生成F分数，精确度，ROC和准确度等所有其他性能指标。

您还可以查看如何选择ML algorithms for regression problems。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

通过VidIQ，您的YouTube视频将获得更多的观看次数和收益。

By姚伟斌 November 24, 2023August 30, 2023

视频是人们消费的头号多媒体内容，YouTube是视频的首选目的地。通过、和HTML标签，更容易传达你的思想。

工具

2025年最佳的比特币/加密货币个人退休账户（IRA）平台

By姚伟斌 December 4, 2023September 11, 2023

加密货币IRA平台是人们规划退休的最新趋势。继续阅读以了解风险、收益以及一些顶级加密货币/比特币IRA。退休需要规划。个人退休账户（IRA）是这个谜题中的热门部分。但与其他地方一样，crypto引起了人们的兴趣，其价值在多年来飙升（或仅因一条推文而跌至谷底）。我们在Geekflare上不是金融顾问。本文侧重于帮助您找到最佳的加密货币IRA，但不代表对任何此类做法的认可。然而，对加密货币的整体看法仍然是积极的，推动人们转向加密货币IRA。但首先，了解以下内容很重要…… 什么是加密货币IRA？加密货币IRA是一个可以通过位于美国的交易所购买和出售加密货币的自我直接个人退休账户（SDIRA）。 SDIRA遵循任何传统IRA的相同协议和税收约束。然而， IRS将加密货币视为财产，就像股票和债券一样。但这些方案是否能够获得预期的指数增益或遭受看不见的损失，这就轮到任何人去猜测了。加密货币IRA的优势和劣势加密货币IRA的主要好处是能够为退休投资加密货币，这在普通IRA中是不可能的。此外，这有助于投资组合的多样化。除了价格的波动性，加密货币的有限使用可能是一个重大缺点。无论价格如何飙升（和下跌），加密货币在日常生活中的接受度仍然微乎其微。此外，交易费用可能会对整个投资产生影响。此外，加密货币IRA尚未成为主流，进一步形成垄断。尽管如此，人们对加密货币IRA感兴趣，这也是您首次来到这里的原因。…

工具

项目路线图：指南和免费模板【2023】

By姚伟斌 December 12, 2023September 13, 2023

项目经理的简单任务是以100%的成功率领导项目和团队到最后。他们需要通过将所有相关人员置于循环中并将项目目标作为故事来履行这一责任。这就是项目路线图模板的用途！项目路线图以易于理解的形式向利益相关者提供项目的鸟瞰图，帮助项目经理传达项目的里程碑、组件、预算和最终目标，使所有利益相关者在项目上都没有任何疑虑。这只是一个简化技术材料的故事，其中包含真实生活的例子。在演示结束时，利益相关者、经理或执行团队成员之间应该有一个明确的期望设定。作为项目经理，你有很多事情需要担心，项目路线图不应该是其中之一。这就是为什么各种资深的项目管理机构和专业人士都依赖于现成的项目路线图模板。继续阅读，了解关于项目路线图的深入讨论以及你可以使用的一些专业模板。项目管理中的路线图是什么？项目路线图是任何项目的易于理解、高层次和细粒度概述。它是一个非机密和对公众友好的资源，项目经理可以与公众或专业团体共享，快速解释以下内容：项目目标的简要概述。关键项目可交付成果。项目任务的依赖关系。重要的项目里程碑。项目风险。在项目开始之前和期间使用它来传达项目的故事。它们使你能够共享高层次的计划，设定适当的期望，并强调即将进行的项目工作的重要组成部分。创建项目路线图的重要性项目路线图是表达项目目标或目标的一种简单方法。有时，可以调整这些报告以解释项目状态和进度速度。以下是任何项目拥有项目路线图的重要性： #1….

工具

Flutter vs. React Native: 2025年哪个框架表现更好？

By姚伟斌 November 26, 2023September 13, 2023

你是Android还是iOS用户？你的笔记本电脑使用的是Windows、macOS还是基于Linux的操作系统？你可能想要吸引每一个潜在客户，但现代市场上有不同操作系统的设备。拥有一个可以用来开发跨平台应用的平台可以节省大量的开发时间和资源。 Flutter和React Native是跨平台开发市场上最知名的两个名字。然而，如果面对这两个选择，你可能不知道该选择哪一个。为什么要使用跨平台解决方案而不是本地解决方案？节省时间构建一个功能完整的应用可能是耗时的。如果你想要为iOS和Android用户构建一个应用，你不需要为每个用户创建不同的代码库。节省开发和维护成本为不同的用户创建不同的应用程序可能是昂贵的。这些应用程序的运行成本也很高，取决于用户数量。跨平台开发环境使得可以使用相同的开发人员为不同的应用程序编写代码。唯一的区别发生在发布时。维护也变得更便宜，因为你只需要更新一个代码库，所有平台的变化都会生效。接近本地性能本地应用程序是专为某个操作系统而创建的。本地应用程序以其高性能而闻名。然而，一些跨平台解决方案如React Native和Flutter生成的应用程序的性能接近本地应用程序，以至于普通用户甚至可能注意不到差异。在这篇Flutter对React Native的文章中，我们将探讨它们的特点、差异、相似之处和性能，以帮助你做出明智的决策。…

工具

什么是通话表？[解释和免费模板]

By姚伟斌 November 9, 2023August 31, 2023

呼叫表对于高效的制作至关重要。敬请关注了解其内容以及在哪里获取一些免费模板。

工具

什么是绿色科技，为什么它对未来如此重要？为HTML标签之一，为另一个HTML标签。

By姚伟斌 November 15, 2023September 12, 2023

利用绿色技术促进您的业务可持续增长，并为自然环境的长期利益做出积极贡献。传统技术，如开采化石燃料、热电力、温室气体冷却、塑料包装、农田农药等，造成了广泛的环境破坏。类似CO2和其他气体的污染物自工业革命以来迅速提高了地球的平均温度。企业和企业家必须采取行动，通过在各自行业采用绿色技术来终止对自然的破坏。什么是绿色技术？绿色技术是指在生产、储存、供应链、消费和处理方面不对环境造成负面影响的技术过程、方法和产品。绿色技术在行业中有许多不同的名称，包括：可持续技术绿色技术环境技术清洁技术气候技术清洁能源技术此外，任何不会对自然产生大量污染和碳排放，并有助于减轻碳排放风险的技术也被认为是绿色技术的一部分。您将看到气候技术主要利用以下过程来减少地球的CO2和热负担：通过树木种植、园艺研究、藻类种植等增加碳的自然储存。…