Amazon EMR（弹性 MapReduce）入门指南

计算机技术在当今达到了顶峰并持续发展。在过去的30年中，机器在处理能力和多任务处理方面取得了巨大的进步和改善。

如果任务在多台机器之间共享并并行执行，性能提升会有多疯狂呢？这就是分布式计算。就像是计算机的团队合作。

然而，您可能会想知道为什么我们要讨论这个分布式计算的事情。因为分布式计算和亚马逊emr（弹性mapreduce）密切相关。也就是说，亚马逊aws的emr使用分布式计算原理在云上处理和分析大量的数据。

通过亚马逊emr，您现在可以使用选择的分布式处理框架在s3实例上分析和处理大数据。

亚马逊emr的工作原理是什么？

来源：aws.amazon.com

首先，将数据输入到任何数据存储中，例如亚马逊s3、dynamodb或其他aws存储平台，因为它们都与emr很好地集成。

现在，您需要一个大数据框架来处理和分析这些数据。有各种不同的大数据框架可供选择，例如apache spark、hadoop、hive和presto，您可以选择适合您需求的框架并将其上传到选择的数据存储中。

创建一个由ec2实例组成的emr集群来并行处理和分析数据。您可以配置节点数量和其他详细信息来创建集群。

您的主存储将数据和框架分发到这些节点上，数据块将被单独处理，并将结果合并。

一旦结果出来，您可以终止集群以释放所有分配的资源。

亚马逊emr的好处

不论是小型企业还是大型企业，始终考虑采用具有成本效益的解决方案。那为什么不选择经济实惠的亚马逊emr呢？当它可以简化在aws上运行各种大数据框架，为您处理和分析数据提供方便的方式，并节省一些费用。

✅弹性性：从“elastic mapreduce”这个术语中，您可以猜到它的性质。这个术语意味着-根据需求，亚马逊emr允许您轻松手动或自动调整集群的大小。例如，您现在可能需要200个实例来处理您的请求，而在一两个小时后，这可能会增加到600个实例。因此，当您只需要适应需求快速变化的可扩展性时，亚马逊emr是最佳选择。

✅数据存储：无论是亚马逊s3、hadoop分布式文件系统、亚马逊dynamodb还是其他aws数据存储，亚马逊emr都可以无缝集成。

✅数据处理工具：亚马逊emr支持各种大数据框架，包括apache spark、hive、hadoop和presto。此外，您还可以在此框架上运行深度学习和机器学习算法和工具。

✅成本效益：与其他商业产品不同，亚马逊emr允许您按小时使用资源进行付费。此外，您可以根据预算选择不同的定价模型。

基本上，aws glue允许您收集和准备数据进行分析，而amazon emr则允许您处理数据。

emr vs. redshift

想象一下，您可以持续浏览数据并轻松查询。您经常使用sql来做这个。同样，redshift提供了优化的在线分析处理服务，可以使用sql轻松查询大量数据。

在存储数据时，您将可以访问高度可扩展，安全和可用的amazon emr使用s3和dynamodb等第三方存储提供商。相比之下，redshift拥有自己的数据层，允许您以列格式存储数据。

amazon emr成本优化方法

#1. 使用格式化的数据

数据越大，处理所需时间越长。此外，直接将原始数据提供给集群会使其更加复杂，需要更长的时间来找到您打算处理的部分。

因此，格式化的数据带有有关列，数据类型，大小等的元数据，使用这些元数据可以节省搜索和聚合的时间。

此外，通过利用数据压缩技术来减小数据大小，因为处理较小的数据集相对容易。

#2. 使用经济实惠的存储服务

利用经济实惠的主要存储服务可以削减emr的主要开支。amazon s3是一个简单且经济实惠的存储服务，用于保存输入和输出数据。它的按需付费模式仅收取实际使用的存储费用。

#3. 选择合适的实例大小

使用合适大小的实例可以显著降低在emr上的预算支出。ec2实例通常按秒计费，其价格随其大小而变化，但无论您使用.7x大型集群还是.36x大型集群，管理它们的成本是相同的。因此，有效地利用较大的机器比使用多个小机器更具成本效益。

#4. spot实例

spot实例是购买未使用的ec2资源的绝佳选择。与按需实例相比，这些实例更便宜，但不是永久性的，因为在需求上升时可以回收。因此，它们对于容错是灵活的，但不适合长时间运行的任务。

#5. 自动扩缩容

其自动扩缩容功能是您避免过大或过小集群的理想选择。这使您可以根据工作负载选择集群中正确数量和类型的实例，从而优化成本。

最后的话

云和大数据技术没有止境，为您留下了无尽的工具和框架可供学习和实施。其中一个同时利用大数据和云的单一平台是amazon emr，因为它简化了运行大数据框架以处理和分析大数据的过程。

为了帮助您开始使用emr，本文向您展示了它是什么，它的益处，它的工作原理，它的使用场景以及经济高效的方法。

接下来，请查看关于aws athena的所有必要信息。

Amazon EMR（弹性 MapReduce）入门指南

亚马逊emr的工作原理是什么？