Amazon EMR(弹性 MapReduce)入门指南

计算机技术在当今达到了顶峰并持续发展。在过去的30年中,机器在处理能力和多任务处理方面取得了巨大的进步和改善。

如果任务在多台机器之间共享并并行执行,性能提升会有多疯狂呢?这就是分布式计算。就像是计算机的团队合作。

然而,您可能会想知道为什么我们要讨论这个分布式计算的事情。因为分布式计算和亚马逊emr(弹性mapreduce)密切相关。也就是说,亚马逊aws的emr使用分布式计算原理在云上处理和分析大量的数据。

通过亚马逊emr,您现在可以使用选择的分布式处理框架在s3实例上分析和处理大数据。

亚马逊emr的工作原理是什么?

来源:aws.amazon.com

首先,将数据输入到任何数据存储中,例如亚马逊s3、dynamodb或其他aws存储平台,因为它们都与emr很好地集成。

现在,您需要一个大数据框架来处理和分析这些数据。有各种不同的大数据框架可供选择,例如apache spark、hadoop、hive和presto,您可以选择适合您需求的框架并将其上传到选择的数据存储中。

创建一个由ec2实例组成的emr集群来并行处理和分析数据。您可以配置节点数量和其他详细信息来创建集群。

您的主存储将数据和框架分发到这些节点上,数据块将被单独处理,并将结果合并。

一旦结果出来,您可以终止集群以释放所有分配的资源。

亚马逊emr的好处

不论是小型企业还是大型企业,始终考虑采用具有成本效益的解决方案。那为什么不选择经济实惠的亚马逊emr呢?当它可以简化在aws上运行各种大数据框架,为您处理和分析数据提供方便的方式,并节省一些费用。

弹性性:从“elastic mapreduce”这个术语中,您可以猜到它的性质。这个术语意味着-根据需求,亚马逊emr允许您轻松手动或自动调整集群的大小。例如,您现在可能需要200个实例来处理您的请求,而在一两个小时后,这可能会增加到600个实例。因此,当您只需要适应需求快速变化的可扩展性时,亚马逊emr是最佳选择。

数据存储:无论是亚马逊s3、hadoop分布式文件系统、亚马逊dynamodb还是其他aws数据存储,亚马逊emr都可以无缝集成。

数据处理工具:亚马逊emr支持各种大数据框架,包括apache spark、hive、hadoop和presto。此外,您还可以在此框架上运行深度学习和机器学习算法和工具。

成本效益:与其他商业产品不同,亚马逊emr允许您按小时使用资源进行付费。此外,您可以根据预算选择不同的定价模型。

基本上,aws glue允许您收集和准备数据进行分析,而amazon emr则允许您处理数据。

emr vs. redshift

想象一下,您可以持续浏览数据并轻松查询。您经常使用sql来做这个。同样,redshift提供了优化的在线分析处理服务,可以使用sql轻松查询大量数据。

在存储数据时,您将可以访问高度可扩展,安全和可用的amazon emr使用s3和dynamodb等第三方存储提供商。相比之下,redshift拥有自己的数据层,允许您以列格式存储数据。

amazon emr成本优化方法

#1. 使用格式化的数据

数据越大,处理所需时间越长。此外,直接将原始数据提供给集群会使其更加复杂,需要更长的时间来找到您打算处理的部分。

因此,格式化的数据带有有关列,数据类型,大小等的元数据,使用这些元数据可以节省搜索和聚合的时间。

此外,通过利用数据压缩技术来减小数据大小,因为处理较小的数据集相对容易。

#2. 使用经济实惠的存储服务

利用经济实惠的主要存储服务可以削减emr的主要开支。amazon s3是一个简单且经济实惠的存储服务,用于保存输入和输出数据。它的按需付费模式仅收取实际使用的存储费用。

#3. 选择合适的实例大小

使用合适大小的实例可以显著降低在emr上的预算支出。ec2实例通常按秒计费,其价格随其大小而变化,但无论您使用.7x大型集群还是.36x大型集群,管理它们的成本是相同的。因此,有效地利用较大的机器比使用多个小机器更具成本效益。

#4. spot实例

spot实例是购买未使用的ec2资源的绝佳选择。与按需实例相比,这些实例更便宜,但不是永久性的,因为在需求上升时可以回收。因此,它们对于容错是灵活的,但不适合长时间运行的任务。

#5. 自动扩缩容

其自动扩缩容功能是您避免过大或过小集群的理想选择。这使您可以根据工作负载选择集群中正确数量和类型的实例,从而优化成本。

最后的话

云和大数据技术没有止境,为您留下了无尽的工具和框架可供学习和实施。其中一个同时利用大数据和云的单一平台是amazon emr,因为它简化了运行大数据框架以处理和分析大数据的过程。

为了帮助您开始使用emr,本文向您展示了它是什么,它的益处,它的工作原理,它的使用场景以及经济高效的方法。

接下来,请查看关于aws athena的所有必要信息。

类似文章