本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为您的 Amazon EMR 集群选择硬件
<a name="welcome"></a>

*Amazon Web Samatar 的 Sayde Aguilar 和 Amazon Web Services 的迭戈·瓦伦西亚 ()AWS*

*2023 年 8 月*（[文档历史记录](doc-history.md)）

Amazon EMR 是一款用于大数据处理的工具。它使用开源软件，特别是 Apache Spark 和 Apache Hudi 等 Apache 工具。此外，它还为配置和使用低成本 pay-as-you-go模型提供了多种选项。

本指南介绍了如何基于这种弹性设计您的 Amazon EMR 集群，并提供了选择硬件时应遵循的最佳实践。

## 概览
<a name="overview"></a>

亚马逊 EMR 是使用 Apache Hadoop 构建的 MapReduce，Apache Hadoop 是一个用于处理大量数据的框架。Hadoop 使用并行逻辑同时 MapReduce 处理分布式集群中的数据，这意味着每个进程都有自己的处理器。亚马逊 EMR 使用在亚马逊弹性计算云 (亚马逊) 上构造的 Hadoop 虚拟服务器集群。 EC2这意味着所有的并行进程都是在运行在 Amazon Web Services (AWS) 上的独立计算机上进行的。

Hadoop 集群是一种特定类型的计算集群，用于使用并行或分布式环境处理大量非结构化数据。Hadoop 集群的一个关键特征是它具有高度的可扩展性，并且可以配置为加速数据处理。可扩展性是通过添加或移除节点来增加或减少吞吐量来实现的。在 Hadoop 集群上，每条数据都是在集群节点之间复制的，因此如果节点出现故障，丢失的数据几乎为零。

在 Amazon EMR 上，*弹性*是指动态调整大小的能力。您可以自动扩展集群并根据需要进行任何更改。您不必依赖最初的硬件设计。

本指南介绍了如何基于这种弹性设计您的 Amazon EMR 集群，并提供了选择硬件时应遵循的最佳实践。