

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# HDFS 組態
<a name="emr-hdfs-config"></a>

下表說明預設的 Hadoop 分散式檔案系統 (HDFS) 參數和他們的設定。您可以使用 `hdfs-site` 組態分類變更這些值。如需詳細資訊，請參閱[設定應用程式](emr-configure-apps.md)。

**警告**  
如果單一節點發生故障，在少於四個節點的叢集上將 `dfs.replication` 設定為 1 可能會導致 HDFS 資料遺失。如果您的叢集具有 HDFS 儲存，建議您為生產工作負載設定至少具有四個核心節點的叢集，以避免資料遺失。
Amazon EMR 不允許叢集將核心節點擴展至低於 `dfs.replication`。例如，如果 `dfs.replication = 2`，核心節點的最小數量為 2。
當您使用受管擴展即自動擴展，或選擇手動調整叢集大小時，建議您將 `dfs.replication` 設定為 `2` 或更高。


| 參數 | 定義 | 預設值 | 
| --- | --- | --- | 
| dfs.block.size | HDFS 區塊大小。當對資料的操作存放在 HDFS 中時，分割大小通常會是 HDFS 區塊的大小。數字越大，精細度越少，但對叢集 NameNode 的壓力也越少。 | 134217728 (128 MB) | 
| dfs.replication | 每個區塊供長期存放的複本數。Amazon EMR 根據叢集佈建的核心節點數量設定此值。調整此值以符合您的需求。若要覆寫預設值，請使用 hdfs-site 分類。 |  `1` 適用於佈建少於四個核心節點的叢集 `2` 適用於佈建少於十個核心節點的叢集 `3` 適用於所有其他叢集  | 