

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# FSx 对亚马逊版 NetApp ONTAP 进行故障排除
<a name="troubleshooting"></a>

使用以下部分来帮助对 ONTAP 文件系统 FSx 进行故障排除。

**Topics**
+ [您的文件系统处于 `MISCONFIGURED` 状态](file-system-in-misconfigured-state.md)
+ [您无法访问您的文件系统](unable-to-access.md)
+ [您的存储虚拟机（SVM）处于 `MISCONFIGURED` 状态](misconfigured-svm.md)
+ [排查 SSD 缩减操作问题](ssd-decrease-troubleshooting.md)
+ [您无法将存储虚拟机（SVM）加入 Active Directory](cannot-join-svm-to-ad.md)
+ [您无法删除存储虚拟机或卷](cannot-delete-svm.md)
+ [您的卷处于 `MISCONFIGURED` 状态](misconfigured-volume.md)
+ [卷的存储容量不足](low-volume-capacity.md)
+ [卷容量不足导致备份失败](backups-failing.md)
+ [FSx 为 ONTAP 卷恢复已删除的内容](recovering-deleted-volumes.md)
+ [排除网络问题](network-issues.md)
+ [对 I/O 错误和 NFS 锁回收失败进行故障排除](nfs-failover-issues.md)

# 您的文件系统处于 `MISCONFIGURED` 状态
<a name="file-system-in-misconfigured-state"></a>

导致文件系统处于 `MISCONFIGURED` 状态的潜在原因有很多，每种原因都有自己的解决方案，如下所示。

**Topics**
+ [VPC 所有者账户已禁用多可用区的 VPC 共享](#maz-file-system)
+ [您无法在多可用区文件系统上创建新的 SVM](#unable-to-create-svm-on-maz)
+ [文件系统的 SSD 存储层已达 90% 以上](#ssd-tier-gt-90-percent)

## VPC 所有者账户已禁用多可用区的 VPC 共享
<a name="maz-file-system"></a>

由于以下原因之一，由共享 VPC 子网 AWS 账户 中的参与者创建的多可用区文件系统将进入`MISCONFIGURED`状态：
+ 共享 VPC 子网的所有者账户已禁用对 ONTAP 文件系统的多可用区 VPC 共享支持。 FSx 
+ 所有者账户已停止共享 VPC 子网。

如果所有者账户已停止共享 VPC 子网，您将在控制台中看到该文件系统的以下消息：

```
The vpc ID vpc-012345abcde does not exist
```

为解决问题，您必须联系与您共享 VPC 子网的所有者账户。有关更多信息，请参阅 [FSx 为共享子网中的 ONTAP 文件系统创建](creating-file-systems.md#fsxn-vpc-shared-subnets) 了解更多信息。

## 您无法在多可用区文件系统上创建新的 SVM
<a name="unable-to-create-svm-on-maz"></a>

对于共享 VPC AWS 账户 中的参与者创建的多可用区文件系统，由于以下原因之一，您将无法创建新的 SVM：
+ 共享 VPC 子网的所有者账户已禁用对 ONTAP 文件系统的多可用区 VPC 共享支持。 FSx 
+ 所有者账户已停止共享 VPC 子网。

为解决问题，您必须联系与您共享 VPC 子网的所有者账户。有关更多信息，请参阅 [FSx 为共享子网中的 ONTAP 文件系统创建](creating-file-systems.md#fsxn-vpc-shared-subnets) 了解更多信息。

## 文件系统的 SSD 存储层已达 90% 以上
<a name="ssd-tier-gt-90-percent"></a>

单可用区或多可用区文件系统的 SSD 存储层当前已达 90% 以上。我们建议 SSD 存储层的利用率不要一直超过 80%。如果您没有在文件系统的下一个维护时段之前释放 SSD 存储层中的空间， FSx 则 for ONTAP 将在修补操作期间暂时降低文件系统的吞吐量。此举旨在确保后台维护进程能在合理的时间范围内完成。为避免此情况，请将 SSD 存储层的利用率降至 90% 以下。您可以通过多种方式降低 SSD 利用率，包括：
+ 增加文件系统的 SSD 存储容量。
+ 删除不需要的数据。
+ 删除不需要的卷快照。

有关更多信息，请参阅 [管理存储容量](managing-storage-capacity.md)。

# 您无法访问您的文件系统
<a name="unable-to-access"></a>

本节介绍与无法访问文件系统相关的问题和解决方案。

**Topics**
+ [多可用区文件系统缺少路由表标签](#no-route-table-tags)
+ [文件系统有超过 50 条路由](#more-than-50-routes)
+ [文件系统缺少通往一个或多个文件服务器的路由](#missing-routes-to-servers)
+ [文件系统的弹性网络接口已修改或删除](#eni-deleted)
+ [文件系统弹性网络接口附加的弹性 IP 地址已删除](#eni-epi-removed)
+ [文件系统的 VPC 安全组缺少所需的入站规则](#sg-lacks-inbound-rules)
+ [计算实例的 VPC 安全组缺少所需的出站规则](#compute-instance-lacks-inbound-rules)
+ [计算实例的子网不使用任何与文件系统关联的路由表](#subnet-route-tables)
+ [Amazon FSx 无法更新使用创建的多可用区文件系统的路由表 CloudFormation](#vpc-route-tables-not-tagged)
+ [无法通过 iSCSI 从其他 VPC 中的客户端访问文件系统](#file-system-iscsi)
+ [所有者账户已停止共享 VPC 子网](#unshared-vpc-subnet)
+ [无法通过 NFS、SMB、ONTAP CLI 或 ONTAP REST API 从其他 VPC 或本地的客户端访问文件系统](#unable-to-access-over-network)

## 多可用区文件系统缺少路由表标签
<a name="no-route-table-tags"></a>

Amazon 使用基于标签的身份验证 FSx 管理多可用区文件系统的 VPC 路由表。目前，与文件系统关联的一个或多个路由表缺少这些路由表标签。这些路由表标有 `Key: AmazonFSx; Value: ManagedByAmazonFSx`。如果您未能在下一维护时段前手动添加这些标签，则在修补操作期间，子网中与路由表关联的任何客户端都将暂时失去对文件系统的访问权限。为避免此情况，请手动添加缺少的路由表标签。

有关更多信息，请参阅 [更新文件系统](updating-file-system.md)。

## 文件系统有超过 50 条路由
<a name="more-than-50-routes"></a>

您的文件系统当前有超过 50 条与之关联的路由。如果未能在文件系统的下一计划维护时段前删除其中一些路由，则失效转移过程可能需要比平时更长的时间。为避免此情况，请将路由数量减少到 50 以下。以下是您可以采取的步骤，以减少与文件系统关联的路由数量：
+ 删除多余路由
+ 减少与文件系统 SVMs 关联的数量
+ 减少与文件系统关联的路由表数量

有关更多信息，请参阅[更新文件系统](updating-file-system.md)和[删除存储虚拟机（SVM）](deleting-svms.md)。

## 文件系统缺少通往一个或多个文件服务器的路由
<a name="missing-routes-to-servers"></a>

您的文件系统当前缺少通往一个或多个文件服务器的路由，且现有路由表没有足够空间可添加新的路由表条目。如果未能在文件系统的下一计划维护时段之前添加缺少的路由，则在修补操作期间，所有连接的客户端都将断开连接。为避免此情况，请添加缺少的路由。

有关更多信息，请参阅[更新文件系统](updating-file-system.md)和[配额](limits.md)。

## 文件系统的弹性网络接口已修改或删除
<a name="eni-deleted"></a>

您不得修改或删除文件系统的弹性网络接口。修改或删除该网络接口可能会导致您永久丢失虚拟私有云（VPC）和文件系统之间的连接。创建新的文件系统，不要修改或删除 Amazon FSx 网络接口。有关更多信息，请参阅 [使用 Amazon VPC 进行文件系统访问控制](limit-access-security-groups.md)。

## 文件系统弹性网络接口附加的弹性 IP 地址已删除
<a name="eni-epi-removed"></a>

Amazon FSx 不支持从公共互联网访问文件系统。Amazon FSx 会自动分离任何弹性 IP 地址，该地址是可从互联网访问并连接到文件系统的弹性网络接口的公有 IP 地址。有关更多信息，请参阅 [支持的客户端](supported-fsx-clients.md#supported-clients-fsx)。

## 文件系统的 VPC 安全组缺少所需的入站规则
<a name="sg-lacks-inbound-rules"></a>

查看 [Amazon VPC 安全组](limit-access-security-groups.md#fsx-vpc-security-groups) 中指定的入站规则，并确保文件系统的关联安全组具有相应的入站规则。

## 计算实例的 VPC 安全组缺少所需的出站规则
<a name="compute-instance-lacks-inbound-rules"></a>

查看 [Amazon VPC 安全组](limit-access-security-groups.md#fsx-vpc-security-groups) 中指定的出站规则，并确保计算实例的关联安全组具有相应的出站规则。

## 计算实例的子网不使用任何与文件系统关联的路由表
<a name="subnet-route-tables"></a>

FSx for ONTAP 会在 VPC 路由表中创建用于访问您的文件系统的终端节点。我们建议您将文件系统配置为使用与客户端所在子网关联的所有 VPC 路由表。默认情况下，Amazon FSx 使用您的 VPC 的主路由表。您可以选择指定一个或多个路由表，让 Amazon FSx 在创建文件系统时使用。

如果您可以 Ping 文件系统的集群间端点，但无法 Ping 文件系统的管理端点（有关更多信息，请参阅 [文件系统资源](managing-file-systems.md#fsx-ontap-fs-resources)），则您的客户端可能不位于与文件系统的路由表关联的子网。要访问文件系统，请将文件系统的一个路由表与客户端的子网关联。有关如何更新文件系统的 Amazon VPC 路由表的信息，请参阅[更新文件系统](updating-file-system.md)。

## Amazon FSx 无法更新使用创建的多可用区文件系统的路由表 CloudFormation
<a name="vpc-route-tables-not-tagged"></a>

Amazon 使用基于标签的身份验证 FSx 管理多可用区文件系统的 VPC 路由表。这些路由表标有 `Key: AmazonFSx; Value: ManagedByAmazonFSx`。使用 FSx 为 ONTAP 多可用区文件系统创建或更新时， CloudFormation 我们建议您手动添加`Key: AmazonFSx; Value: ManagedByAmazonFSx`标签。

如果无法访问多可用区文件系统，请查看文件系统关联的 VPC 路由表是否标有 `Key: AmazonFSx; Value: ManagedByAmazonFSx`。如果不是，则当故障转移事件发生时，Amazon FSx 无法更新这些路由表，将管理端口和数据端口的浮动 IP 地址路由到活动文件服务器。有关如何更新文件系统的 Amazon VPC 路由表的信息，请参阅[更新文件系统](updating-file-system.md)。

## 无法通过 iSCSI 从其他 VPC 中的客户端访问文件系统
<a name="file-system-iscsi"></a>

要通过互联网小型计算机系统接口（iSCSI）协议从其他 VPC 中的客户端访问文件系统，您可以在文件系统的关联 VPC 与客户端所在的 VPC 之间配置 Amazon VPC 对等连接或 AWS Transit Gateway 。有关更多信息，请参阅《Amazon Virtual Private Cloud》指南**中的[创建和接受 VPC 对等连接](https://docs.aws.amazon.com/vpc/latest/peering/create-vpc-peering-connection.html)。

## 所有者账户已停止共享 VPC 子网
<a name="unshared-vpc-subnet"></a>

如果您在已与您共享的 VPC 子网中创建了文件系统，则拥有者账户可能已停止共享 VPC 子网。

如果所有者账户已停止共享 VPC 子网，您将在控制台中看到该文件系统的以下消息：

```
The vpc ID vpc-012345abcde does not exist
```

您需要联系拥有者账户与您重新共享子网。

## 无法通过 NFS、SMB、ONTAP CLI 或 ONTAP REST API 从其他 VPC 或本地的客户端访问文件系统
<a name="unable-to-access-over-network"></a>

要从其他 VPC 中的客户端或本地通过网络文件系统 (NFS)、服务器消息块 (SMB) 或 NetApp ONTAP CLI 和 REST API 访问文件系统，您必须在与您的文件系统关联的 VPC 和您的客户端所在的网络之间配置路由 AWS Transit Gateway 。有关更多信息，请参阅 [访问您的 fo FSx r ONTAP 数据](supported-fsx-clients.md)。

# 您的存储虚拟机（SVM）处于 `MISCONFIGURED` 状态
<a name="misconfigured-svm"></a>

导致存储虚拟机处于 `MISCONFIGURED` 状态的潜在原因有很多，每种原因都有自己的解决方案，如下所示。

## SVM 具有离线卷
<a name="svm-offline-volume"></a>

文件系统包含处于离线状态的卷。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

## 您的 SVM 有一个带有 iSCSI LUN 或命名空间的 NVMe/TCP 离线卷
<a name="svm-offline-volume-iscsi-nvme"></a>

文件系统包含处于受限制状态的卷。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

## AWS Secrets Manager 密钥或 KMS 密钥配置不正确
<a name="svm-offline-secret-key-misconfigured"></a>

亚马逊 FSx 无法与你的 Microsoft Active Directory 域控制器或控制器建立连接。这是因为您的 AWS Secrets Manager 密钥或配置不 AWS KMS key 正确。有关更多信息，请参阅 [使用存储活动目录凭证 AWS Secrets Manager](self-managed-AD-best-practices.md#bp-store-ad-creds-using-secret-manager)。

要解决配置错误问题，请执行以下操作：
+ 验证密钥 ARN 是否正确且是否遵循正确的格式：`arn:aws:secretsmanager:region:account-id:secret:secret-name-6chars`。
+ 验证密钥是否包含两个非空值的必填字段：
  + `CUSTOMER_MANAGED_ACTIVE_DIRECTORY_USERNAME`：AD 服务账号用户名。
  + `CUSTOMER_MANAGED_ACTIVE_DIRECTORY_PASSWORD`：AD 服务账户密码。
+ 验证密钥和密钥是否具有基于资源的策略，该策略授予 Amazon FSx 服务主体检索机密值的`fsx.amazonaws.com`权限。

# 排查 SSD 缩减操作问题
<a name="ssd-decrease-troubleshooting"></a>

本节介绍与 SSD 容量缩减操作相关的常见问题和解决方案。

**Topics**
+ [由于 SSD 利用率较高，因此 SSD 缩减操作已暂停](#ssd-decrease-paused-high-utilization)
+ [由于 FlexClone 关系，您的 SSD 缩减操作已暂停](#ssd-decrease-flexclone-relationship)
+ [在 SSD 缩减期间，重定向客户端访问卷失败](#ssd-decrease-redirect-client-access-failed)
+ [SSD 缩减操作的耗时超出预期](#ssd-decrease-operation-duration)

## 由于 SSD 利用率较高，因此 SSD 缩减操作已暂停
<a name="ssd-decrease-paused-high-utilization"></a>

如果您的 SSD 存储层在缩减操作期间使用率超过 80%，Amazon FSx 会自动暂停该操作。您可能会看到类似于以下内容的管理操作消息：

```
Your file system has insufficient free space in aggr_1. Please free up space or increase your file system's storage capacity.
```

利用率低于 80% 后，操作将恢复。要解决此问题，您可以执行以下操作：
+ 从已迁移至新磁盘的卷中删除多余数据。
+ 通过修改卷分层策略，将更多数据分层到容量池中。
+ 通过调用具有新目标值的 [https://docs.aws.amazon.com/cli/latest/reference/fsx/update-file-system.html](https://docs.aws.amazon.com/cli/latest/reference/fsx/update-file-system.html)，提交增加 SSD 容量的请求。

您应更新文件系统的 SSD 存储容量，确保在缩减操作后，文件系统的 SSD 容量利用率不超过 80%。有关更多详细信息，请参阅[更新文件系统 SSD 存储和 IOPS](storage-capacity-and-IOPS.md#increase-primary-storage)。

通过检查 `STORAGE_OPTIMIZATION` 管理操作中的 `Message` 字段，您可以确定哪些卷已移动至新磁盘。

如果聚合为 `aggr1` 或 `aggr1_old`，也可以调用 [https://docs.aws.amazon.com/cli/latest/reference/fsx/describe-volumes.html](https://docs.aws.amazon.com/cli/latest/reference/fsx/describe-volumes.html)。

## 由于 FlexClone 关系，您的 SSD 缩减操作已暂停
<a name="ssd-decrease-flexclone-relationship"></a>

如果在启动 SSD 缩减操作后创建了FlexClone卷，Amazon 会 FSx 暂停该操作，直到克隆被删除。这是因为在移动卷时 ONTAP 会拆分克隆关系，这会导致新磁盘上的存储重复。要解决此问题，您可以识别并删除在缩减操作开始后创建的所有 FlexClone 卷。

删除所有 FlexClone 卷后，缩减操作将自动恢复。

## 在 SSD 缩减期间，重定向客户端访问卷失败
<a name="ssd-decrease-redirect-client-access-failed"></a>

在固态硬盘缩减操作期间，Amazon FSx 需要将客户端访问权限从旧磁盘重定向到每个卷的新磁盘。如果此过程失败，您可能会看到类似于以下内容的管理操作消息：

```
Redirecting client access for volume(s) fsvol-123 has failed due to insufficient SSD IOPS, throughput capacity, or because the volume is full.
```

要解决此问题，您可以执行以下操作：
+ 在 Amazon CloudWatch 中查看文件系统的资源利用率指标，确保您的工作负载消耗的资源不超过以下资源的 50%：
  + `NetworkThroughputUtilization`
  + `FileServerDiskThroughputUtilization`
  + `FileServerDiskIopsUtilization`
  + `CPUUtilization`
  + `DiskIopsUtilization`
+ 如果卷已满，则增加卷的存储容量。
+ 缩减操作期间，减少文件系统上的工作负载。

解决这些问题后，Amazon FSx 将自动重试每小时一次重定向客户端访问权限。

## SSD 缩减操作的耗时超出预期
<a name="ssd-decrease-operation-duration"></a>

完成 SSD 缩减操作所需的时间取决于多个因素，包括文件系统中存储的数据量、当前的工作负载活动以及可用的系统资源。如果操作的耗时超出预期，则可以执行以下操作：
+ 验证文件系统是否有足够的可用资源（CPU、磁盘吞吐量和 SSD IOPS 利用率均低于 50%）。
+ 在操作期间减少写入密集型工作负载，以最大限度地减少资源争用。

通过检查 `STORAGE_OPTIMIZATION` 管理操作中的 `ProgressPercent` 属性，您可以跟踪操作的进度。

# 您无法将存储虚拟机（SVM）加入 Active Directory
<a name="cannot-join-svm-to-ad"></a>

如果您无法将 SVM 加入 Active Directory（AD），请先查看 [如何加入微软 Ac SVMs tive Directory](self-managed-AD-join.md)。以下部分列出了会阻碍 SVM 加入 Active Directory 的常见问题，包括针对每种情况生成的错误消息。

**Topics**
+ [SVM NetBIOS 名称与主域的 NetBIOS 名称相同。](#join-svm-ad-fails-netbios-name-home-domain)
+ [SVM 已加入另一个 Active Directory](#join-svm-ad-fails-already-joined)
+ [Amazon FSx 无法连接到你的 Active Directory 域控制器，因为 SVM 的 NetBIOS 名称已在使用中](#join-svm-ad-fails-netbios-name-in-use)
+ [亚马逊 FSx 无法访问您的 Active Directory 服务账户证书 AWS Secrets Manager](#join-svm-ad-service-account-creds-inaccessible)
+ [亚马逊 FSx 无法与您的 Active Directory 域控制器通信](#join-svm-ad-fails-no-port-traffic)
+ [由于未满足的端口要求或服务账户权限，Amazon FSx 无法连接到您的 Active Directory](#join-svm-ad-fails-ports-or-permissions)
+ [由于服务账户凭证无效，亚马逊 FSx 无法连接到您的 Active Directory 域控制器](#join-svm-ad-fails-invalid-service-credentials)
+ [由于服务账户凭证不足，亚马逊 FSx 无法连接到您的 Active Directory 域控制器](#join-svm-ad-fails-insufficient-service-credentials)
+ [亚马逊 FSx 无法与您的 Active Directory DNS 服务器或域控制器通信](#join-svm-ad-fails-dns-servers)
+ [由于活动目录域名无效，亚马逊 FSx 无法与您的活动目录通信。](#join-svm-ad-fails-fqdn)
+ [服务账户无法访问 SVM Active Directory 配置中指定的管理员组](#join-svm-ad-fails-no-admin-group)
+ [Amazon FSx 无法连接到 Active Directory 域控制器，因为指定的组织单位不存在或无法访问](#bad-org-unit-service-credentials)

## SVM NetBIOS 名称与主域的 NetBIOS 名称相同。
<a name="join-svm-ad-fails-netbios-name-home-domain"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

  FSx Amazon 无法与您的活动目录建立连接。This is because the server name you specified is the NetBIOS name of the home domain. To fix this problem, choose a NetBIOS name for your SVM that is different from the NetBIOS name of the home domain. Then reattempt to join your SVM to your Active Directory.

要解决此问题，请按照 [使用 AWS 管理控制台、 AWS CLI 和 API 加入 SVMs 活动目录](join-svm-to-ad.md) 中所述的过程重新尝试将 SVM 加入 Active Directory。确保为 SVM 使用与 Active Directory 主域的 NetBIOS 名称不同的 NetBIOS 名称。

## SVM 已加入另一个 Active Directory
<a name="join-svm-ad-fails-already-joined"></a>

将 SVM 加入 Active Directory 时失败，并显示以下错误消息：

  FSx Amazon 无法与您的活动目录建立连接。This is because the SVM is already joined to a domain. To join this SVM to a different domain, you can use the ONTAP CLI or REST API to unjoin this SVM from Active Directory. Then reattempt to join your SVM to a different Active Directory.

要解决该问题，请执行以下操作：

1. 使用 NetApp ONTAP CLI 将 SVM 从其当前 Active Directory 中取消加入。有关更多信息，请参阅 [使用 ONTAP CLI 从 SVM 取消加入活动目录 NetApp](manage-svm-ad-config-ontap-cli.md#using-ontap-cli-to-unjoin-ad)。

1. 按照 [使用 AWS 管理控制台、 AWS CLI 和 API 加入 SVMs 活动目录](join-svm-to-ad.md) 中所述的过程，重新尝试将 SVM 加入新 Active Directory。

## Amazon FSx 无法连接到你的 Active Directory 域控制器，因为 SVM 的 NetBIOS 名称已在使用中
<a name="join-svm-ad-fails-netbios-name-in-use"></a>

创建加入自行管理的 Active Directory 的 SVM 失败，并显示以下错误消息：

  FSx Amazon 无法与您的活动目录建立连接。This is because the NetBIOS（computer）name you specified is already in-use in your Active Directory. To fix this problem, pick a NetBIOS name for your SVM that is not in use in your Active Directory., specifying a NetBIOS（computer）Then reattempt to join your SVM to your Active Directory.

要解决此问题，请按照 [使用 AWS 管理控制台、 AWS CLI 和 API 加入 SVMs 活动目录](join-svm-to-ad.md) 中所述的过程重新尝试将 SVM 加入 AD。确保为 SVM 使用的 NetBIOS 名称是唯一的，并且尚未在 Active Directory 中使用。

## 亚马逊 FSx 无法访问您的 Active Directory 服务账户证书 AWS Secrets Manager
<a name="join-svm-ad-service-account-creds-inaccessible"></a>

以下各节描述常见问题及其解决方法。

**将 SVM 加入自行管理的 Active Directory 失败，并显示以下错误消息：**

 `You can't provide both username/password and a domain join service account secret to connect to your Active Directory. Provide only one set of credentials.` 

**要解决此问题**

1. 选择是提供存储在 Secrets Manager 密钥中的凭证，还是提供以纯文本形式存储的凭证。

1. 加入 Active Directory 时，仅提供其中一个参数，不能同时提供两个参数。

**将 SVM 加入自行管理的 Active Directory 失败，并显示以下错误消息：**

 `The domain join service account secret ARN format you entered isn't valid. Use the format: arn:partition:secretsmanager:region:account-id:secret:secret-name-6chars` 

**要解决此问题**

1. 审核 [使用存储活动目录凭证 AWS Secrets Manager](self-managed-AD-best-practices.md#bp-store-ad-creds-using-secret-manager)。

1. 验证您输入的 ARN 格式是否正确。正确的格式示例为 `arn:aws:secretsmanager:us-east-1:123456789012:secret:MyDatabaseSecret-Ab3d5f`。

**将 SVM 加入自行管理的 Active Directory 失败，并显示以下错误消息：**

 `Amazon FSx can't access the domain join service account secret [ARN]. Add a resource permission to the secret that grants the FSx service principal (fsx.amazonaws.com) permission to access it.` 

**要解决此问题**

1. 审核 [使用存储活动目录凭证 AWS Secrets Manager](self-managed-AD-best-practices.md#bp-store-ad-creds-using-secret-manager)。

1. 验证您提供的 Secrets Manager 密钥是否具有 FSx 允许亚马逊使用该密钥的正确策略。

**将 SVM 加入自行管理的 Active Directory 失败，并显示以下错误消息：**

 `You don't have permission to access the domain join service account secret [ARN]. A resource permission needs to be added to the secret to grant you access.` 

**要解决此问题**
+ Secrets Manager 密钥所有者或管理员需要向您的账户授予使用该密钥的访问权限。有关更多信息，请参阅[基于身份的策略](https://docs.aws.amazon.com/secretsmanager/latest/userguide/auth-and-access_iam-policies.html)。

**将 SVM 加入自行管理的 Active Directory 失败，并显示以下错误消息：**

 `The domain join service account secret format or content isn't valid. Make sure the secret includes both CUSTOMER_MANAGED_ACTIVE_DIRECTORY_USERNAME and CUSTOMER_MANAGED_ACTIVE_DIRECTORY_PASSWORD fields with non-empty values.`

**要解决此问题**

1. 审核 [使用存储活动目录凭证 AWS Secrets Manager](self-managed-AD-best-practices.md#bp-store-ad-creds-using-secret-manager)。

1. 验证您提供的 Secrets Manager 密钥是否同时包含两个必填字段。

## 亚马逊 FSx 无法与您的 Active Directory 域控制器通信
<a name="join-svm-ad-fails-no-port-traffic"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

  FSx Amazon 无法与您的活动目录通信。要解决此问题，请确保允许在 Amazon FSx 和您的域控制器之间进行网络流量。Then reattempt to join your SVM to your Active Directory.

要解决此问题，请执行以下操作：

1. 请查看中所述的要求[网络配置要求](self-manage-prereqs.md#ontap-ad-network-configs)，并进行必要的更改，以启用 Amazon FSx 与您的 AD 之间的网络通信。

1. Amazon 能够与您 FSx 的 AD 通信后，请按照中所述的步骤进行操作，[使用 AWS 管理控制台、 AWS CLI 和 API 加入 SVMs 活动目录](join-svm-to-ad.md)然后重新尝试将您的 SVM 加入您的广告。

## 由于未满足的端口要求或服务账户权限，Amazon FSx 无法连接到您的 Active Directory
<a name="join-svm-ad-fails-ports-or-permissions"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

  FSx Amazon 无法与您的活动目录建立连接。This is due to either the port requirements for your Active Directory not being met, or the service account provided not having permissions to join the storage virtual machine to the domain with the specified organization unit. 要修复此问题，请按照亚马逊 FSx 用户指南中的建议，在解决端口和服务账户的所有权限问题后，更新存储虚拟机的 Active Directory 配置。

要解决此问题，请执行以下操作：

1. 查看 [网络配置要求](self-manage-prereqs.md#ontap-ad-network-configs) 中描述的要求，进行必要的更改，以满足网络要求并确保在所需端口上启用通信

1. 查看 [Active Directory 服务账户要求](self-manage-prereqs.md#ontap-ad-service-account-prereqs) 中所述的服务账户要求。确保服务账户拥有所需的委托权限，有权将 SVM 加入使用指定组织单元的 Active Directory 域。

1. 更改端口权限或服务账户后，请按照 [使用 AWS 管理控制台、 AWS CLI 和 API 加入 SVMs 活动目录](join-svm-to-ad.md) 中所述的过程进行操作，重新尝试将 SVM 加入 AD。

## 由于服务账户凭证无效，亚马逊 FSx 无法连接到您的 Active Directory 域控制器
<a name="join-svm-ad-fails-invalid-service-credentials"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

 由于提供的服务账户凭证无效，亚马逊 FSx 无法与您的 Active Directory 域控制器建立连接。To fix this problem, update your storage virtual machine's Active Directory configuration with a valid service account.

要解决此问题，请按照 [使用 AWS 管理控制台、 AWS CLI和 API 更新现有 SVM Active Directory 配置](update-svm-ad-config.md) 中所述的过程更新 SVM 的服务账户凭证。在输入服务账户用户名时，请确保仅包含用户名（例如，`ServiceAcct`），不要包含任何域前缀（例如，`corp.com\ServiceAcct`）或域后缀（例如，`ServiceAcct@corp.com`）。在输入服务账户用户名（例如，`CN=ServiceAcct,OU=example,DC=corp,DC=com`）时，请勿使用可分辨名称（DN）。

## 由于服务账户凭证不足，亚马逊 FSx 无法连接到您的 Active Directory 域控制器
<a name="join-svm-ad-fails-insufficient-service-credentials"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

 Amazon 无法与您 FSx 的 Active Directory 域控制器建立连接。This is due to either unmet port requirements for the Active Directory, or the service account provided does not have permission to join the storage virtual machine to the domain with the specified organizational unit.

要解决此问题，请确保您已向提供的服务账户委托所需的权限。服务账户必须能在文件系统加入的域的 OU 中创建和删除计算机对象。服务账户还必须至少有权执行以下操作：
+ 重置密码
+ 限制账户读取和写入数据
+ 验证写入 DNS 主机名的能力
+ 验证写入服务主体名称的能力
+ 能够创建和删除计算机对象
+ 验证读取和写入账户限制的能力

有关如何创建具有正确权限的服务账户的更多信息，请参阅 [Active Directory 服务账户要求](self-manage-prereqs.md#ontap-ad-service-account-prereqs)和[向您的 Amazon FSx 服务账户委派权限](self-managed-AD-best-practices.md#connect_delegate_privileges)。

## 亚马逊 FSx 无法与您的 Active Directory DNS 服务器或域控制器通信
<a name="join-svm-ad-fails-dns-servers"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

  FSx Amazon 无法与您的活动目录通信。这是因为 Amazon FSx 无法访问为您的域名提供的 DNS 服务器或域控制器。To fix this problem, update your storage virtual machine's Active Directory configuration with valid DNS servers and a networking configuration that allows traffic to flow from the storage virtual machine to the domain controller.

要解决此问题，请执行以下过程：

1. 如果 Active Directory 中只有部分域控制器可以访问（例如，由于地理限制或防火墙），您可以添加首选域控制器。使用此选项，Amazon FSx 会尝试联系首选域控制器。使用 [https://docs.netapp.com/us-en/ontap/smb-admin/add-preferred-domain-controllers-task.html](https://docs.netapp.com/us-en/ontap/smb-admin/add-preferred-domain-controllers-task.html) NetApp ONTAP CLI 命令添加首选域控制器，如下所示：

   1. 要访问 ONTAP CLI，请运行以下命令在 Amazon FSx for NetApp ONTAP 文件系统或 SVM 的管理端口上建立 SSH 会话。将 `management_endpoint_ip` 替换为文件系统管理端口的 IP 地址。

      ```
      [~]$ ssh fsxadmin@management_endpoint_ip
      ```

      有关更多信息，请参阅 [使用 ONTAP CLI 管理文件系统](managing-resources-ontap-apps.md#fsxadmin-ontap-cli)。

   1. 输入以下命令，其中：
      + `-vserver vserver_name` 指定存储虚拟机（SVM）的名称。
      + `-domain domain_name` 指定所规定的域控制器所属域的完全限定 Active Directory 名称（FQDN）。
      + `-preferred-dc IP_address,…​` 按优先顺序，以逗号分隔列表的形式指定首选域控制器的一个或多个 IP 地址。

      ```
      FsxId123456789::> vserver cifs domain preferred-dc add -vserver vserver_name -domain domain_name -preferred-dc IP_address, …​+
      ```

      以下命令将域控制器 172.17.102.25 和 172.17.102.24 添加到首选域控制器的列表，借此 SVM vs1 上的 SMB 服务器可以管理 cifs.lab.example.com 域的外部访问。

      ```
      FsxId123456789::> vserver cifs domain preferred-dc add -vserver vs1 -domain cifs.lab.example.com -preferred-dc 172.17.102.25,172.17.102.24
      ```

1. 检查看看域控制器是否可以通过 DNS 解析。使用 [https://docs.netapp.com/us-en/ontap-cli-9121/vserver-services-access-check-dns-forward-lookup.html](https://docs.netapp.com/us-en/ontap-cli-9121/vserver-services-access-check-dns-forward-lookup.html) NetApp ONTAP CLI 命令根据指定的 DNS 服务器上的查找结果或虚拟服务器的 DNS 配置返回主机名的 IP 地址。

   1. 要访问 ONTAP CLI，请运行以下命令在 Amazon FSx for NetApp ONTAP 文件系统或 SVM 的管理端口上建立 SSH 会话。将 `management_endpoint_ip` 替换为文件系统管理端口的 IP 地址。

      ```
      [~]$ ssh fsxadmin@management_endpoint_ip
      ```

      有关更多信息，请参阅 [使用 ONTAP CLI 管理文件系统](managing-resources-ontap-apps.md#fsxadmin-ontap-cli)。

   1. 使用以下命令进入 ONTAP CLI 高级模式。

      ```
      FsxId123456789::> set adv
      ```

   1. 输入以下命令，其中：
      + `-vserver vserver_name` 指定存储虚拟机（SVM）的名称。
      + `-hostname host_name` 指定要在 DNS 服务器上查找的主机名。
      + `-node node_name​` 指定要执行命令的节点的名称。
      + `-lookup-type` 指定要在 DNS 服务器上查找的 IP 地址的类型，默认为 `all`。

      ```
      FsxId123456789::> vserver services access-check dns forward-lookup \
      -vserver vserver_name -node node_name \
      -domains domain_name -name-servers dns_server_ip_address \
      -hostname host_name
      ```

1. 查看将 SVM 加入 AD 时[需要提供的信息](self-managed-AD-join.md#ad-info-for-svm-join)。

1. 查看将 SVM 加入 AD 时的[联网要求](self-manage-prereqs.md#ontap-ad-network-configs)。

1. 按照 [网络配置要求](self-manage-prereqs.md#ontap-ad-network-configs) 中所述的过程，使用 Active Directory DNS 服务器的正确 IP 地址更新 SVM 的 Active Directory 配置。

## 由于活动目录域名无效，亚马逊 FSx 无法与您的活动目录通信。
<a name="join-svm-ad-fails-fqdn"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

 亚马逊 FSx 已检测到所提供的 FQDN 无效。To fix this problem, update your storage virtual machine's Active Directory configuration with an FQDN that adheres to configuration requirements.

要解决此问题，请执行以下过程：

1. 查看 [将 SVM 加入 Active Directory 时所需的信息](self-managed-AD-join.md#ad-info-for-svm-join) 中所述的本地 Active Directory 域名要求，确保您尝试加入的 Active Directory 域名符合该要求。

1. 按照 [使用 AWS 管理控制台、 AWS CLI 和 API 加入 SVMs 活动目录](join-svm-to-ad.md) 中所述的过程，重新尝试将 SVM 加入 Active Directory。请务必为 Active Directory 域的 FQDN 使用正确的格式。

## 服务账户无法访问 SVM Active Directory 配置中指定的管理员组
<a name="join-svm-ad-fails-no-admin-group"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

  FSx Amazon 无法应用您的活动目录配置。This is because the administrators group you provided either doesn't exist or isn't accessible to the service account you provided. To fix this problem, ensure that your networking configuration allows traffic from the SVM to your Active Directory’s domain controller(s) and DNS servers. Then update your SVM’s Active Directory configuration, providing your Active Directory’s DNS servers and, specifying an administrators group in the domain that is accessible to the service account provided.

要解决此问题，请执行以下操作：

1. 查看有关[提供域组](self-managed-AD-join.md#ad-info-for-svm-join)的信息，对 SVM 执行管理操作。确保您使用的是 Active Directory 域管理员组的正确名称。

1. 按照 [使用 AWS 管理控制台、 AWS CLI 和 API 加入 SVMs 活动目录](join-svm-to-ad.md) 中所述的过程，重新尝试将 SVM 加入 AD。

## Amazon FSx 无法连接到 Active Directory 域控制器，因为指定的组织单位不存在或无法访问
<a name="bad-org-unit-service-credentials"></a>

将 SVM 加入自行管理的 Active Directory 时失败，并显示以下错误消息：

  FSx Amazon 无法与您的活动目录建立连接。This is because the organizational unit you specified either doesn't exist or isn't accessible to the service account provided. To fix this problem, update your storage virtual machine's Active Directory configuration, specifying an organizational unit to which the service account has permissions to join.

要解决此问题，请执行以下操作：

1. 查看[将 SVM 加入 AD 的先决条件](self-manage-prereqs.md)。

1. 查看将 SVM 加入 AD 时[需要提供的信息](self-managed-AD-join.md#ad-info-for-svm-join)。

1. 按照[此过程](join-svm-to-ad.md)，使用正确的组织单位重新尝试将 SVM 加入 Active Directory。

# 您无法删除存储虚拟机或卷
<a name="cannot-delete-svm"></a>

每个 FSx ONTAP 文件系统可以包含一个或多个存储虚拟机 (SVMs)，每个 SVM 可以包含一个或多个卷。删除资源时，您必须首先确保其所有子资源均已删除。例如，在删除 SVM 之前，您必须首先删除 SVM 中的所有非根卷。

**重要**  
 您只能使用亚马逊 FSx 控制台、API 和 CLI 删除存储虚拟机。只有在卷启用了亚马逊 FSx 备份的情况下，您才能使用亚马逊 FSx 控制台、API 或 CLI 删除该卷。

为了帮助保护您的数据和配置，Amazon FSx 禁止在某些情况下删除 SVMs 和卷。如果您尝试删除 SVM 或卷，但删除请求未成功，Amazon 会在 AWS 控制台、 AWS Command Line Interface (AWS CLI) 和 API 中 FSx 为您提供有关资源未被删除的原因的信息。解决删除失败的原因后，您可以重试删除请求。

**Topics**
+ [识别失败的删除](#identify-failed-deletions)
+ [删除 SVM：路由表无法访问](#deletion-route-tables)
+ [删除 SVM：对等关系](#deletion-peer-relationship)
+ [SVM 或卷删除： SnapMirror](#deletion-snapmirror)
+ [删除 SVM：启用 Kerberos 的 LIF](#deletion-kerberos-lif)
+ [删除 SVM：其他原因](#deletion-ad-connectivity)
+ [删除卷： FlexCache 关系](#deletion-flexcache)

## 识别失败的删除
<a name="identify-failed-deletions"></a>

当您删除 Amazon FSx SVM 或卷时，通常会在几分钟内看到资源的`Lifecycle`状态转换`DELETING`为，然后资源才会从亚马逊 FSx 控制台、CLI 和 API 中消失。

如果您尝试删除某资源，其 `Lifecycle` 状态从 `DELETING` 变回 `CREATED`，则此行为表示该资源未成功删除。在这种情况下，Amazon FSx 会在控制台中`CREATED`生命周期状态旁边报告一个警报图标。选中该警报图标后会显示删除失败的原因。

以下各节提供了亚马逊 FSx 阻止 SVM 和卷删除的最常见原因，并 step-by-step说明了如何解决这些问题。

## 删除 SVM：路由表无法访问
<a name="deletion-route-tables"></a>

每个 FSx 适用于 ONTAP 文件系统的路由表条目都会创建一个或多个路由表条目，以提供跨可用区域的自动故障转移和故障恢复。默认情况下，这些路由表条目在 VPC 的默认路由表中创建。您可以选择指定一个或多个可在其中创建 ONTAP 接口 FSx 的非默认路由表。Amazon FSx 会为其与文件系统关联的每个路由表`AmazonFSx`添加标签，如果删除此标签，则可能会阻止 Amazon FSx 删除资源。如果出现这种情况，您会看到以下 `LifecycleTransitionReason`：

`Amazon FSx is unable to complete the requested storage virtual machine operation because of an inability to access one or more of the route tables associated with your file system. Please contact 支持.`

您可以在 Amazon FSx 控制台的 “**网络和安全**” 选项卡下导航到文件系统的摘要页面，找到您的文件系统的路由表。

选择路由表链接，转到路由表。接下来，验证与文件系统关联的每个路由表是否都使用以下键值对进行了标记：

```
Key: AmazonFSx
Value: ManagedByAmazonFSx
```

如果此标签不存在，请重新创建，然后再次尝试删除 SVM。

## 删除 SVM：对等关系
<a name="deletion-peer-relationship"></a>

如果您尝试删除属于对等关系的 SVM 或卷，则必须先删除对等关系，然后才能删除 SVM 或卷。此要求可防止对等互连设备 SVMs 变得不健康。如果 SVM 因对等关系而无法删除，您会看到以下 `LifecycleTransitionReason`：

Amazon FSx 无法删除存储虚拟机，因为它是 SVM 对等关系或过渡对等关系的一部分。Please delete the relationship and retry.

您可以通过 ONTAP CLI 删除 SVM 对等关系。要访问 ONTAP CLI，请按照 [使用 ONTAP CLI 管理文件系统](managing-resources-ontap-apps.md#fsxadmin-ontap-cli) 中的步骤操作。使用 ONTAP CLI，执行以下步骤。

1. 使用以下命令检查 SVM 对等关系。将 `svm_name` 替换为 SVM 的名称。

   ```
   FsxId123456789::> vserver peer show -vserver svm_name
   ```

   如果此命令成功，您将看到类似以下内容的输出：

   ```
               Peer        Peer                           Peering        Remote
   Vserver     Vserver     State        Peer Cluster      Applications   Vserver
   ----------- ----------- ------------ ----------------- -------------- ---------
   svm_name    test2       peered       FsxId02d81fef0d84734b6
                                                          snapmirror     fsxDest
   svm_name    test3       peered       FsxId02d81fef0d84734b6
                                                          snapmirror     fsxDest
   2 entries were displayed.
   ```

1. 使用以下命令删除每个 SVM 对等关系。将 `svm_name` 和 `remote_svm_name` 替换为实际值。

   ```
   FsxId123456789abcdef::> vserver peer delete -vserver svm_name -peer-vserver remote_svm_name
   ```

   如果此命令成功，您将看到以下输出：

   ```
   Info: 'vserver peer delete' command is successful.
   ```

## SVM 或卷删除： SnapMirror
<a name="deletion-snapmirror"></a>

正如不先删除对等关系就无法删除具有对等关系的 SVM（请参阅[删除 SVM：对等关系](#deletion-peer-relationship)）一样，如果不先删除关系，就无法删除存在 SnapMirror关系的 SVM。 SnapMirror 要删除 SnapMirror关系，请使用 ONTAP CLI 在作为 SnapMirror 关系目标的文件系统上执行以下步骤。要访问 ONTAP CLI，请按照 [使用 ONTAP CLI 管理文件系统](managing-resources-ontap-apps.md#fsxadmin-ontap-cli) 中的步骤操作。

**注意**  
Amazon FSx 备份 SnapMirror 用于创建 point-in-time文件系统卷的增量备份。您无法在 ONTAP CLI 中删除备份的此 SnapMirror 关系。但是，当您通过 AWS CLI、API 或控制台删除卷时，此关系会自动删除。

1. 使用以下命令列出您在目标文件系统上的 SnapMirror 关系。将 `svm_name` 替换为 SVM 的名称。

   ```
   FsxId123456789abcdef::> snapmirror show -vserver svm_name
   ```

   如果此命令成功，您将看到类似以下内容的输出：

   ```
   Source            Destination    Mirror  Relationship   Total             Last
   Path        Type  Path           State   Status         Progress  Healthy Updated
   ----------- ---- ------------    ------- -------------- --------- ------- --------
   sourceSvm:sourceVol
               XDP  destSvm:destVol Snapmirrored 
                                             Idle           -         true    -
   ```

1. 通过在目标文件系统上运行以下命令来删除您的 SnapMirror 关系。

   ```
   FsxId123456789abcdef::> snapmirror release -destination-path destSvm:destVol -source-path sourceSvm:sourceVol -force true
   ```

## 删除 SVM：启用 Kerberos 的 LIF
<a name="deletion-kerberos-lif"></a>

如果您尝试删除具有已启用 Kerberos 的逻辑接口（LIF）的 SVM，您必须先在该 LIF 上禁用 Kerberos，然后才能删除 SVM。

您可以通过 ONTAP CLI 在 LIF 上禁用 Kerberos。要访问 ONTAP CLI，请按照 [使用 ONTAP CLI 管理文件系统](managing-resources-ontap-apps.md#fsxadmin-ontap-cli) 中的步骤操作。

1. 使用以下命令在 ONTAP CLI 中进入诊断模式。

   ```
   FsxId123456789abcdef::> set diag
   ```

   当系统提示继续操作时，请输入 **y**。

   ```
   Warning: These diagnostic commands are for use by NetApp personnel only.
   Do you want to continue? {y|n}: y
   ```

1. 检查哪些接口已启用 Kerberos。将 `svm_name` 替换为 SVM 的名称。

   ```
   FsxId123456789abcdef::> kerberos interface show -vserver svm_name
   ```

   如果此命令成功，您将看到类似以下内容的输出：

   ```
   (vserver nfs kerberos interface show)
                  Logical
   Vserver        Interface     Address         Kerberos SPN
   -------------- ------------- --------------- -------- -----------------------
   svm_name       nfs_smb_management_1
                                10.19.153.48    enabled  
   5 entries were displayed.
   ```

1. 使用以下命令禁用 Kerberos LIF。将 `svm_name` 替换为 SVM 的名称。您需要提供在将此 SVM 加入 Active Directory 时使用的 Active Directory 用户名和密码。

   ```
   FsxId123456789abcdef::> kerberos interface disable -vserver svm_name -lif nfs_smb_management_1
   ```

   如果此命令成功，您将看到以下输出。提供在将此 SVM 加入 Active Directory 时使用的 Active Directory 用户名和密码。当系统提示继续操作时，请输入 **y**。

   ```
   (vserver nfs kerberos interface disable)
   Username: admin
   Password: *************
   
   Warning: This command deletes the service principal name from the machine account on the KDC.
   Do you want to continue? {y|n}: y
        
   Disabled Kerberos on LIF "nfs_smb_management_1" in Vserver "svm_name".
   ```

1. 使用以下命令验证 Kerberos 是否已在 SVM 上禁用。将 `svm_name` 替换为 SVM 的名称。

   ```
   FsxId123456789abcdef::> kerberos interface show -vserver svm_name
   ```

   如果此命令成功，您将看到类似以下内容的输出：

   ```
   (vserver nfs kerberos interface show)
                  Logical
   Vserver        Interface     Address         Kerberos SPN
   -------------- ------------- --------------- -------- -----------------------
   svm_name       nfs_smb_management_1
                                10.19.153.48    disabled  
   5 entries were displayed.
   ```

1. 如果接口显示为`disabled`，请尝试通过 AWS CLI、API 或控制台再次删除 SVM。

   如果无法使用上述命令删除 LIF，您可以使用以下命令强制删除 Kerberos LIF。将 `svm_name` 替换为 SVM 的名称。
**重要**  
以下命令可以将 SVM 的计算机对象锁定在 Active Directory 上。

   ```
   FsxId123456789abcdef::> kerberos interface disable -vserver svm_name -lif nfs_smb_management_1 -force true
   ```

   如果此命令成功，您将看到类似以下内容的输出。当系统提示继续操作时，请输入 **y**。

   ```
   (vserver nfs kerberos interface disable)
    
   Warning: Kerberos configuration for LIF "nfs_smb_management_1" in Vserver "svm_name" will be deleted.
   The corresponding account on the KDC will not be deleted. Do you want to continue? {y|n}: y
   ```

## 删除 SVM：其他原因
<a name="deletion-ad-connectivity"></a>

FSx 对于 ONTAP，当他们加入您的 Active Directory 时，在您的活动目录中 SVMs 创建一个计算机对象。在某些情况下，您可能需要使用 ONTAP CLI，手动从 Active Directory 中取消 SVM 的加入。要访问 ONTAP CLI，请按照 [使用 ONTAP CLI 管理文件系统](managing-resources-ontap-apps.md#fsxadmin-ontap-cli) 中的步骤操作，使用 `fsxadmin` 凭证在文件系统级别登录 ONTAP CLI。使用 ONTAP CLI，按照以下步骤从 Active Directory 中取消 SVM 的加入。

**重要**  
此过程可以将 SVM 的计算机对象锁定在 Active Directory 上。

1. 使用以下命令在 ONTAP CLI 中进入高级模式。

   ```
   FsxId123456789abcdef::> set adv
   ```

   运行此命令后，您将看到此输出。输入 **y** 以继续。

   ```
   Warning: These advanced commands are potentially dangerous; use them only when
         directed to do so by NetApp personnel.
         Do you want to continue? {y|n}: y
   ```

1. 使用以下命令删除 Active Directory 的 DNS。将 `svm_name` 替换为 SVM 的名称。

   ```
   FsxId123456789abcdef::> vserver services name-service dns dynamic-update record delete -vserver svm_name -lif nfs_smb_management_1
   ```
**注意**  
如果 DNS 记录已删除或 DNS 服务器无法访问，则此命令失败。如果发生这种情况，请继续下一步操作。

1. 使用以下命令禁用 DNS。将 `svm_name` 替换为 SVM 的名称。

   ```
   FsxId123456789abcdef::> vserver services name-service dns dynamic-update modify -vserver svm_name -is-enabled false -use-secure false
   ```

   如果此命令成功，您将看到以下输出：

   ```
   Warning: DNS updates for Vserver "svm_name" are now disabled.
        Any LIFs that are subsequently modified or deleted
        can result in a stale DNS entry on the DNS server,
        even when DNS updates are enabled again.
   ```

1. 从 Active Directory 中取消设备的加入。将 `svm_name` 替换为 SVM 的名称。

   ```
   FsxId123456789abcdef::> vserver cifs delete -vserver svm_name
   ```

   运行此命令后，您将看到以下输出，其中 `CORP.EXAMPLE.COM` 替换为您的域名。在系统提示时，输入您的用户名和密码。当系统询问您是否要删除服务器时，请输入 **y**。

   ```
   In order to delete an Active Directory machine account for the CIFS server,
   you must supply the name and password of a Windows account with sufficient
   privileges to remove computers from the "CORP.EXAMPLE.COM" domain.
   Enter the user name: admin
   Enter the password:
   Warning: There are one or more shares associated with this CIFS server
        Do you really want to delete this CIFS server and all its shares? {y|n}: y
   Warning: Unable to delete the Active Directory computer account for this CIFS server.
        Do you want to continue with CIFS server deletion anyway? {y|n}: y
   ```

## 删除卷： FlexCache 关系
<a name="deletion-flexcache"></a>

除非先删除缓存关系，否则无法删除作为 FlexCache 关系源卷的卷。要确定哪些卷有关 FlexCache系，可以使用 ONTAP CLI。要访问 ONTAP CLI，请按照 [使用 ONTAP CLI 管理文件系统](managing-resources-ontap-apps.md#fsxadmin-ontap-cli) 中的步骤操作。

1. 使用以下命令检查 FlexCache 关系。

   ```
   FsxId123456789abcdef::> volume flexcache origin show-caches
   ```

1. 使用以下命令删除缓存关系。将 `dest_svm_name` 和 `dest_vol_name` 替换为实际值。

   ```
   FsxId123456789abcdef::> volume flexcache delete -vserver dest_svm_name -volume dest_vol_name
   ```

1. 删除缓存关系后，再次尝试通过 AWS CLI、API 或控制台删除 SVM。

# 您的卷处于 `MISCONFIGURED` 状态
<a name="misconfigured-volume"></a>

导致 ONTAP 卷处于 `MISCONFIGURED` 状态的潜在原因有很多，如以下主题所述。

## 您的卷容量已达 98% 以上
<a name="volume-gt-98percent-full"></a>

文件系统当前包含的卷容量已达 98% 以上。我们建议卷的利用率不要一直超过 95%。如果您没有在文件系统的下一个维护时段之前释放卷中的空间，Amazon FSx 将禁用对卷的机会性锁定，从而打破所有现有的 “oplocks”。修补过程完成后，Amazon FSx 将在该卷上重新启用 oplocks。为避免此情况，请将卷的存储容量利用率降至 98% 以下。实现这一目标的方法包括：
+ 增加卷的大小。
+ 删除不需要的数据。
+ 删除不需要的快照。

有关更多信息，请参阅[更新存储容量](manage-volume-capacity.md)和[删除快照](manually-delete-snapshots.md)。

## 您的离线卷有一个 iSCSI LUN 或 NVMe/TCP 命名空间
<a name="offline-vol-iscsi-nvme"></a>

您的文件系统当前托管一个处于脱机状态的卷，该卷包含一个 iSCSI LUN 或 NVMe/TCP 命名空间，或两者兼而有之。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

## 离线卷是 FlexCache 来源
<a name="flexcache-origin-volume"></a>

您的文件系统包含处于脱机状态的 FlexCache 源卷。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机。在此期间，可能会使用缓存卷中的数据将数据写回 FlexCache 原始卷。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

## 离线卷属于 SnapMirror 关系的一部分
<a name="offline-snapmirror-vol"></a>

文件系统当前托管的卷处于离线状态，该卷是 SnapMirror 源卷或目标卷。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机并暂停SnapMirror关系。在此期间，可能会使用 SnapMirror 源卷中的数据将数据写入 SnapMirror 目标卷。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

## 您的受限卷包含 iSCSI LUN 或 NVMe/TCP 命名空间
<a name="restricted-vol-iscsi-nvme"></a>

您的文件系统当前托管一个处于受限状态的卷，该卷包含一个 iSCSI LUN、一个 NVMe/TCP 命名空间或两者兼而有之。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9141/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

## 您的受限音量是 FlexCache 来源
<a name="restricted-flexcache-origin-volume"></a>

您的文件系统包含处于受限状态的 FlexCache 源卷。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机。在此期间，可能会使用缓存卷中的数据将数据写回 FlexCache 原始卷。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

## 受限制卷属于 SnapMirror 关系的一部分
<a name="restricted-snapmirror-vol"></a>

文件系统当前托管的卷处于受限制状态，该卷是 SnapMirror 源卷或目标卷。我们建议您持续保持卷在线。如果您在文件系统的下一个维护时段之前没有联机此卷，Amazon FSx 将在修补操作期间暂时将此卷联机并暂停SnapMirror关系。在此期间，可能会使用 SnapMirror 源卷中的数据将数据写入 SnapMirror 目标卷。为避免此情况，请联机或删除该卷。

要使离线卷恢复在线，应使用 [https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html](https://docs.netapp.com/us-en/ontap-cli-9131/volume-online.html) ONTAP CLI 命令，如以下示例所示。如果仅存在一个 SVM（虚拟服务器），则无需指定 `-vserver` 参数。

```
FsxID-abcdef123456::> volume online -volume volume_name -vserver svm_name
   
Volume 'vs1:vol1' is now online.
```

# 卷的存储容量不足
<a name="low-volume-capacity"></a>

如果卷空间不足，您可以按照此处显示的过程来诊断和解决该问题。

**Topics**
+ [确定卷存储容量的使用情况](#volume-storage-usage)
+ [增加卷的存储容量](#increase-volume-capacity)
+ [使用卷自动调整大小](#volume-autosizing)
+ [文件系统的主存储空间已满](#file-system-primary-capacity)
+ [删除快照](#ts-deleting-snapshots)
+ [增加卷的文件容量上限](#max-file-capacity)

## 确定卷存储容量的使用情况
<a name="volume-storage-usage"></a>

您可以使用 `volume show-space` NetApp ONTAP CLI 命令查看卷存储容量的消耗情况。此类信息可以帮助您决定如何回收或节省卷存储容量。有关更多信息，请参阅 [监控卷的存储容量（控制台）](monitor-volume-storage-console.md#volume-capacity-usage)。

## 增加卷的存储容量
<a name="increase-volume-capacity"></a>

您可以使用亚马逊 FSx 控制台和亚马逊 FSx API 来增加卷的存储容量。 AWS CLI有关如何通过增加容量来更新卷的更多信息，请参阅[更新卷](updating-volumes.md)。

或者，您可以使用 [https://docs.netapp.com/ontap-9/topic/com.netapp.doc.dot-cm-cmpr-9101/volume__modify.html](https://docs.netapp.com/ontap-9/topic/com.netapp.doc.dot-cm-cmpr-9101/volume__modify.html) NetApp ONTAP CLI 命令增加卷的存储容量。有关更多信息，请参阅 [更改卷的存储容量（控制台）](manage-volume-capacity.md#increase-volume-size)。

## 使用卷自动调整大小
<a name="volume-autosizing"></a>

您还可以使用卷自动调整大小，以便卷在达到已用空间阈值时，自动增加指定的量或增加到指定大小。您可以使用 ONTAP [https://docs.netapp.com/ontap-9/topic/com.netapp.doc.dot-cm-cmpr-9101/volume__autosize.html](https://docs.netapp.com/ontap-9/topic/com.netapp.doc.dot-cm-cmpr-9101/volume__autosize.html) NetApp CLI 命令对 FlexVol 卷类型（这是 ONTAP FSx 的默认卷类型）执行此操作。有关更多信息，请参阅 [启用自动调整大小](enable-volume-autosizing.md)。

## 文件系统的主存储空间已满
<a name="file-system-primary-capacity"></a>

如果您 FSx 的 for ONTAP 文件系统的主存储空间已满，则即使某个卷显示其具有足够的可用存储容量，也无法向文件系统中的卷添加任何数据。您可以在 Amazon FSx 控制台文件系统详情页面的 “**监控和性能**” 选项卡中查看可用的主存储容量。有关更多信息，请参阅 [监控 SSD 存储利用率](monitor-fs-storage-console.md)。

要解决此问题，您可以增加文件系统主存储层的大小。有关更多信息，请参阅 [更新文件系统 SSD 存储和 IOPS](storage-capacity-and-IOPS.md#increase-primary-storage)。

## 删除快照
<a name="ts-deleting-snapshots"></a>

默认情况下，使用默认快照策略在卷上启用快照。快照存储于卷根的 `.snapshot` 目录中。您可以通过以下方式管理快照的卷存储容量：
+ [手动删除快照](manually-delete-snapshots.md) – 通过手动删除快照来回收存储容量。
+ [创建快照自动删除策略](snapshot-autodelete-policy.md) – 创建策略，比默认快照策略更积极地删除快照。
+ [关闭自动快照](disable-snapshots.md) – 通过关闭自动快照来节省存储容量。

当删除快照时，回收的存储量不会等于当前删除的快照的大小。您可以使用卷快照 com [pute-recleamable-vserver ONTAP CLI 命令查看删除快照时可以回收的存储量](https://docs.netapp.com/us-en/ontap-cli-9141/volume-snapshot-compute-reclaimable.html)，使用您的数据来替换、和。*svm\$1name* *vol\$1name* *snapshot\$1name*

```
fsid8970abc52::> volume snapshot compute-reclaimable -vserver svm_name -volume vol_name -snapshot snapshot_name 
A total of 667648 bytes can be reclaimed.
```

有关删除快照和管理快照策略以节省存储容量的更多信息，请参阅[删除快照](snapshots-ontap.md#delete-snapshots)。

## 增加卷的文件容量上限
<a name="max-file-capacity"></a>

当 FSx 可用信息节点或文件指针的数量用完时，适用于 ONTAP 的卷可能会耗尽文件容量。默认情况下，可用索引节点数与卷大小的对应关系为 1 比 32KiB。有关更多信息，请参阅 [卷文件容量](volume-storage-capacity.md#managing-volume-file-capacity)。

卷中索引节点的数量随卷的存储容量（最高阈值为 648 GiB）相应增加。默认情况下，存储容量为 648GiB 或以上的卷都具有相同数量的索引节点，即 21,251,126。要查看卷的文件容量上限，请参阅[监控卷的文件容量](view-volume-file-capacity.md)。

如果您创建了大于 648 GiB 的卷，并且希望其索引节点数超过 21,251,126，您必须手动增加卷上文件的数量上限。如果卷存储容量不足，您可以检查其文件容量上限。如果已接近文件容量，您可以手动增加容量。有关更多信息，请参阅 [增加卷上文件的数量上限（ONTAP CLI）](increase-volume-max-files.md#increase-max-files)。

# 卷容量不足导致备份失败
<a name="backups-failing"></a>

卷的每日自动备份失败，并显示以下消息：

```
Amazon FSx could not create a backup of your volume because the backup snapshot was deleted.
```

由于卷上的可用存储容量不足，每日自动备份失败。要缓解这种情况，您需要释放卷上的存储容量。您可以根据具体情况采用以下其中一种或多种选项：
+ [增加卷的存储容量](manage-volume-capacity.md#increase-volume-size)
+ [增加卷的快照预留](snapshots-ontap.md#snapshot-reserve)
+ [禁用快照自动删除](snapshot-autodelete-policy.md)
+ [不要使用 ONTAP CLI 删除备份快照](common-snapshot.md)

# FSx 为 ONTAP 卷恢复已删除的内容
<a name="recovering-deleted-volumes"></a>

删除 fo FSx r ONTAP 卷后，该卷将被置于ONTAP's恢复队列中。虽然您可以使用 ONTAP CLI 直接从该队列中恢复卷，但恢复的卷不会重新出现在 AWS 控制台或 Amazon FSx API 中，并且之前应用于该卷的任何 AWS 标签都将永久丢失。要在保留 AWS 集成和基于标签的安全策略的同时正确恢复 for ONTAP 卷，您可以[将备份还原到新卷](to-restore-backups.md)，也可以使用[将该卷的数据复制到新卷](scheduled-replication.md)。 FSx SnapMirror有关 ONTAP's 恢复队列的更多信息，请参阅 [NetApp's 文档。](https://docs.netapp.com/us-en/ontap-cli/volume-recovery-queue-show.html)

# 排除网络问题
<a name="network-issues"></a>

如果遇到网络问题，您可以按照此处显示的过程来诊断问题。

## 您想捕获数据包跟踪
<a name="capture-packet-trace"></a>

数据包跟踪流程验证数据包通过各层到达目的地的路径。您可以使用以下 NetApp ONTAP CLI 命令来控制数据包跟踪流程：
+ **network tcpdump start** – 开始数据包跟踪
+ **network tcpdump show** – 显示当前正在运行的数据包跟踪
+ **network tcpdump stop** – 停止正在运行的数据包跟踪

这些命令可供在文件系统上拥有 `fsxadmin` 角色的用户使用。

**从文件系统捕获数据包跟踪**

1. 要通过 SSH 登录文件系统的 NetApp ONTAP CLI，请按照《*Amazon for [使用 NetApp ONTAP CLI](managing-resources-ontap-apps.md#netapp-ontap-cli) NetApp ONTAP 用户指南》中记录的步骤 FSx 进行*操作。

   ```
   ssh fsxadmin@file-system-management-endpoint-ip-address
   ```

1. 使用以下命令在 ONTAP CLI 中进入诊断权限级别。

   ```
   ::> set diag
   ```

   当系统提示继续操作时，请输入 `y`。

   ```
   Warning: These diagnostic commands are for use by NetApp personnel only.
   Do you want to continue? {y|n}: y
   ```

1. 确定文件系统上用于保存数据包跟踪的位置。卷必须处于在线状态，并且必须安装于具有有效连接路径的命名空间中。使用以下命令检查符合以下标准的卷：

   ```
   ::*> volume show -junction-path !- -fields junction-path
   vserver volume    junction-path 
   ------- --------- ------------- 
   fsx     test_vol1 /test_vol1    
   fsx     test_vol2 /test_vol2
   fsx     test_vol2 /test_vol3
   ```

1. 使用最少的必需参数开始跟踪。替换以下内容：
   + *node\$1name*替换为节点的名称（例如，`FsxId01234567890abcdef-01`）。
   + *svm\$1name*替换为存储虚拟机的名称（例如，`fsx`）。
   + *junction\$1path\$1name*替换为卷名（例如，`test-vol1`）。

   ```
   ::*> debug network tcpdump start -node node_name -ipspace Default -pass-through "-i e0e -w /clus/svm_name/junction_path_name"
   Info: Started network trace on interface "e0e"
   Warning: Snapshots should be disabled on the tcpdump destination volume while packet traces are occurring. Use the
   "volume modify -snapshot-policy none -vserver fsx -volume test_vol1" command to disable Snapshots on the
   tcpdump destination volume.
   ```
**重要**  
只能在 `e0e` 接口和 `Default` IP 空间中捕获数据包跟踪。在 FSx ONTAP 中，所有网络流量都使用该`e0e`接口。

   使用数据包跟踪时，请注意以下几点：
   + 开始数据包跟踪时，必须包含要存储跟踪文件的路径，格式为：/clus//*svm\$1name**junction-path-name*
   + （可选）提供数据包跟踪的文件名。如果未指定 filter\$1name，则会自动生成格式为：*node-name*\$1 \$1 .trc *port-name* *yyyymmdd\$1hhmmss* 
   + 如果滚动跟踪已指定，则 filter\$1name 后跟数字，表示旋转序列中的位置。
   + ONTAP CLI 还接受以下可选 **-pass-through** 参数：

     ```
     -B, --buffer-size=<KiB>
     -c <number_of_packets>
     -C <file_size-mB>
     -F <filter_expression_filename>
     -G <rotate_seconds>
     --time-stamp-precision {micro|nano}
     -Q, --direction {in|out|inout}
     -s, --snapshot-length=<bytes>
     -U, --packet-buffered
     -W <rotate_file_count>
     <filter-expression>
     ```
   + 有关筛选器表达式的信息，请参阅 [pcap-filter（7）手册页](https://www.tcpdump.org/manpages/pcap-filter.7.html)。

1. 查看正在进行的跟踪：

   ```
   ::*> debug network tcpdump show
   Node                     IPspace  Port     Filename
   -----------------------  -------- -------- --------
   FsxId123456789abcdef-01  Default  e0e      /clus/fsx/test_vol1/FsxId123456789abcdef-01_e0e_20230605_181451.trc
   ```

1. 停止跟踪：

   ```
   ::*> debug network tcpdump stop -node FsxId123456789abcdef-01 -ipspace Default -port e0e
   Info: Stopped network trace on interface "e0e"
   ```

1. 返回管理员权限级别：

   ```
   ::*> set -priv admin
   ::>
   ```

1. 访问数据包跟踪。

   数据包跟踪存储在您使用 **debug network tcpdump start** 命令指定的卷中，可通过 NFS 导出或与该卷对应的 SMB 共享进行访问。

有关捕获包跟踪的更多信息，请参阅 [如何在 NetApp Knowledge Base 的 ONTAP 9.10\$1 中使用调试网络 dump](https://kb.netapp.com/onprem/ontap/hardware/How_to_use_debug_tcpdump_in_ONTAP_9.10)。

# 对 I/O 错误和 NFS 锁回收失败进行故障排除
<a name="nfs-failover-issues"></a>

本节介绍了 ONTAP 文件系统的故障转移事件期间与 I/O 错误和 NFS 锁回收失败有关的问题，以及每个问题的解决方案。 FSx 

## 在故障转移事件期间您遇到了 I/O 错误
<a name="io-errors-during-failover"></a>

在 FSx ONTAP 单可用区文件系统的故障转移开启期间，NFS 客户端可能会遇到暂时错误或长时间暂 I/O 停。对于 NFSv4 \$1 客户端，您可能会看到内核日志消息，例如：

```
NFS: __nfs4_reclaim_open_state: Lock reclaim failed!
```

这些消息表明，在故障转移窗口期间，客户端无法成功收回 NFS 锁。

**减少故障转移事件期间的 I/O 错误**  
在 Linux 上，您可以在客户端上配置网络设置，将故障转移检测时间从 55-60 秒缩短到 15-20 秒。

**重要**  
务必先在非生产环境中测试这些配置。这些设置会增加地址解析协议 (ARP) 流量，该协议用于将 IP 地址映射到本地网络上的物理 (MAC) 地址，可能不适合网络受限的环境。

**为 NFS 客户端配置优化的网络设置**

1. 在每个 NFS 客户端上创建一个 sysctl 配置文件。以下示例用于`default`将设置应用于所有网络接口。如果您的实例有多个网络接口，则可以`default`替换为用于连接您的 for ONTAP 单可用区文件系统的特定接口名称（例如`eth0`或`ens5`）： FSx 

   ```
   $ sudo tee /etc/sysctl.d/99-fsx-failover.conf > /dev/null << 'EOF'
   # NFS client optimizations for faster failover detection
   # Replace 'default' with your interface name (e.g., eth0, ens5) to target a specific interface
   net.ipv4.neigh.default.base_reachable_time_ms=5000
   net.ipv4.neigh.default.delay_first_probe_time=1
   net.ipv4.neigh.default.ucast_solicit=0
   net.ipv4.tcp_syn_retries=3
   EOF
   ```

1. 立即应用设置：

   ```
   $ sudo sysctl -p /etc/sysctl.d/99-fsx-failover.conf
   ```

1. 验证配置是否处于活动状态。如果您使用了`default`，则可以使用以下命令进行验证。如果您指定了特定的接口，请`default`用您的接口名称替换（例如，`eth0`或`ens5`）：

   ```
   $ sysctl net.ipv4.neigh.default.base_reachable_time_ms
   $ sysctl net.ipv4.neigh.default.delay_first_probe_time
   $ sysctl net.ipv4.neigh.default.ucast_solicit
   $ sysctl net.ipv4.tcp_syn_retries
   ```

确保在同一可用区内连接到您 FSx 的 for ONTAP 文件系统的所有 NFS 客户端上一致地应用这些设置。使用这些网络优化时，请记住以下几点：
+ **base\$1reachable\$1time\$1ms=5000** — 将 ARP 缓存条目的有效期从 30 秒缩短到 5 秒，使客户端能够在故障转移事件期间更快地检测 IP 所有权的变化。
+ **delay\$1first\$1probe\$1time=1** — 将探测陈旧网络条目之前的延迟从 5 秒缩短到 1 秒。
+ **ucast\$1solicit=0** — 跳过单播邻居探测器并立即发出广播 ARP 请求，从而加快对活动文件服务器的重新发现。
+ **tcp\$1syn\$1retries=3** — 将 TCP 连接重试持续时间从 127 秒缩短到 15 秒。

网络设置完成后，您应监控环境以验证更改。您可以通过修改文件系统的吞吐容量来测试故障转移事件。有关更多信息，请参阅 [在文件系统上测试失效转移](high-availability-AZ.md#testing-failover)。

**应用更改后监控您的环境**  

+ **监控系统日志中是否有 NFS 错误**，以查看 NFS 相关的内核日志消息。

  ```
  $ sudo journalctl -f | grep -i nfs
  ```

  确认出现的消息次数是否较少，例如。`Lock reclaim failed`
+ **监控应用程序日志**，以确认在故障转移事件期间减少 I/O 超时、连接错误和重试相关故障。
+ **验证网络影响**，确保增加的 ARP 流量不会对环境中的网络性能产生不利影响。

## NFSv4 环境的替代方法
<a name="nfsv4-alternative-approaches"></a>

在无法修改客户端配置的 NFSv4 环境中，请考虑以下替代方案：
+ **延长 NFSv4 租赁超时时间。**请与您的存储管理员合作，延长 NFSv4 租赁超时时间。延长这些超时时间可以让客户端有更多时间在故障转移事件期间回收锁定。有关更多信息，请参阅NetApp ONTAP文档[中的指定 NFSv4 锁定宽限期](https://docs.netapp.com/us-en/ontap/nfs-admin/specify-nfsv4-locking-grace-period-task.html)。