

# 在查准率和查全率之间做出决定
<a name="machine-learning-precision-recall-tradeoff"></a>

每个 `FindMatches` 转换均包含一个 `precision-recall` 参数。您可以使用此参数指定下列项之一：
+ 如果您更关心转换错误地报告两个记录匹配，而实际上它们不匹配，则您应强调 *precision (查准率)*。
+ 如果您更关心转换未能检测到真正匹配的记录，则您应强调 *recall (查全率)*。

您可以在 AWS Glue 控制台上或使用 AWS Glue 机器学习 API 操作进行此权衡。

**何时倾向于查准率**  
如果您更关心 `FindMatches` 导致一对实际不匹配的记录进行匹配的风险，请倾向于查准率。要倾向于查准率，请选择 *higher (较大)* 查准率-查全率权衡值。对于较大的值，`FindMatches` 转换需要更多的证据来决定是否应匹配一对记录。将转换调整为偏向于表示记录不匹配。

例如，假设您使用 `FindMatches` 检测视频目录中的重复项，并且您向转换提供更大的查准率-查全率值。如果您的转换错误地检测到 *Star Wars: A New Hope* 与 *Star Wars: The Empire Strikes Back* 相同，则可能会为需要 *A New Hope* 的客户显示 *The Empire Strikes Back*。这将是一个糟糕的客户体验。

不过，如果转换无法检测到 *Star Wars: A New Hope* 和 *Star Wars: Episode IV—A New Hope* 是相同的项，则客户最初可能会感到困惑，不过可能最终会将其视为相同。这将是一个错误，但不像以前的情况那么糟糕。

**何时倾向于查全率**  
如果您更关心 `FindMatches` 转换结果可能无法检测到实际匹配的一对记录的风险，请倾向于查全率。要倾向于查全率，请选择 *lower (较小)* 的查准率-查全率权衡值。对于较小的值，`FindMatches` 转换需要更少的证据来决定是否应匹配一对记录。将转换调整为偏向于表示记录匹配。

例如，这可能是安全组织的优先事项。假设您将客户与一系列已知的欺诈者进行匹配，并且确定客户是否为欺诈者非常重要。您使用 `FindMatches` 将欺诈者名单与客户名单进行匹配。每当 `FindMatches` 检测到两个名单之间的匹配项时，都会指派一名审计人员来验证该人员实际上是否为欺诈者。您的组织可能更愿意选择查全率而不是查准率。换句话说，当客户不是欺诈者时，您宁愿让审计人员手动审查并拒绝某些情况，而不是未能识别出客户实际上在欺诈者名单上。

**如何倾向于查准率和查全率**  
提高查准率和查全率的最佳方法是标记更多数据。在标记更多数据时，`FindMatches` 转换的总体准确性将提高，从而提高查准率和查全率。然而，即使对于最准确的转换，也始终存在一个灰色区域，您需要在该区域中尝试倾向于查准率或查全率，或者在中间选择一个值。