

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 註釋
<a name="cer-annotation"></a>

透過將自訂實體類型與訓練文件中發生的位置建立關聯，在內容中標記實體的註釋。

透過提交註釋與您的文件，您可以提高模型的準確性。使用註釋，您不僅提供您要尋找的實體位置，還為您要尋找的自訂實體提供更準確的內容。

例如，如果您使用實體類型 JUDGE 搜尋 John Johnson 的名稱，提供註釋可能有助於模型了解您想要尋找的人員是判斷者。如果它可以使用內容，則 Amazon Comprehend 找不到名為 John Johnson 且為律師或證人的人員。如果未提供註釋，Amazon Comprehend 將建立自己的註釋版本，但只有在包含判斷時才會有效率。提供您自己的註釋可能有助於實現更好的結果，並在擷取自訂實體時產生能夠更好地利用內容的模型。

**Topics**
+ [註釋數量下限](#prep-training-data-ann)
+ [註釋最佳實務](#cer-annotation-best-practices)
+ [純文字註釋檔案](cer-annotation-csv.md)
+ [PDF 註釋檔案](cer-annotation-manifest.md)
+ [註釋 PDF 檔案](cer-annotation-pdf.md)

## 註釋數量下限
<a name="prep-training-data-ann"></a>

訓練模型所需的輸入文件和註釋數量下限取決於註釋的類型。

**PDF 註釋**  
若要建立模型來分析影像檔案、PDFs或 Word 文件，請使用 PDF 註釋訓練您的辨識器。對於 PDF 註釋，提供每個實體至少 250 個輸入文件和至少 100 個註釋。  
如果您提供測試資料集，則測試資料必須至少包含建立請求中指定之每個實體類型的一個註釋。

**純文字註釋**  
若要建立模型來分析文字文件，您可以使用純文字註釋來訓練辨識器。  
對於純文字註釋，請提供至少三個註釋的輸入文件，以及每個實體至少 25 個註釋。如果您提供總計少於 50 個註釋，Amazon Comprehend 會保留超過 10% 的輸入文件來測試模型 （除非您在訓練請求中提供測試資料集）。別忘了，文件 corpus 大小下限為 5 KB。  
如果您的輸入只包含一些訓練文件，您可能會遇到訓練輸入資料包含提及其中一個實體的文件太少的錯誤。使用提及實體的其他文件再次提交任務。  
如果您提供測試資料集，則測試資料必須至少包含建立請求中指定之每個實體類型的一個註釋。  
如需如何使用小型資料集對模型進行基準測試的範例，請參閱 AWS 部落格網站上的 [Amazon Comprehend 發佈自訂實體辨識的較低註釋限制](https://aws.amazon.com/blogs/machine-learning/amazon-comprehend-announces-lower-annotation-limits-for-custom-entity-recognition/)。

## 註釋最佳實務
<a name="cer-annotation-best-practices"></a>

使用註釋時，需要考慮一些事項才能獲得最佳結果，包括：
+ 請謹慎標註您的資料，並確認您已針對實體的每個提及進行標註。不精確的註釋可能會導致結果不佳。
+ 輸入資料不應包含重複項目，例如您要註釋的 PDF 重複項目。存在重複的樣本可能會導致測試集污染，並可能對訓練程序、模型指標和模型行為產生負面影響。
+ 請確定您的所有文件都已加上註釋，而且沒有註釋的文件是由於缺乏合法實體，而不是由於疏忽。例如，如果您的文件顯示「J Doe 已擔任工程師 14 年」，您也應該提供「J Doe」和「John Doe」的註釋。否則，模型會混淆，並可能導致模型無法將 "J Doe" 識別為 ENGINEER。這應該在相同文件和跨文件內保持一致。
+ 一般而言，更多註釋可產生更好的結果。
+ 您可以使用[最少數量](guidelines-and-limits.md#limits-custom-entity-recognition)的文件和註釋來訓練模型，但新增資料通常會改善模型。我們建議將標註的資料量增加 10%，以提高模型的準確性。您可以在保持不變且可由不同模型版本測試的測試資料集上執行推論。然後，您可以比較連續模型版本的指標。
+ 盡可能提供類似實際使用案例的文件。應避免使用重複模式合成資料。輸入資料應盡可能多樣化，以避免過度擬合，並協助基礎模型更全面地概括真實的範例。
+ 文件在單字計數方面應該是多樣化的，這一點很重要。例如，如果訓練資料中的所有文件都很短，則產生的模型可能難以預測較長文件中的實體。
+ 嘗試並提供與實際偵測自訂實體時預期的訓練相同的資料分佈 （推論時間）。例如，在推論時間，如果您預期將沒有實體的文件傳送給我們，這也應該是訓練文件集的一部分。

如需其他建議，請參閱[改善自訂實體辨識器效能](https://docs.aws.amazon.com/comprehend/latest/dg/cer-metrics.html#cer-performance)。