

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 註釋整合
<a name="sms-annotation-consolidation"></a>

*註釋*是單一工作者之標籤任務的結果。*註釋合併*會為您的資料物件，將兩個以上的工作者註釋合併成單一標籤。指派給資料集中每個物件的標籤，是真實標籤應該是什麼的概率估計值。資料集中的每個物件通常有多個註釋，但只有一個標籤或一組標籤。

您可以決定要讓多少工作者註釋您資料集中的每個物件。投入越多的工作者可以提高您標籤的準確性，但也會增加標籤的成本。若要進一步了解 Ground Truth 定價，請參閱 [Amazon SageMaker Ground Truth 定價](https://aws.amazon.com/sagemaker/groundtruth/pricing/)。

如果您使用 Amazon SageMaker AI 主控台建立標籤工作，以下是可以註釋物件之工作者數量的預設值：
+ 文字分類 － 3 個工作者
+ 影像分類 — 3 個工作者
+ 邊界框 － 5 個工作者
+ 語意分割 － 3 個工作者
+ 具名實體辨識 — 3 個工作者

使用 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html) 操作時，您會設定多少個工作者，使用 `NumberOfHumanWorkersPerDataObject` 參數註釋每個資料物件。您可以使用主控台或 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html) 操作，覆寫註釋資料物件的預設工作者數目。

Ground Truth 可為每個預先定義的標籤任務提供註釋合併函式：邊界框、影像分類、名稱實體辨識、語意分割及文字分類。有以下函式：
+ 影像和文字分類的多類別註釋合併會使用不同的[最大期望值](https://en.wikipedia.org/wiki/Expectation-maximization_algorithm)算法來進行註釋。它會估計每個工作者的參數，並根據個別工作者的類別註釋，使用貝氏推論來估計真正的類別。
+ 邊界框註釋合併多個工作者的邊界框。此函式會根據方塊的雅卡爾指數 ([Jaccard index](https://en.wikipedia.org/wiki/Jaccard_index)) 或聯集上的交集並平均它們，從不同工作者中尋找最相似的方塊。
+ 語意分割註釋合併將單一影像中的每個像素視為一個多類別分類。此函式會將平滑化函式套用至影像，納入周圍像素的更多資訊，而將工作者的像素註釋視為 “選票”。
+ 具名實體辨識會依 Jaccard 相似度來叢集文字選取項目，並基於模式來計算選取項目界限，或如果不確定模式，則取中間值。標籤會解析為叢集中指派最多的實體標籤，並依隨機選取項目來中斷連結。

您可以使用其他演算法來合併註釋。如需相關資訊，請參閱[註釋合併函數建立](consolidation-lambda.md)。

# 註釋合併函數建立
<a name="consolidation-lambda"></a>

您可以選擇使用自己的註釋合併函式，來決定所標籤物件的最終標籤。有許多撰寫函式的可行方法，以及您可以根據要合併之註釋的性質採取的方法。廣義來說，合併函式會查看工作者的註釋、測量它們之間的相似性，然後使用某種形式的機率性判斷來決定最可能的標籤為何。

如果想要使用其他演算法來建立註釋合併函式，則您可以在將任務輸出導引至其中之 Amazon S3 儲存貯體的 `[project-name]/annotations/worker-response` 資料夾中找到工作者回應。

## 評估相似性
<a name="consolidation-assessing"></a>

若要評估標籤之間的相似性，您可以使用下列其中一個策略，或是使用符合您資料標籤需求的策略：
+ 針對由離散、互斥類別組成的標籤空間 (例如多類別分類)，評估相似度的過程可以相當直接。離散標籤不是相符就是不相符。
+ 針對沒有離散值的標籤空間，例如邊界框註釋，請尋找廣泛的相似性量值。針對邊界框，雅卡爾指數 (Jaccard index) 就是這樣的量值。它會使用方塊間的聯集測量兩個方塊交集的比率，評估其相似度。例如，如果有三個註釋，則可能有一個函式會決定哪些註釋代表相同的物件，而應該合併。

## 評估最可能的標籤
<a name="consolidation-probable-label"></a>

考量先前詳述的其中一種策略，做一下機率性判斷，找出何者為整合標籤。針對離散、互斥的類別，這項過程可以相當直接。其中一個執行此作業的常見方式，便是採取註釋之間佔大多數選票的結果。這會平均加權註釋。

有些方法會嘗試估計不同註釋工具的準確度，根據其正確性的機率，按比例加權它們的註釋。例如，多類別註釋的預設 Ground Truth 合併函式中所使用的最大期望法。

如需有關建立註釋合併函式的詳細資訊，請參閱[使用 在自訂標記工作流程中處理資料 AWS Lambda](sms-custom-templates-step3.md)。