準備開放權重模型的資料

當您使用 OpenAI 相容 APIs 進行強化微調來微調開放加權模型時，請使用目的為的 JSONL 格式提示來提供訓練資料fine-tune。

訓練資料格式和要求

訓練資料必須遵循 OpenAI 聊天完成格式，其中包含 100-20K 個範例。每個訓練範例都包含：

messages：在此欄位中，包含使用者、系統或助理角色，其中包含提供給模型的輸入提示。
reference_answer：在此欄位中，它應該包含預期輸出或評估條件，您的獎勵函數會用來對模型的回應進行評分。它不限於結構化輸出，它可以包含任何格式，協助您的獎勵函數評估品質。
【選用】您可以新增分級器 Lambda 用於分級的欄位。

使用要求：

您可以使用 OpenAI 相容檔案 API 上傳訓練資料，以進行微調任務。檔案會安全地存放在 Amazon Bedrock 中，並在建立微調任務時使用。如需完整的 API 詳細資訊，請參閱OpenAI檔案文件。

若要上傳訓練檔案，請選擇您偏好方法的索引標籤，然後遵循下列步驟：

若要擷取特定檔案的詳細資訊，請選擇您偏好方法的標籤，然後遵循下列步驟：

若要列出上傳的檔案，請選擇您偏好方法的索引標籤，然後遵循下列步驟：

若要刪除檔案，請選擇您偏好方法的標籤，然後遵循下列步驟：

有效的 RFT 訓練資料需要三個關鍵特性：

RFT 資料格式支援核心結構描述需求之外的自訂欄位 (messages 和 reference_answer)。此彈性可讓您新增獎勵函數進行適當評估所需的任何其他資料。

您不需要在配方中設定此項目。資料格式本質上支援其他欄位。只要將它們包含在訓練資料 JSON 中，它們就會在 metadata 欄位中傳遞給您的獎勵函數。

常見的其他屬性

這些額外的欄位會在評估期間傳遞給您的獎勵函數，以根據您的特定使用案例量身打造複雜的評分邏輯。

具有其他屬性的範例

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

存取和安全性

設定獎勵函數