本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立使用 LLM 即評審的模型評估任務
您可以使用 AWS 管理主控台 AWS CLI或支援的 AWS SDK 建立模型評估任務。
這種類型的任務需要存取評估工具模型。如果您要評估 Amazon Bedrock 模型的效能,您也需要存取該模型。兩個模型都必須在相同的 AWS 區域中提供。如需支援的產生器和評估工具模型清單,請參閱 支援的模型。
先決條件
除了有權存取至少一個評估工具模型之外,若要建立使用 LLM 即評審的評估任務,您也需要特定 IAM 服務角色許可。若要進一步了解必要的動作和信任政策要求,請參閱 建立使用判斷模型的模型評估任務所需的服務角色許可。
建立任務時,您會在 Amazon S3 儲存貯體中指定提示資料集,以及在其中存放結果的輸出儲存貯體。LLM-as-a-judge 評估任務不需要 CORS 組態。如需以人工為基礎的評估任務,請參閱 S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可
若要在主控台中建立任務,主控台需要執行特定動作集的許可,並可存取所需的資源。下列政策定義在主控台中建立任務所需的一組最低 IAM 許可。在政策中,我們建議使用 IAM JSON 政策元素資源來限制存取 IAM 使用者、群組或角色所需的模型和儲存貯體。
IAM 政策必須同時授予產生器和評估工具模型的存取權。
- JSON
-
-
{
"Version":"2012-10-17",
"Statement": [
{
"Sid": "BedrockConsole",
"Effect": "Allow",
"Action": [
"bedrock:CreateEvaluationJob",
"bedrock:GetEvaluationJob",
"bedrock:ListEvaluationJobs",
"bedrock:StopEvaluationJob",
"bedrock:GetCustomModel",
"bedrock:ListCustomModels",
"bedrock:CreateProvisionedModelThroughput",
"bedrock:UpdateProvisionedModelThroughput",
"bedrock:GetProvisionedModelThroughput",
"bedrock:ListProvisionedModelThroughputs",
"bedrock:GetImportedModel",
"bedrock:ListImportedModels",
"bedrock:ListTagsForResource",
"bedrock:UntagResource",
"bedrock:TagResource"
],
"Resource": [
"arn:aws:bedrock:us-west-2::foundation-model/*;"
]
},
{
"Sid": "AllowConsoleS3AccessForModelEvaluation",
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:GetBucketCORS",
"s3:ListBucket",
"s3:ListBucketVersions",
"s3:GetBucketLocation"
],
"Resource": [
"arn:aws:s3:::amzn-s3-demo-destination-bucket/*",
"arn:aws:s3:::input_datasets/prompts.jsonl"
]
}
]
}
此範例政策提供所有 Amazon Bedrock 基礎模型的許可。在生產環境中,我們建議您遵循最低權限的主體,並僅授予所需模型的許可。
您可以僅使用 Amazon Bedrock 的內建指標建立評估任務,也可以建立使用自訂指標的任務。如需建立模型評估任務的指示,請參閱下列各節。