Einen RAG-Evaluierungsjob nur zum Abrufen erstellen

Sie können einen RAG-Evaluierungsjob mit dem AWS-Managementkonsole AWS CLI, oder einem unterstützten SDK erstellen. AWS

Für diesen Auftragstyp ist Zugriff auf ein Evaluatormodell erforderlich. Eine Liste der unterstützten Evaluatormodelle finden Sie unter Unterstützte Modelle.

Um einen Job anhand der folgenden Anweisungen zu erstellen, benötigen Sie außerdem einen Prompt-Datensatz. Wenn Sie noch keinen erstellt haben, finden Sie weitere Informationen unter Erstellen eines Prompt-Datensatzes für eine RAG-Bewertung in Amazon Bedrock.

Console

Öffnen Sie die Amazon-Bedrock-Konsole.
Wählen Sie im linken Bereich unter Inferenz und Bewertung die Option Bewertungen aus.
Wählen Sie im Bereich RAG-Bewertungen die Option Erstellen aus.
Gehen Sie wie folgt vor, um Ihre RAG-Bewertungsdetails einzugeben:
1. Geben Sie im Bereich Bewertungsdetails unter Bewertungsname einen Namen für Ihren Bewertungsauftrag ein. Der Name, den Sie wählen, muss innerhalb Ihres eindeutig sein AWS-Region.
2. Geben Sie optional unter Beschreibung – optional eine Beschreibung für Ihren Bewertungsauftrag ein.
3. Klicken Sie unter Evaluatormodell auf Modell auswählen und wählen Sie das Evaluatormodell aus, für das Sie Ihre Bewertung durchführen möchten.
Geben Sie die Inferenzquelle für Ihren Bewertungsauftrag ein. Mit den RAG-Bewertungen in Amazon Bedrock können Sie entweder die Leistung der Wissensdatenbanken für Amazon Bedrock auswerten oder die anderer RAG-Quellen, indem Sie Ihre eigenen Inferenzantwortdaten im Prompt-Datensatz bereitstellen. Gehen Sie wie folgt vor, um eine Amazon Bedrock Knowledge Base auszuwählen:
1. Wählen Sie im Bereich Inferenzquelle unter Quelle auswählen die Option Bedrock Knowledge Base aus.
2. Wählen Sie unter Wissensdatenbank auswählen mithilfe der Dropdown-Liste eine Wissensdatenbank aus.
Gehen Sie wie folgt vor, um eigene Inferenzantwortdaten bereitzustellen:
1. Wählen Sie im Bereich Inferenzquelle unter Quelle auswählen die Option Eigene Inferenzantworten einbringen aus.
2. Geben Sie unter Quellenname einen Namen für die RAG-Quelle ein, mit der Sie die Antwortdaten erstellt haben. Der eingegebene Name muss mit dem knowledgeBaseIdentifier-Parameter in Ihrem Prompt-Datensatz übereinstimmen.
Wählen Sie im Bereich Inferenzquelle unter Bewertungstyp die Option Nur Abruf aus.
Wählen Sie die integrierten Metriken aus, die das Evaluatormodell verwenden soll, indem Sie sie im Bereich Metriken mindestens eine Metrik auswählen.
Definieren Sie Ihre Eingabe- und Ausgabeorte für Ihren Datensatz und Ihre Ergebnisse, indem Sie wie folgt vorgehen:
1. Geben Sie im Bereich Datensätze unter Prompt-Datensatz auswählen den Amazon-S3-URI für Ihren Prompt-Datensatz ein, oder wählen Sie S3 durchsuchen aus, um Ihre Datei auszuwählen. Eine Definition des erforderlichen Prompt-Datensatzformats für einen Nur-Abruf-Bewertungsauftrag finden Sie unter Erstellen eines Prompt-Datensatzes für RAG-Bewertungsaufträge, die nur zum Abrufen bestimmt sind.
2. Geben Sie unter Ergebnisse der Bewertung einen Amazon-S3-Speicherort für Amazon Bedrock ein oder wählen Sie S3 durchsuchen aus, um einen Speicherort auszuwählen.
Wählen Sie unter IAM-Rolle für Amazon-Bedrock – Berechtigungen die Option Neue Servicerolle erstellen und verwenden aus, damit Amazon Bedrock eine neue IAM-Rolle für den Bewertungsauftrag erstellt, oder wählen Sie Eine vorhandene Servicerolle verwenden aus, um eine vorhandene IAM-Rolle auszuwählen. Eine Liste der erforderlichen Berechtigungen zum Erstellen und Ausführen eines Bewertungsauftrags finden Sie unter Voraussetzungen.
(Optional) Um Ihren eigenen KMS-Schlüssel zur Verschlüsselung Ihrer Testdaten zu verwenden, aktivieren Sie unter KMSKey — Optional die Option Verschlüsselungseinstellungen anpassen (erweitert) und wählen Sie Ihren Schlüssel aus. AWS KMS Amazon Bedrock verschlüsselt die Daten Ihres Bewertungsauftrags standardmäßig mit einem AWS-eigenen KMS-Schlüssel.
Klicken Sie auf Erstellen, um die Erstellung Ihres Bewertungsauftrags abzuschließen.

AWS CLI

So erstellen Sie einen Nur-Abruf-Bewertungsauftrag für Amazon Bedrock Knowledge Base

Führen Sie den folgenden AWS CLI Befehl mit der JSON-Beispieldatei aus.


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "my_rag_eval",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-Amazon-Bedrock-IAM-Role-20250218T063974",
    "applicationType": "RagEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval-byoir.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage",
                        "Builtin.ContextRelevance"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
   "inferenceConfig": {
        "ragConfigs": [
            {
                "knowledgeBaseConfig": {
                    "retrieveConfig": {
                        "knowledgeBaseId": "your-knowledge-base-id",
                        "knowledgeBaseRetrievalConfiguration": {
                            "vectorSearchConfiguration": {
                                "numberOfResults": 3
                            }
                        }
                    }
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

So erstellen Sie einen Nur-Abruf-Bewertungsauftrag mit Ihren eigenen Inferenzantwortdaten

Führen Sie den folgenden AWS CLI Befehl mit der JSON-Beispieldatei aus.


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "my_rag_eval",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-Amazon-Bedrock-IAM-Role-20250218T063974",
    "applicationType": "RagEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval-byoir.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage",
                        "Builtin.ContextRelevance"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "ragConfigs": [
            {
                "precomputedRagSourceConfig": {
                    "retrieveSourceConfig": {
                        "ragSourceIdentifier": "my_rag_source"
                    }
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

SDK for Python

Das folgende Python-Beispiel zeigt, wie Sie mithilfe von Amazon Bedrock einen Nur-Abruf-Job für eine Amazon Bedrock Knowledge Base erstellen. Weitere Informationen AWS SDK für Python (Boto3) zum Erstellen eines Evaluierungsjobs mit Boto3 finden Sie in der Boto3-Dokumentation. create_evaluation_job


import boto3
client = boto3.client('bedrock')

job_response = client.create_evaluation_job(
    jobName="my_evaluation_job",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-RoleAmazon-Bedrock-IAM-Role",
    applicationType="RagEvaluation",
    inferenceConfig={
        "ragConfigs": [
            {
                "knowledgeBaseConfig": {
                    "retrieveConfig": {
                        "knowledgeBaseId": "your-knowledge-base-id",
                        "knowledgeBaseRetrievalConfiguration": {
                            "vectorSearchConfiguration": {
                                "numberOfResults": 10,
                                "overrideSearchType": "HYBRID"
                            }
                        }
                    }
                }
            }
        ]
    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "Summarization",
                    "dataset": {
                        "name": "RagDataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input_data/data_3_rng.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage"
                    ]
                }
            ],
            "evaluatorModelConfig":
                {
                    "bedrockEvaluatorModels": [{
                        "modelIdentifier": "meta.llama3-1-70b-instruct-v1:0"
                    }]
                }
        }
    }
)

print(job_request)

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Job erstellen

Nur-Abruf mit benutzerdefinierten Metriken