Vorbereiten eines Datensatzes für einen Bewertungsauftrag, bei dem Amazon Bedrock Modelle für Sie aufruft Vorbereiten eines Datensatzes für einen Bewertungsauftrag, der Ihre eigenen Inferenzantwortdaten verwendet

Erstellen eines Prompt-Datensatzes für einen Auftrag zur Modellbewertung, das ein Modell als Richter verwendet

Wenn Sie einen Auftrag zur Modellbewertung erstellen möchten, der ein Modell als Richter verwendet, müssen Sie einen Prompt-Datensatz angeben. Dieser Prompt-Datensatz verwendet dasselbe Format wie Aufträge zur automatischen Modellbewertung und wird bei der Inferenz mit den Modellen verwendet, die Sie für die Bewertung auswählen.

Wenn Sie Modelle, die nicht von Amazon Bedrock stammen, anhand von Antworten bewerten möchten, die Sie bereits generiert haben, nehmen Sie sie wie unter Vorbereiten eines Datensatzes für einen Bewertungsauftrag, der Ihre eigenen Inferenzantwortdaten verwendet beschrieben in den Prompt-Datensatz auf. Wenn Sie eigene Inferenzantwortdaten angeben, überspringt Amazon Bedrock den Schritt zum Aufrufen des Modells und führt den Bewertungsauftrag mit den von Ihnen bereitgestellten Daten durch.

Benutzerdefinierte Prompt-Datensätze müssen in Amazon S3 gespeichert werden und das JSON-Zeilenformat sowie die .jsonl-Dateierweiterung verwenden. Jede Zeile muss ein gültiges JSON-Objekt sein. Ihr Datensatz kann bis zu 1 000 Prompts pro automatischem Bewertungsauftrag enthalten.

Für LLM-as-a-judge Evaluierungsjobs ist keine CORS-Konfiguration erforderlich. Für Evaluierungsaufträge, die von Menschen durchgeführt werden, ist CORS im S3-Ausgabe-Bucket erforderlich. Weitere Informationen hierzu finden Sie unter Erforderliche Cross Origin Resource Sharing (CORS)-Berechtigungen für S3-Buckets.

Vorbereiten eines Datensatzes für einen Bewertungsauftrag, bei dem Amazon Bedrock Modelle für Sie aufruft

Wenn Sie einen Bewertungsauftrag ausführen möchten, bei dem Amazon Bedrock die Modelle für Sie aufruft, erstellen Sie einen Prompt-Datensatz, der die folgenden Schlüssel-Wert-Paare enthält:

prompt – Der Prompt, auf den die Modelle antworten sollen
referenceResponse – (optional) Die Ground-Truth-Antwort
category: (Optional) Generiert Bewertungsergebnisse für die einzelnen Kategorien.

Anmerkung

Wenn Sie sich dafür entscheiden, eine Ground-Truth-Antwort (referenceResponse) bereitzustellen, verwendet Amazon Bedrock diesen Parameter bei der Berechnung der Metriken Vollständigkeit (Builtin.Completeness) und Korrektheit (Builtin.Correctness). Sie können diese Metriken auch verwenden, ohne eine Ground-Truth-Antwort anzugeben. Die Richter-Prompts für diese beiden Szenarien finden Sie im Abschnitt für das von Ihnen gewählte Judge-Modell unter Built-in Der metrische Evaluator fordert zu Bewertungsaufträgen mit dem Modell als Richter auf.

Im Folgenden finden Sie ein Beispiel für einen benutzerdefinierten Datensatz, der 6 Eingaben enthält und das JSON-Zeilenformat verwendet.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

Das folgende Beispiel ist ein einzelner Eintrag, der der Übersichtlichkeit halber erweitert wurde. In Ihrem tatsächlichen Prompt-Datensatz muss jede Zeile ein gültiges JSON-Objekt sein.


{
  "prompt": "What is high intensity interval training?",
  "category": "Fitness",
  "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Vorbereiten eines Datensatzes für einen Bewertungsauftrag, der Ihre eigenen Inferenzantwortdaten verwendet

Wenn Sie einen Bewertungsauftrag mit Antworten ausführen möchten, die Sie bereits generiert haben, erstellen Sie einen Prompt-Datensatz, der die folgenden Schlüssel-Wert-Paare enthält:

prompt – Der Prompt, den Ihre Modelle zur Generierung der Antworten verwendet haben
referenceResponse – (optional) Die Ground-Truth-Antwort
category: (Optional) Generiert Bewertungsergebnisse für die einzelnen Kategorien.
modelResponses – Die Antwort aus Ihrer eigenen Inferenz, die Amazon Bedrock auswerten soll. Bewertungsaufträge, bei denen ein Modell als Richter verwendet wird, unterstützen nur eine Modellantwort für jeden Prompt, die anhand der folgenden Schlüssel definiert wird:
- response – Eine Zeichenfolge, die die Antwort aus Ihrer Modellinferenz enthält
- modelIdentifier – Eine Zeichenfolge, die das Modell identifiziert, das die Antworten generiert hat. Sie dürfen nur einen eindeutigen modelIdentifier in einem Bewertungsauftrag verwenden. Jeder Prompt in Ihrem Datensatz muss diese ID nutzen.

Anmerkung

Im Folgenden finden Sie ein Beispiel für einen benutzerdefinierten Datensatz, der 6 Eingaben im JSON-Zeilenformat verwendet.


{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

Das folgende Beispiel ist ein einzelner Eintrag in einem Prompt-Datensatz, der der Übersichtlichkeit halber erweitert wurde.


{
    "prompt": "What is high intensity interval training?",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.",
    "category": "Fitness",
     "modelResponses": [
        {
            "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.",
            "modelIdentifier": "my_model"
        }
    ]
}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Aufträge zur Modellbewertung mit LLM-as-a-Judge

Bewertungsmetriken