Erstellen eines Prompt-Datensatzes für einen Auftrag zur Modellbewertung, das ein Modell als Richter verwendet - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen eines Prompt-Datensatzes für einen Auftrag zur Modellbewertung, das ein Modell als Richter verwendet

Wenn Sie einen Auftrag zur Modellbewertung erstellen möchten, der ein Modell als Richter verwendet, müssen Sie einen Prompt-Datensatz angeben. Dieser Prompt-Datensatz verwendet dasselbe Format wie Aufträge zur automatischen Modellbewertung und wird bei der Inferenz mit den Modellen verwendet, die Sie für die Bewertung auswählen.

Wenn Sie Modelle, die nicht von Amazon Bedrock stammen, anhand von Antworten bewerten möchten, die Sie bereits generiert haben, nehmen Sie sie wie unter Vorbereiten eines Datensatzes für einen Bewertungsauftrag, der Ihre eigenen Inferenzantwortdaten verwendet beschrieben in den Prompt-Datensatz auf. Wenn Sie eigene Inferenzantwortdaten angeben, überspringt Amazon Bedrock den Schritt zum Aufrufen des Modells und führt den Bewertungsauftrag mit den von Ihnen bereitgestellten Daten durch.

Benutzerdefinierte Prompt-Datensätze müssen in Amazon S3 gespeichert werden und das JSON-Zeilenformat sowie die .jsonl-Dateierweiterung verwenden. Jede Zeile muss ein gültiges JSON-Objekt sein. Ihr Datensatz kann bis zu 1 000 Prompts pro automatischem Bewertungsauftrag enthalten.

Für Aufträge, die mit der Konsole erstellt wurden, müssen Sie die Cross Origin Resource Sharing (CORS)-Konfiguration für den S3-Bucket aktualisieren. Verwenden Sie Erforderliche Cross Origin Resource Sharing (CORS)-Berechtigungen für S3-Buckets, um mehr über die für diese Rolle erforderlichen CORS-Berechtigungen zu erfahren.

Vorbereiten eines Datensatzes für einen Bewertungsauftrag, bei dem Amazon Bedrock Modelle für Sie aufruft

Wenn Sie einen Bewertungsauftrag ausführen möchten, bei dem Amazon Bedrock die Modelle für Sie aufruft, erstellen Sie einen Prompt-Datensatz, der die folgenden Schlüssel-Wert-Paare enthält:

  • prompt – Der Prompt, auf den die Modelle antworten sollen

  • referenceResponse – (optional) Die Ground-Truth-Antwort

  • category: (Optional) Generiert Bewertungsergebnisse für die einzelnen Kategorien.

Anmerkung

Wenn Sie sich dafür entscheiden, eine Ground-Truth-Antwort (referenceResponse) bereitzustellen, verwendet Amazon Bedrock diesen Parameter bei der Berechnung der Metriken Vollständigkeit (Builtin.Completeness) und Korrektheit (Builtin.Correctness). Sie können diese Metriken auch verwenden, ohne eine Ground-Truth-Antwort anzugeben. Die Richter-Prompts für diese beiden Szenarien finden Sie im Abschnitt für das von Ihnen gewählte Judge-Modell unter Integrierte Prompts zur Bewertung von Metriken für Bewertungsaufträge nach dem Modell als Richter.

Im Folgenden finden Sie ein Beispiel für einen benutzerdefinierten Datensatz, der 6 Eingaben enthält und das JSON-Zeilenformat verwendet.

{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

Das folgende Beispiel ist ein einzelner Eintrag, der der Übersichtlichkeit halber erweitert wurde. In Ihrem tatsächlichen Prompt-Datensatz muss jede Zeile ein gültiges JSON-Objekt sein.

{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }

Vorbereiten eines Datensatzes für einen Bewertungsauftrag, der Ihre eigenen Inferenzantwortdaten verwendet

Wenn Sie einen Bewertungsauftrag mit Antworten ausführen möchten, die Sie bereits generiert haben, erstellen Sie einen Prompt-Datensatz, der die folgenden Schlüssel-Wert-Paare enthält:

  • prompt – Der Prompt, den Ihre Modelle zur Generierung der Antworten verwendet haben

  • referenceResponse – (optional) Die Ground-Truth-Antwort

  • category: (Optional) Generiert Bewertungsergebnisse für die einzelnen Kategorien.

  • modelResponses – Die Antwort aus Ihrer eigenen Inferenz, die Amazon Bedrock auswerten soll. Bewertungsaufträge, bei denen ein Modell als Richter verwendet wird, unterstützen nur eine Modellantwort für jeden Prompt, die anhand der folgenden Schlüssel definiert wird:

    • response – Eine Zeichenfolge, die die Antwort aus Ihrer Modellinferenz enthält

    • modelIdentifier – Eine Zeichenfolge, die das Modell identifiziert, das die Antworten generiert hat. Sie dürfen nur einen eindeutigen modelIdentifier in einem Bewertungsauftrag verwenden. Jeder Prompt in Ihrem Datensatz muss diese ID nutzen.

Anmerkung

Wenn Sie sich dafür entscheiden, eine Ground-Truth-Antwort (referenceResponse) bereitzustellen, verwendet Amazon Bedrock diesen Parameter bei der Berechnung der Metriken Vollständigkeit (Builtin.Completeness) und Korrektheit (Builtin.Correctness). Sie können diese Metriken auch verwenden, ohne eine Ground-Truth-Antwort anzugeben. Die Richter-Prompts für diese beiden Szenarien finden Sie im Abschnitt für das von Ihnen gewählte Judge-Modell unter Integrierte Prompts zur Bewertung von Metriken für Bewertungsaufträge nach dem Modell als Richter.

Im Folgenden finden Sie ein Beispiel für einen benutzerdefinierten Datensatz, der 6 Eingaben im JSON-Zeilenformat verwendet.

{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

Das folgende Beispiel ist ein einzelner Eintrag in einem Prompt-Datensatz, der der Übersichtlichkeit halber erweitert wurde.

{ "prompt": "What is high intensity interval training?", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.", "category": "Fitness", "modelResponses": [ { "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.", "modelIdentifier": "my_model" } ] }