

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Prämienfunktionen für Amazon Nova-Modelle einrichten
<a name="reward-functions"></a>

Belohnungsfunktionen bewerten die Antwortqualität und liefern Feedbacksignale für das Modelltraining. Sie können Prämienfunktionen einrichten, indem Sie benutzerdefinierte Lambda-Funktionen oder von Amazon Bedrock gehostete Foundation-Modelle als Juroren verwenden. Es stehen Vorlagen mit Anleitung zur Verfügung, um die Erstellung von Prämienfunktionen für allgemeine Aufgaben wie die Befolgung von Anweisungen und die Validierung von Formaten zu vereinfachen. Wählen Sie den Ansatz, der Ihren Aufgabenanforderungen entspricht.

## Verstärkendes Lernen durch verifizierbare Prämien (RLVR)
<a name="rft-rlvr"></a>

RLVR optimiert Modelle für objektive Aufgaben wie Codegenerierung oder mathematisches Denken mithilfe überprüfbarer regelbasierter Korrektoren oder Vorlagen. ready-to-use

Sie haben zwei Optionen für RLVR (Benutzerdefinierter Code):

### Option 1: Verwenden Sie von der Konsole bereitgestellte Vorlagen
<a name="w2aac15c25c17c17b5b7b1"></a>

Die Amazon Bedrock-Konsole bietet Beispielvorlagen für Grader-Lambda-Funktionen:
+ Mathematisches Denken mit Überprüfung der Grundwahrheit
+ Formatvalidierung und Überprüfung von Einschränkungen
+ Generische Lambda-Vorlage für Grader mit Boilerplate-Code

Folgen Sie den Anweisungen in der bereitgestellten Vorlage auf der Seite **RFT-Job erstellen** in der [Amazon Bedrock-Konsole](https://console.aws.amazon.com/bedrock).

### Option 2: Bringen Sie Ihre eigene Lambda-Funktion mit
<a name="w2aac15c25c17c17b5b7b3"></a>

Erstellen Sie benutzerdefinierte Belohnungsfunktionen mit Ihrem eigenen Lambda-ARN für komplexe Logik, externe APIs, mehrstufige Berechnungen oder die Kombination mehrerer Bewertungskriterien.

**Anmerkung**  
Wenn Sie Ihre eigene Lambda-Funktion mitbringen, beachten Sie Folgendes:  
Erhöhen Sie das Lambda-Timeout für komplexe Auswertungen von standardmäßig 3 Sekunden auf maximal 15 Minuten.
Die Lambda-Ausführungsrolle benötigt Berechtigungen zum Aufrufen von Modellen, wie unter beschrieben. [Zugriff und Sicherheit für Amazon Nova-Modelle](rft-access-security.md)

## Verstärktes Lernen durch KI-Feedback (RLAIF)
<a name="rft-rlaif"></a>

RLAIF optimiert Modelle für subjektive Aufgaben wie die Befolgung von Anweisungen oder Chatbot-Interaktionen mithilfe von KI-basierten Richtern mit Vorlagen. ready-to-use

**Für RLAIF (Model as Judge):**
+ Wählen Sie ein von Amazon Bedrock gehostetes Basismodell als Judge aus
+ Konfigurieren Sie die Anweisungen für die Evaluierung
+ Definieren Sie Bewertungskriterien und Bewertungsrichtlinien

Verfügbare Vorlagen für LLM-as-Judge Eingabeaufforderungen in der Amazon Bedrock-Konsole:
+ Folgender Unterricht (Schulung im Judge-Modell)
+ Zusammenfassung (Dialoge mit mehreren Turns)
+ Bewertung der Argumentation (CoT für Spezialgebiete)
+ Treue zur RAG (kontextbezogene Fragen und Antworten)

**Anmerkung**  
Die Option **Model as Judge** der Konsole wandelt Ihre Konfiguration während des Trainings automatisch in eine Lambda-Funktion um.

## Einzelheiten zur Implementierung der Lambda-Funktion
<a name="rft-lambda-implementation"></a>

Bei der Implementierung benutzerdefinierter Lambda-Belohnungsfunktionen muss Ihre Funktion Daten im folgenden Format akzeptieren und zurückgeben.

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**Richtlinien für das Design**
+ **Antworten einordnen** — Geben Sie der besten Antwort eine deutlich höhere Punktzahl
+ **Verwenden Sie konsistente Prüfungen** — Beurteilen Sie die Erledigung der Aufgaben, die Einhaltung des Formats, die Sicherheit und die angemessene Dauer
+ **Beibehaltung einer stabilen Skalierung** — Sorgen Sie dafür, dass die Ergebnisse normalisiert werden und nicht ausgenutzt werden können