Présentation de Fonctionnement de la boucle d'optimisation Ce que vous recevez Cost Durée prévue

Comment fonctionne l’optimisation d’invite avancée

Présentation de

L'optimisation avancée des commandes (AdvPO) vous permet d'optimiser vos instructions pour n'importe quel modèle sur Bedrock tout en comparant vos instructions d'origine aux instructions optimisées pour un maximum de 5 modèles simultanément. Vous pouvez l'utiliser si vous migrez vers un nouveau modèle ou si vous souhaitez simplement améliorer les performances de votre modèle actuel. Si vous changez de modèle, sélectionnez votre modèle actuel comme référence et jusqu'à 4 autres modèles. Si vous ne changez pas de modèle, sélectionnez simplement votre modèle actuel pour voir avant et après l'optimisation. L'optimiseur prend vos modèles d'invite (jusqu'à 10 par tâche), des exemples de valeurs variables saisies par l'utilisateur (échantillons d'évaluation, jusqu'à 100 par modèle d'invite), des réponses véridiques de base et une métrique d'évaluation pour guider l'optimisation. Il est même compatible avec les entrées multimodales telles que jpeg, png ou PDF. Vous pouvez fournir une LLM-as-a-judge rubrique, une fonction Lambda ou de courts critères de pilotage en langage naturel. L'évaluation oriente l'optimisation rapide. L'optimiseur fonctionne dans une boucle de rétroaction basée sur l'évaluation afin d'optimiser les réponses rapides et résultantes du modèle, et produit les modèles d'invite originaux et finaux avec les scores d'évaluation, les estimations de coûts et le temps de latence.

Si vous souhaitez migrer les instructions d'un modèle autre que Bedrock tout en souhaitant effectuer des comparaisons côte à côte, vous pouvez notamment exécuter une inférence sur votre modèle autre que Bedrock séparément, puis appliquer un pour évaluer ces résultats. Evaluateur Lambda personnalisé Créez ensuite une tâche d'optimisation rapide avancée avec le même évaluateur de fonctions Lambda pour vos modèles cibles Bedrock. Ainsi, vous pouvez comparer directement votre ancien modèle à votre nouveau modèle avant et après une optimisation rapide.

Fonctionnement de la boucle d'optimisation

Vos échantillons d'évaluation sont injectés dans les variables d'espace réservé de votre modèle d'invite, puis envoyés pour inférence avec vos modèles cibles. Les entrées multimodales (images et PDF) sont envoyées dans la charge utile au modèle en même temps que l'invite, mais elles ne doivent pas être référencées dans une variable entre crochets doubles. {{placeholder}} Les réponses sont notées en fonction de votre méthode d'évaluation. Le service analyse les résultats de l'évaluation et réécrit automatiquement vos instructions, puis les renvoie aux modèles. Cette boucle de rétroaction se répète et se termine conformément à des paramètres d'optimisation internes propriétaires.

Il est important que vous définissiez votre méthode et vos critères d'évaluation aussi précisément que possible, car l'évaluation oriente l'optimisation rapide.

Le jeu de données et le metric/lambda code déterminent la qualité de l'optimisation. Le système utilise votre ensemble de données pour tester les candidats et lit votre code métrique (texte source et chaînes de documentation) pour comprendre ce que signifie « bien » et pour diagnostiquer les défaillances des invites.

Ce que vous recevez

À la fin de la tâche d'optimisation, vous recevez :

Vos modèles de messages avant et après l'optimisation
Scores d'évaluation pour chaque échantillon d'évaluation
Latence (délai jusqu'au premier jeton, ou TTFT) pour chaque modèle
Estimation des coûts pour chaque modèle

Cost

Toutes les invocations d'inférence et de fonction Lambda sont exécutées dans votre compte. AWS Les opérations Lambda sont facturées selon les tarifs publics de Lambda. Les prix d'inférence (y compris les LLM-as-a-judge évaluations) sont facturés conformément à la tarification publique de Bedrock pour l'inférence à la demande. Il n'y a pas de frais de service d'optimisation rapide avancée distincts au-delà des coûts d'inférence. Le LLM-as-a-judge modèle par défaut actuel est Anthropic Claude Sonnet 4.6, sauf si vous en sélectionnez un autre pour votre invite LLMJ personnalisée.

Consultez la page de tarification publique de Bedrock sous Optimisation rapide, puis Optimisation rapide avancée pour une méthode de calcul permettant d'estimer le coût d'exécution d'une optimisation.

Durée prévue

Pour une seule invite contenant seulement quelques échantillons d'évaluation, la tâche peut s'exécuter pendant 15 à 20 minutes. Pour de nombreuses demandes, chacune contenant un grand nombre d'échantillons d'évaluation, la tâche pouvait s'exécuter pendant plus d'une heure, voire plusieurs heures. En effet, chaque modèle d'invite passe par plusieurs cycles de boucles d'inférence, d'évaluation et de réécriture en fonction de chaque exemple d'enregistrement d'évaluation que vous fournissez.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Optimisation et migration des instructions

Conditions préalables et autorisations