Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris. # Melihat dan menafsirkan hasil ## Lokasi keluaran Setelah pekerjaan selesai, hasil ditulis ke jalur S3 keluaran Anda: `{{output-s3-uri}}/{{job-id}}/advanced_prompt_optimization_results.jsonl` ID pekerjaan adalah segmen terakhir dari pekerjaan ARN. ## Halaman hasil konsol **Awas** Jika Anda memindahkan file hasil dari lokasi output S3 setelah pekerjaan selesai, halaman hasil konsol tidak akan dirender. ## Format output File output adalah JSONL dengan hasil per-template. Setiap baris berisi: + `promptTemplateId`: berkorelasi dengan TemplateId masukan Anda + `promptOptimizationResults`: array dengan satu entri per model target, masing-masing berisi: + `modelId`: model target + `status`: status pengoptimalan untuk model ini + `optimizedPromptTemplate`: template prompt yang ditulis ulang + Skor evaluasi per sampel + Latensi (waktu ke token pertama, atau TTFT) + Perkiraan biaya ## Membaca hasil secara terprogram ``` import boto3 import json s3 = boto3.client('s3', region_name='us-west-2') # Job ID is the last segment of the job ARN job_id = job_arn.split('/')[-1] output_key = f'output/{job_id}/advanced_prompt_optimization_results.jsonl' response = s3.get_object(Bucket='my-bucket', Key=output_key) content = response['Body'].read().decode('utf-8') for line in content.strip().split('\n'): result = json.loads(line) print(f"Template: {result['promptTemplateId']}") for opt in result.get('promptOptimizationResults', []): print(f" Model: {opt['modelId']}") print(f" Status: {opt['status']}") print(f" Optimized: {opt['optimizedPromptTemplate'][:100]}...") ``` ## Menafsirkan skor Skor dinormalisasi; lebih tinggi lebih baik. Layanan ini menormalkan semua skor evaluasi terlepas dari skala penilaian asli yang Anda tentukan dalam metode evaluasi Anda. Anda selalu dapat melihat LLM-as-a-judge output mentah di bucket S3 dan di halaman hasil konsol di tab hasil terperinci. Karena sifat menggabungkan permintaan LLMJ kustom dengan prompt default yang disediakan layanan, skor numerik mungkin tidak sama persis dengan langkah-langkah diskrit dalam rubrik LLMJ kustom Anda. Jika Anda menginginkan hasil evaluasi biner atau pencocokan yang tepat, mungkin lebih baik menggunakan evaluator Lambda.