View a markdown version of this page

コンテンツ分野 5: テスト、検証、トラブルシューティング - AWS Certified Generative AI Developer - Professional

コンテンツ分野 5: テスト、検証、トラブルシューティング

タスク 5.1: GenAI の評価システムを実装する。

  • スキル 5.1.1: 従来の ML 評価アプローチを超えて FM 出力の品質と有効性を評価する包括的な評価フレームワークを開発する (関連性、事実に関する正解率、一貫性、流暢さのメトリクスの使用など)。

  • スキル 5.1.2: 最適な構成を特定するための体系的なモデル評価システムを作成する (Amazon Bedrock モデル評価、FM の A/B テストとカナリアテスト、マルチモデル評価、トークンの効率、レイテンシーと品質の比率、ビジネス成果を測定するためのコストパフォーマンス分析の使用など)。

  • スキル 5.1.3: ユーザーエクスペリエンスに基づいて FM パフォーマンスを継続的に改善するためのユーザー中心の評価メカニズムを開発する (フィードバックインターフェイス、モデル出力の評価システム、応答品質を評価するアノテーションワークフローの使用など)。

  • スキル 5.1.4: FM の一貫したパフォーマンス基準を維持するための体系的な品質保証プロセスを作成する (継続的評価のワークフロー、モデル出力の回帰テスト、デプロイの自動品質ゲートの使用など)。

  • スキル 5.1.5: FM 出力をさまざまな視点から徹底的に評価する包括的な評価システムを開発する (RAG 評価、LLM-as-a-judge 手法による自動品質評価、人間のフィードバック収集インターフェイスの使用など)。

  • スキル 5.1.6: FM 拡張のための情報検索コンポーネントを評価および最適化するための検索品質テストを実装する (関連性スコアリング、コンテキストマッチング検証、検索レイテンシー測定の使用など)。

  • スキル 5.1.7: エージェントがタスクを正確かつ効率的に実行できるようにするためのエージェントパフォーマンスフレームワークを開発する (タスク完了率の測定、ツールの使用効率の評価、Amazon Bedrock エージェントの評価、マルチステップワークフローにおける推論品質評価の使用など)。

  • スキル 5.1.8: FM 実装のパフォーマンスメトリクスとインサイトをステークホルダーに効果的に伝えるための包括的なレポートシステムを作成する (視覚化ツール、自動レポートメカニズム、モデル比較の視覚化の使用など)。

  • スキル 5.1.9: FM 更新中に信頼性を維持するためのデプロイ検証システムを作成する (合成ユーザーワークフロー、ハルシネーション率とセマンティックドリフトに関する AI 固有の出力の検証、応答の一貫性を確保するための自動品質チェックの使用など)。

タスク 5.2: GenAI アプリケーションをトラブルシューティングする。

  • スキル 5.2.1: 必要な情報が FM インタラクションで完全に処理されるようにするためにコンテンツ処理の問題を解決する (コンテキストウィンドウのオーバーフロー診断、動的チャンク戦略、プロンプト設計の最適化、切り捨て関連のエラー分析の使用など)。

  • スキル 5.2.2: FM 統合の問題を診断して解決し、GenAI サービスに固有の API 統合の問題を特定して修正する (エラーログ記録、リクエスト検証、応答分析の使用など)。

  • スキル 5.2.3: 基本的なプロンプト調整を超えて FM 応答の品質と一貫性を向上させるために、プロンプトエンジニアリングの問題をトラブルシューティングする (プロンプトテストフレームワーク、バージョン比較、体系的な改良の使用など)。

  • スキル 5.2.4: FM 拡張のための情報検索の有効性に影響する問題を特定して解決するために、検索システムの問題をトラブルシューティングする (モデル応答関連性分析、埋め込み品質診断、ドリフトモニタリング、ベクトル化問題の解決、チャンク化と前処理の修復、ベクトル検索パフォーマンスの最適化の使用など)。

  • スキル 5.2.5: FM インタラクションのパフォーマンスを継続的に改善するために、プロンプトメンテナンスの問題をトラブルシューティングする (テンプレートテストと CloudWatch Logs を使用したプロンプト混乱の診断、X-Ray を使用したプロンプトオブザーバビリティパイプラインの実装、スキーマ検証を使用したフォーマットの不一致の検出、体系的なプロンプト改良ワークフローの使用など)。