View a markdown version of this page

マネージドナレッジベースを作成する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

マネージドナレッジベースを作成する

マネージドナレッジベースを作成すると、Amazon Bedrock AgentCore がストレージ、インデックス作成、取得インフラストラクチャを管理します。デフォルトでは、サービスマネージド埋め込みモデルが使用され、モデルの選択や設定は必要ありません。オプションで、独自の Bedrock 埋め込みモデルを提供できます。オプションで、マネージドベクトルストアの暗号化用の KMS キーを指定することもできます。

ナレッジベースを作成したら、データソースに接続して取り込みを開始します。データソースの接続の詳細については、「データソースの接続」を参照してください。データソースを同期するには、 StartIngestionJob API を使用します。詳細については、「Amazon Bedrock ナレッジベースとデータを同期する」を参照してください。

マネージドナレッジベースを作成する方法については、任意の方法のタブを選択してください。

Console
マネージドナレッジベースを作成するには
  1. にサインイン AWS マネジメントコンソール し、Amazon Bedrock AgentCore > 組み込みツール > ナレッジベースに移動します。

  2. マネージドナレッジベースの作成を選択します。

  3. (オプション) ナレッジベースの詳細セクションの追加設定を展開して、以下を設定します。

    • 説明を追加します。

    • 埋め込みモデルタイプを選択します。

      • マネージド型 (デフォルト): サービスマネージド型埋め込みモデルが使用されます。モデルの選択や設定は必要ありません。

      • カスタム: Bedrock 埋め込みモデルを選択します。モデルを選択してモデルセレクタを開き、使用可能なプロバイダー (Amazon、Cohere) とモデルを表示します。

    • IAM アクセス許可を設定する: 新しいサービスロールの作成と使用 (推奨) を選択するか、既存のロールを選択します。

    • マネージドベクトルストアの AWS KMS 暗号化を設定します (デフォルトではAWS マネージドキー、またはカスタム KMS キーを選択します)。

  4. データソースで、データソース名を指定します。

  5. ドロップダウンからデータソースタイプを選択します: Amazon S3、Confluence、Custom、Google Drive、OneDrive、SharePoint、または Web Crawler。

  6. 選択したデータソースタイプのデータソース接続設定を構成します。

  7. (オプション) コンテンツの解析とチャンキングを展開して、以下を設定します。

    • 解析戦略は、デフォルトでマネージドパーサーに設定されます。

    • ドロップダウンからテキストチャンキング戦略を選択します。

      • デフォルトのチャンキング (推奨): テキストを固定サイズのチャンクに分割します。

      • 固定サイズのチャンキング: テキストを設定したおおよそのトークンサイズに分割します。

      • チャンキングなし: 事前処理されたドキュメントまたは事前分割されたドキュメントの場合。

  8. (オプション) 詳細設定を展開して、詳細インデックス作成を設定します。コンテンツのインデックス作成では、デフォルトは一般的なドキュメントのテキストベースのコンテンツをインデックス化します。追加のモダリティの高度なインデックス作成を有効にします。

    • ドキュメント内のビジュアルコンテンツ: .pdf、.docx、.ppt、.pptx ファイルの埋め込みビジュアルを処理します。

    • オーディオファイル: .mp3、.wav、.m4a、.flac、.ogg ファイルを処理します。

    • 動画ファイル: .mp4、.mov、.m4v ファイルを処理します。

    必要に応じて、最大ファイルサイズ (MB) を設定し、ドキュメント削除保護を設定します。

  9. (オプション) CloudWatch Logs、Amazon S3、Firehose などの送信先にナレッジベースの取り込みログを送信するようにログ配信を設定します。

  10. ナレッジベースの作成 を選択します。

  11. ナレッジベースとデータソースが作成されるまで待ちます (2~5 分)。カスタマーマネージドキーを使用してマネージドナレッジベースを作成すると、作成に時間がかかる場合があります。

API

以下は、マネージドナレッジベースを作成し、 API と AWS CLI または Python などのサポートされている SDK を使用してデータソースを設定する例です。CreateKnowledgeBase を呼び出した後、CreateDataSource を呼び出して、dataSourceConfiguration の接続情報を使用してデータソースを作成します。

オプションの vectorIngestionConfiguration フィールドを含めることで取り込みに適用できるカスタマイズの詳細については、「データソースの取り込みをカスタマイズする」を参照してください。

AWS Command Line Interface

ステップ 1: ナレッジベースを作成する

マネージド埋め込みモデルの場合 (デフォルト):

aws bedrock-agent create-knowledge-base \ --name "my-managed-kb" \ --role-arn "arn:aws:iam::123456789012:role/BedrockKBRole" \ --description "My managed knowledge base" \ --knowledge-base-configuration file://kb-config.json kb-config.json { "type": "MANAGED", "managedKnowledgeBaseConfiguration": { "embeddingModelType": "MANAGED" } }

カスタム埋め込みモデル (お客様が用意した Bedrock モデル):

aws bedrock-agent create-knowledge-base \ --name "my-custom-embed-kb" \ --role-arn "arn:aws:iam::123456789012:role/BedrockKBRole" \ --description "My managed knowledge base with custom embedding" \ --knowledge-base-configuration file://kb-config.json kb-config.json { "type": "MANAGED", "managedKnowledgeBaseConfiguration": { "embeddingModelType": "CUSTOM", "embeddingModelArn": "arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-embed-text-v2:0", "embeddingModelConfiguration": { "bedrockEmbeddingModelConfiguration": { "dimensions": 1024 } } } }
注記

embeddingModelType を省略すると、デフォルトで になりますMANAGED。を使用する場合はMANAGEDembeddingModelArnまたは を指定しないでくださいembeddingModelConfiguration。を使用する場合CUSTOM、両方のフィールドは必須です。

ステップ 2: データソースを作成する

aws bedrock-agent create-data-source \ --name "S3-connector" \ --description "S3 data source connector for Amazon Bedrock to use content in S3" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://bedrock-s3-managed-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"parsingConfiguration":{"parsingStrategy":"SMART_PARSING"}}' bedrock-s3-managed-connector-configuration.json { "type": "MANAGED_KNOWLEDGE_BASE_CONNECTOR", "managedKnowledgeBaseConnectorConfiguration": { "mediaExtractionConfiguration": { "imageExtractionConfiguration": { "imageExtractionStatus": "ENABLED" } }, "connectorParameters": { "type": "S3", "version": "1", "connectionConfiguration": { "bucketName": "your-test-s3-bucket", "bucketOwnerAccountId": "123456789012" }, "deletionProtectionConfiguration": { "enableDeletionProtection": false } } } }

モデルオプションの埋め込み

マネージドナレッジベースは、次の 2 つの埋め込みモデルタイプをサポートしています。

  • マネージド埋め込み (デフォルト) – サービスマネージド埋め込みモデルが自動的に使用されます。埋め込みにモデルの選択、ディメンションの設定、Bedrock サービスの制限の管理を行う必要はありません。このサービスは、モデルの選択、ホスティング、スケーリングを透過的に処理します。

  • カスタム埋め込み – 独自の Bedrock 埋め込みモデル ARN を指定します。カスタム埋め込みモデルを使用する場合は、モデルディメンション (1024) と float32 埋め込みデータ型を指定する必要があります。次の Bedrock 埋め込みモデルがサポートされています。

    • Amazon Titan Text Embeddings V2

    • Cohere Embed English v3

    • Cohere Embed 多言語 v3

    • Cohere Embed v4

    • Amazon Nova マルチモーダル埋め込み

注記

ナレッジベースの作成後に埋め込みモデルタイプを変更することはできません。マネージド埋め込みとカスタム埋め込みを切り替えるには、新しいナレッジベースを作成する必要があります。

重要

カスタム埋め込みモデルを使用してナレッジベースを作成する場合、そのナレッジベースではマネージド型リランキングャーを使用できません。マネージドリランキングャーを使用するには、デフォルトのマネージド埋め込みモデルを使用してナレッジベースを作成します。

サポートされているデータソースコネクタ

マネージドナレッジベースは、次のデータソースコネクタをサポートしています。

  • Amazon S3

  • Confluence

  • Microsoft SharePoint

  • Google ドライブ

  • Microsoft OneDrive

  • Web Crawler

  • カスタムコネクタ

データソースコネクタの設定については、「データソースの接続」を参照してください。