View a markdown version of this page

Analyse de pages Web pour votre base de connaissances - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Analyse de pages Web pour votre base de connaissances

Le robot d’indexation fourni par Amazon Bedrock se connecte aux URL que vous avez sélectionnées pour les utiliser dans votre base de connaissances Amazon Bedrock et les analyse. Vous pouvez analyser les pages du site Web conformément à la portée ou aux limites que vous avez définies pour les URL sélectionnées. Vous pouvez explorer les pages d'un site Web à l'aide de la console AWS de gestion d'Amazon Bedrock ou de l'CreateDataSourceAPI (voir SDK compatibles avec Amazon Bedrock et). AWS CLI Actuellement, seul le magasin vectoriel Amazon OpenSearch Serverless peut être utilisé avec cette source de données.

Note

Le connecteur de source de données du robot d’indexation est en version préliminaire et peut faire l’objet de modifications.

Lorsque vous sélectionnez des sites Web à analyser, vous devez respecter la Politique d’AWS en matière d’utilisation acceptable et toutes les autres conditions d’Amazon. N’oubliez pas que vous ne devez utiliser le robot d’indexation que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à indexer et que vous devez respecter les configurations robots.txt.

Le robot d’indexation respecte robots.txt conformément à la norme RFC 9309

Le nombre d’éléments de contenu de page Web et le nombre de Mo par élément de contenu pouvant être analysés sont limités. Consultez Quotas pour les bases de connaissances.

Fonctionnalités prises en charge

Le robot d’indexation se connecte aux pages HTML et les analyse à partir de l’URL d’origine, en parcourant tous les liens enfants sous le même domaine principal et le même chemin d’accès. Si l’une des pages HTML fait référence à des documents pris en charge, le robot d’indexation récupérera ces documents, qu’ils se trouvent ou non sous le même domaine principal. Vous pouvez modifier le comportement d’indexation en modifiant la configuration d’indexation. Consultez Configuration de la connexion.

Les éléments suivants sont pris en charge pour vous permettre de :

  • sélectionner plusieurs URL sources à analyser et définir la portée des URL afin d’analyser uniquement l’hôte ou d’inclure également les sous-domaines ;

  • analyser les pages Web statiques qui font partie de vos URL sources ;

  • spécifier un suffixe agent utilisateur personnalisé pour définir les règles de votre propre robot ;

  • inclure ou exclure certaines URL qui correspondent à un modèle de filtre ;

  • respecter les directives standard de robots.txt telles que « Autoriser » et « Interdire » ;

  • limiter la portée des URL à analyser et exclure éventuellement les URL qui correspondent à un modèle de filtre ;

  • limiter le taux d’indexation des URL et le nombre maximum de pages à analyser ;

  • Afficher le statut des URL explorées sur Amazon CloudWatch

Conditions préalables

Pour utiliser le robot d’indexation, assurez-vous de :

  • vérifier que vous êtes autorisé à analyser vos URL sources ;

  • vérifier que le chemin d’accès à robots.txt correspondant à vos URL sources n’empêche pas l’analyse des URL. Le robot d’indexation respecte les normes de robots.txt : disallow par défaut si robots.txt n’est pas trouvé pour le site Web. Le robot d’indexation respecte robots.txt conformément à la norme RFC 9309. Vous pouvez également spécifier un suffixe d’en-tête agent utilisateur personnalisé pour définir les règles de votre propre robot. Pour plus d’informations, consultez Accès à l’URL du robot d’indexation dans les instructions Configuration de la connexion de cette page ;

  • Activez la livraison des CloudWatch journaux et suivez des exemples de journaux Web Crawler pour voir l'état de votre tâche d'ingestion de données pour l'ingestion de contenu Web, et si certaines URL ne peuvent pas être récupérées.

Note

Lorsque vous sélectionnez des sites Web à analyser, vous devez respecter la Politique d’AWS en matière d’utilisation acceptable et toutes les autres conditions d’Amazon. N’oubliez pas que vous ne devez utiliser le robot d’indexation que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à analyser.

Configuration de la connexion

Pour plus d'informations sur l'étendue de synchronisation pour l'analyse des URL, les inclusion/exclusion filtres, l'accès aux URL, la synchronisation incrémentielle et leur fonctionnement, sélectionnez ce qui suit :

Vous pouvez limiter la portée des URL à analyser en fonction de la relation spécifique entre l’URL de chaque page et les URL d’origine. Pour accélérer les analyses, vous pouvez limiter les URL à celles qui ont le même hôte et le même chemin d’URL initial que l’URL d’origine. Pour des analyses plus étendues, vous pouvez choisir d’analyser les URL avec le même hôte ou dans n’importe quel sous-domaine de l’URL d’origine.

Choisissez parmi les options décrites ci-dessous.

  • Par défaut : limitez l’indexation aux pages Web qui appartiennent au même hôte et dont le chemin URL initial est le même. Par exemple, si l'URL initiale est « https://aws.amazon.com/bedrock/ », seuls ce chemin et les pages Web qui s'étendent à partir de ce chemin seront explorés, comme « https://aws.amazon.com/bedrock/agents/ ». Les URL sœurs telles que « https://aws.amazon.com/ec2/ » ne sont pas explorées, par exemple.

  • Hôte uniquement : limitez l’indexation aux pages Web appartenant au même hôte. Par exemple, si l'URL initiale est https://aws.amazon.com/bedrock/ « », les pages Web contenant « https://aws.amazon.com » seront également explorées, comme « https://aws.amazon.com/ec2 ».

  • Sous-domaines : incluez l’indexation de toute page Web dont le domaine principal est celui de l’URL d’origine. Par exemple, si l'URL initiale est « https://aws.amazon.com/bedrock/ », toute page Web contenant « amazon.com » (sous-domaine) sera explorée, comme « ». https://www.amazon.com

Note

Assurez-vous de ne pas indexer un nombre potentiellement excessif de pages Web. Il n’est pas recommandé d’analyser des sites Web volumineux, tels que wikipedia.org, sans filtres ni limites de portée. L’indexation de sites Web volumineux prendra beaucoup de temps.

Les types de fichiers pris en charge sont analysés quelle que soit leur portée et s’il n’existe aucun modèle d’exclusion pour le type de fichier.

Le robot d’indexation prend en charge les sites Web statiques.

Vous pouvez également limiter le taux d’indexation des URL afin de contrôler la limitation de la vitesse d’indexation. Vous définissez le nombre maximal d’URL à analyser par hôte et par minute. En outre, vous pouvez également définir le nombre maximal (jusqu’à 25 000) de pages Web à analyser. Notez que si le nombre total de pages Web provenant de vos URL sources dépasse le maximum défini, votre sync/ingestion tâche de source de données échouera.

Vous pouvez inclure ou exclure certaines URL en fonction de votre portée. Les types de fichiers pris en charge sont analysés quelle que soit leur portée et s’il n’existe aucun modèle d’exclusion pour le type de fichier. Si vous spécifiez un filtre d’inclusion et un filtre d’exclusion et que les deux correspondent à une URL, le filtre d’exclusion est prioritaire et le contenu Web n’est pas analysé.

Important

Les filtres de modèles d’expression régulière problématiques qui entraînent un retour sur trace catastrophique et une vision prospective sont rejetés.

Exemple de modèle de filtre d’expression régulière pour exclure les URL se terminant par « .pdf » ou les pièces jointes de pages Web PDF : « .*\.pdf$ »

Exemple de modèle de filtre d'inclusion permettant d'explorer uniquement les URL situées sous un chemin spécifique : "https://www\ .example \. com/docs/. * »

Vous pouvez utiliser le robot d’indexation pour explorer les pages des sites Web que vous êtes autorisé à analyser.

Lorsque vous sélectionnez des sites Web à analyser, vous devez respecter la Politique d’AWS en matière d’utilisation acceptable et toutes les autres conditions d’Amazon. N’oubliez pas que vous ne devez utiliser le robot d’indexation que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à analyser.

Le robot d’indexation respecte robots.txt conformément à la norme RFC 9309

Vous pouvez spécifier à certains robots Agent utilisateur « d’autoriser » ou de « refuser » à l’agent utilisateur d’analyser vos URL sources. Vous pouvez modifier le fichier robots.txt de votre site Web pour contrôler la façon dont le robot d’indexation explore vos URL sources. Le robot recherchera d’abord les règles bedrockbot-UUID , puis les règles bedrockbot génériques dans le fichier robots.txt.

Vous pouvez également ajouter un User-Agent suffixe qui peut être utilisé pour autoriser votre robot d'exploration à figurer sur la liste des systèmes de protection contre les bots. Notez qu’il n’est pas nécessaire d’ajouter ce suffixe au fichier robots.txt pour s’assurer que personne ne puisse usurper la chaîne Agent utilisateur. Par exemple, pour autoriser le robot d’indexation à indexer tout le contenu du site Web et interdire l’indexation à tout autre robot, utilisez la directive suivante :

User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Chaque fois que le robot d’indexation s’exécute, il récupère le contenu de toutes les URL accessibles depuis les URL sources et qui correspondent à la portée et aux filtres. Pour les synchronisations incrémentielles après la première synchronisation de l’ensemble du contenu, Amazon Bedrock mettra à jour votre base de connaissances avec du contenu nouveau et modifié, et supprimera l’ancien contenu qui n’est plus présent. Parfois, le robot d’indexation peut ne pas être en mesure de savoir si le contenu a été supprimé du site Web ; dans ce cas, il préférera conserver l’ancien contenu de votre base de connaissances.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l'StartIngestionJobAPI ou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section de présentation de la source de données.

Important

Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à toute personne disposant des autorisations bedrock:Retrieve pour récupérer les données. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d’informations, consultez Autorisations de la base de connaissances.

Console
Connexion d’une source de données du robot d’indexation à votre base de connaissances
  1. Suivez les étapes décrites dans Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases et choisissez Robot d’indexation comme source de données.

  2. Indiquez un nom et une description facultative de la source de données.

  3. Indiquez les URL source des URL que vous souhaitez explorer. Vous pouvez ajouter jusqu’à 9 URL supplémentaires en sélectionnant Ajouter des URL sources. En fournissant une URL source, vous confirmez que vous êtes autorisé à analyser son domaine.

  4. Dans la section Paramètres avancés, vous pouvez éventuellement configurer les éléments suivants :

    • Clé KMS pour le stockage de données transitoires — Vous pouvez chiffrer les données transitoires tout en les convertissant en données intégrées à l'aide de la clé KMS par défaut Clé gérée par AWS ou de votre propre clé. Pour de plus amples informations, veuillez consulter Chiffrement du stockage des données transitoires lors de l’ingestion de données.

    • Politique de suppression des données : vous pouvez supprimer les vectorisations de votre source de données qui sont stockées dans le magasin de vecteurs par défaut, ou choisir de conserver les données du magasin de vecteurs.

  5. (Facultatif) Fournissez un suffixe Agent utilisateur pour bedrock-UUID- qui identifie le robot d’indexation ou le robot lorsqu’il accède à un serveur Web.

  6. Configurez les éléments suivants dans la section Portée de la synchronisation :

    1. Sélectionnez une gamme de domaines du site Web pour indexer vos URL sources :

      • Par défaut : limitez l’indexation aux pages Web qui appartiennent au même hôte et dont le chemin URL initial est le même. Par exemple, si l'URL initiale est « https://aws.amazon.com/bedrock/ », seuls ce chemin et les pages Web qui s'étendent à partir de ce chemin seront explorés, comme « https://aws.amazon.com/bedrock/agents/ ». Les URL sœurs telles que « https://aws.amazon.com/ec2/ » ne sont pas explorées, par exemple.

      • Hôte uniquement : limitez l’indexation aux pages Web appartenant au même hôte. Par exemple, si l'URL initiale est https://aws.amazon.com/bedrock/ « », les pages Web contenant « https://aws.amazon.com » seront également explorées, comme « https://aws.amazon.com/ec2 ».

      • Sous-domaines : incluez l’indexation de toute page Web dont le domaine principal est celui de l’URL d’origine. Par exemple, si l'URL initiale est « https://aws.amazon.com/bedrock/ », toute page Web contenant « amazon.com » (sous-domaine) sera explorée, comme « ». https://www.amazon.com

      Note

      Assurez-vous de ne pas indexer un nombre potentiellement excessif de pages Web. Il n’est pas recommandé d’analyser des sites Web volumineux, tels que wikipedia.org, sans filtres ni limites de portée. L’indexation de sites Web volumineux prendra beaucoup de temps.

      Les types de fichiers pris en charge sont analysés quelle que soit leur portée et s’il n’existe aucun modèle d’exclusion pour le type de fichier.

    2. Entrez la limitation maximale de la vitesse d’indexation de site Web. Ingérez entre 1 et 300 URL par hôte et par minute. Une vitesse d’indexation plus élevée augmente la charge, mais prend moins de temps.

    3. Entrez un nombre maximum de pages pour la synchronisation des sources de données compris entre 1 et 25 000. Limitez le nombre maximum de pages Web analysées à partir de vos URL sources. Si le nombre de pages Web dépasse ce nombre, la synchronisation des sources de données échouera et aucune page Web ne sera ingérée.

    4. Pour les modèles URL Regex (facultatif), vous pouvez ajouter des modèles d’inclusion ou modèles d’exclusion en saisissant le modèle d’expression régulière dans le champ. Vous pouvez ajouter jusqu’à 25 modèles d’inclusion et 25 modèles d’exclusion en sélectionnant Ajouter un nouveau modèle. Les modèles d’inclusion et d’exclusion sont analysés en fonction de votre portée. En cas de conflit, le modèle d’exclusion est prioritaire.

  7. (Facultatif) Dans la section Analyse et découpage du contenu, vous pouvez personnaliser le mode d’analyse et de découpage de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :

  8. Continuez en choisissant un modèle de vectorisation et un magasin de vecteurs. Pour voir les étapes restantes, revenez à Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases et poursuivez après avoir connecté votre source de données.

API

Pour connecter une base de connaissances à une source de données en utilisant WebCrawler, envoyez une CreateDataSourcedemande avec un point de terminaison Agents for Amazon Bedrock Build-time, spécifiez WEB dans le type champ du et incluez le DataSourceConfigurationchamp. webConfiguration Voici un exemple de configuration du robot d’indexation pour votre base de connaissances Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50, "maxPages": 100 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ], "userAgent": "CustomUserAgent" } }, "type": "WEB" }

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l’ingestion en incluant le champ facultatif vectorIngestionConfiguration, consultez Personnalisation de l’ingestion pour une source de données.