Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Intégration à Web Crawler
Grâce à l'intégration de Web Crawler dans Amazon Quick, vous pouvez créer des bases de connaissances à partir du contenu d'un site Web en explorant et en indexant des pages Web. Cette intégration prend en charge les capacités d'ingestion de données avec différentes options d'authentification.
Fonctionnalités du Web Crawler
Les utilisateurs de Web Crawler peuvent poser des questions sur le contenu stocké sur les sites Web et les pages Web. Par exemple, les utilisateurs peuvent rechercher des sites de documentation, des bases de connaissances ou des informations spécifiques sur plusieurs pages Web.
L'intégration aide les utilisateurs à accéder au contenu Web et à le comprendre indépendamment de son emplacement ou de son type. Il fournit des informations contextuelles telles que les dates de publication, l'historique des modifications et la propriété des pages pour une découverte plus efficace des informations.
Note
L'intégration de Web Crawler prend uniquement en charge l'ingestion de données. Il ne fournit pas de fonctionnalités d'action pour gérer des sites Web ou des services Web.
Conditions préalables
Avant de configurer l'intégration de Web Crawler, assurez-vous de disposer des éléments suivants :
-
Site Web URLs à explorer et à indexer.
-
Un abonnement Amazon Quick Enterprise.
-
Un site Web qui n'est pas protégé par un pare-feu et qui ne nécessite pas de plug-in de navigateur spécial pour se connecter.
Préparer l'accès au site Web et l'authentification
Avant de configurer l'intégration dans Amazon Quick, préparez les informations d'accès à votre site Web. L'intégration de Web Crawler prend en charge différentes méthodes d'authentification :
- Aucune authentification
-
À utiliser pour explorer des sites Web qui ne nécessitent pas d'authentification.
- Authentification basique
-
Authentification HTTP de base standard pour les sites Web sécurisés. Lorsque vous visitez un site protégé, votre navigateur affiche une boîte de dialogue qui vous demande vos informations d'identification.
Informations d'identification requises :
-
URL de la page de connexion : URL de la page de connexion
Nom d'utilisateur - Nom d'utilisateur d'authentification de base
Mot de passe - Mot de passe d'authentification de base
-
- Authentification par formulaire
-
Pour les sites Web qui utilisent des pages de connexion basées sur des formulaires HTML. Vous spécifiez XPath des expressions pour identifier les champs du formulaire sur la page de connexion.
XPath (XML Path Language) est un langage de requête permettant de naviguer dans les éléments d'un document HTML ou XML. Pour rechercher un XPath élément de page Web, cliquez avec le bouton droit sur l'élément dans votre navigateur et sélectionnez Inspecter. Dans les outils de développement, cliquez avec le bouton droit sur le code HTML surligné, choisissez Copier, puis Copier XPath.
Informations requises :
URL de la page de connexion : URL du formulaire de connexion (par exemple,
https://example.com/login)Nom d'utilisateur - Nom d'utilisateur de connexion
Mot de passe - Mot de passe de connexion
Champ de nom d'utilisateur XPath : XPath vers le champ de saisie du nom d'utilisateur (par exemple,
//input[@id='username'])-
Bouton du nom d'utilisateur XPath (facultatif) - XPath vers le champ du bouton du nom d'utilisateur (par exemple,
//input[@id='username_button']) Champ de mot XPath de passe XPath : vers le champ de saisie du mot de passe (par exemple,
//input[@id='password'])Bouton de mot XPath de passe XPath : vers le bouton de mot de passe (par exemple,
//button[@type='password'])
- Authentification SAML
-
Pour les sites Web qui utilisent l'authentification unique (SSO) basée sur SAML.
L'authentification SAML (Security Assertion Markup Language) est une norme d'identité fédérée qui active le SSO. Les utilisateurs s'authentifient via un fournisseur d'identité centralisé (tel que Microsoft Azure AD ou Okta) au lieu de saisir leurs informations d'identification directement dans chaque application. Le fournisseur d'identité renvoie un jeton sécurisé à l'application pour accorder l'accès.
Informations requises :
URL de la page de connexion : URL de la page de connexion SAML
Nom d'utilisateur - nom d'utilisateur SAML
Mot de passe - mot de passe SAML
-
Champ de nom d'utilisateur XPath : XPath vers le champ de saisie du nom d'utilisateur (par exemple,
//input[@id='username']) -
Bouton du nom d'utilisateur XPath (facultatif) - XPath vers le champ du bouton du nom d'utilisateur (par exemple,
//input[@id='username_button']) -
Champ de mot XPath de passe XPath : vers le champ de saisie du mot de passe (par exemple,
//input[@id='password']) -
Bouton de mot XPath de passe XPath : vers le bouton de mot de passe (par exemple,
//button[@type='password'])
XPath exemples de configuration
Utilisez ces XPath exemples pour configurer le formulaire et l'authentification SAML :
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Configurer l'intégration de Web Crawler
Après avoir préparé les exigences d'accès à votre site Web, créez l'intégration Web Crawler dans Amazon Quick.
-
Dans la console Amazon Quick, choisissez Integrations.
-
Choisissez Web Crawler dans les options d'intégration, puis cliquez sur le bouton Ajouter (plus le bouton « + »).
-
Choisissez Accéder aux données depuis Web Crawler. L'intégration de Web Crawler prend uniquement en charge l'accès aux données ; l'exécution d'actions n'est pas disponible pour l'exploration Web.
-
Configurez les détails de l'intégration et la méthode d'authentification, puis créez des bases de connaissances selon vos besoins.
-
Choisissez le type d'authentification pour l'intégration de votre robot d'exploration Web.
-
Entrez les informations requises en fonction de la méthode d'authentification que vous avez choisie.
-
(Facultatif) Choisissez une connexion VPC pour analyser les sites hébergés sur votre réseau privé. La connexion VPC doit être configurée dans les paramètres d'administration avant que vous puissiez la choisir ici. Pour de plus amples informations, veuillez consulter Configuration d'un VPC à utiliser avec Amazon Quick.
Note
Vous ne pouvez pas modifier la connexion VPC une fois l'intégration créée. Pour utiliser une autre connexion VPC, créez une nouvelle intégration.
-
Choisissez Créer et continuer.
-
Entrez le nom et la description de votre base de connaissances.
-
Ajoutez le contenu URLs que vous souhaitez explorer.
-
Choisissez Créer.
-
Une fois que vous avez sélectionné Create, la synchronisation des données démarre automatiquement.
Configurer l'exploration
Vous pouvez configurer les sites Web et les pages à explorer et la manière de filtrer le contenu.
Configuration URLs et sources de contenu
Configurez les sites Web et les pages à explorer :
Directement URLs
Spécifiez URLs la personne à explorer :
https://example.com/docs https://example.com/blog https://example.com/support
Limite : 10 maximum URLs par jeu de données
Filtres de contenu et paramètres d'exploration
Paramètres du Crawl Scope
Pour afficher ces paramètres, vous devez d'abord configurer une base de connaissances, puis examiner l'option des paramètres avancés.
- Profondeur du crawl
-
Plage : 0 à 10 (par défaut : 1)
0 = crawl uniquement spécifié URLs
1 = inclure les pages liées d'un niveau de profondeur
Les valeurs les plus élevées suivent les liens plus profonds dans le site
- Nombre maximum de liens par page
-
Par défaut: 1000
Maximum : 1 000.
Contrôle le nombre de liens à suivre sur chaque page
- Durée d’Attente
-
Valeur par défaut : 1
-
Durée (en secondes) pendant laquelle le robot d'exploration Web attend chaque page une fois que celle-ci est prête. Augmentez cette valeur pour les pages dont JavaScript le contenu dynamique se charge après le modèle principal.
Gérer les bases de connaissances
Après avoir configuré l'intégration de votre Web Crawler, vous pouvez créer et gérer des bases de connaissances à partir du contenu de votre site Web exploré.
Modifier les bases de connaissances existantes
Vous pouvez modifier vos bases de connaissances Web Crawler existantes :
-
Dans la console Amazon Quick, sélectionnez Knowledge bases.
-
Choisissez votre base de connaissances Web Crawler dans la liste.
-
Cliquez sur l'icône à trois points sous Actions, puis sélectionnez Modifier la base de connaissances.
-
Mettez à jour vos paramètres de configuration selon vos besoins et choisissez Enregistrer.
Pièces jointes et exploration de fichiers
Contrôlez si le système traite les fichiers et les pièces jointes liés à des pages Web :
-
Activer l'analyse des pièces jointes : choisissez cette option pour analyser et indexer les fichiers et les pièces jointes présents sur les pages Web PDFs, tels que les documents et les fichiers multimédia.
Comportement d'exploration et configuration de synchronisation
Votre intégration à Web Crawler suit les pratiques d'exploration suivantes :
Modèle de synchronisation incrémentielle : la première synchronisation effectue un crawl complet. Les synchronisations suivantes ne prennent en compte que les modifications.
Rétentative automatique : logique de nouvelle tentative intégrée pour les demandes ayant échoué.
Gestion des doublons : détection et déduplication automatiques de. URLs
Identification du robot : s'identifie avec la chaîne d'agent utilisateur « aws-quick-on-behalf -of- » <UUID>dans les en-têtes de requête.
Découverte du Sitemap
Web Crawler vérifie automatiquement la présence de plans de site en ajoutant des chemins de plan de site courants à votre source. URLs Il n'est pas nécessaire de fournir le plan du site URLs séparément. Les chemins suivants sont vérifiés :
sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml
Par exemple, si votre URL de départ est https://example.com/docshttps://example.com/docs/sitemap.xml, le robot recherchehttps://example.com/docs/sitemap_index.xml, etc.
Note
Web Crawler ne suit pas les références d'index de plan de site récursives. Seuls les éléments URLs listés directement dans un plan de site découvert sont utilisés. Les directives du plan du site dans le fichier robots.txt ne sont pas utilisées pour la découverte du plan de site.
Conformité à Robots.txt
Web Crawler respecte le protocole robots.txt et respecte l'agent utilisateur et les allow/disallow directives. Cela vous permet de contrôler la manière dont le robot accède à votre site.
Comment fonctionne la vérification du fichier robots.txt
Vérification au niveau de l'hôte : Web Crawler lit les fichiers robots.txt au niveau de l'hôte (par exemple, exemple.com/robots.txt)
Prise en charge de plusieurs hôtes : pour les domaines comportant plusieurs hôtes, Web Crawler respecte les règles relatives aux robots pour chaque hôte séparément
Comportement de remplacement : si Web Crawler ne parvient pas à récupérer le fichier robots.txt en raison d'un blocage, d'erreurs d'analyse ou d'un délai d'attente, il se comporte comme si le fichier robots.txt n'existait pas. Dans ce cas, le robot d'exploration explore le site.
Champs robots.txt pris en charge
Web Crawler reconnaît les champs robots.txt suivants (les noms des champs ne distinguent pas les majuscules des minuscules, les valeurs distinguent les majuscules et minuscules) :
user-agentIdentifie à quel robot les règles s'appliquent.
allowUn chemin d'URL qui peut être exploré.
disallowUn chemin d'URL qui ne peut pas être exploré.
crawl-delayLe temps (en secondes) d'attente entre les demandes adressées à votre site Web.
Support des balises Meta
Web Crawler prend en charge les balises méta de robots au niveau des pages que vous pouvez utiliser pour contrôler la manière dont vos données sont utilisées. Vous pouvez définir les paramètres au niveau de la page en incluant une balise méta sur les pages HTML ou dans un en-tête HTTP.
Balises méta prises en charge
noindexN'indexez pas la page. Si vous ne spécifiez pas cette règle, la page peut être indexée et éligible pour apparaître dans les expériences.
nofollowNe suivez pas les liens de cette page. Si vous ne spécifiez pas cette règle, Web Crawler peut utiliser les liens de la page pour découvrir ces pages liées.
Vous pouvez combiner plusieurs valeurs à l'aide d'une virgule (par exemple, « noindex, nofollow »).
Note
Pour détecter les balises méta, Web Crawler doit accéder à votre page. Ne bloquez pas votre page avec le fichier robots.txt, car cela empêcherait toute nouvelle analyse de la page.
Résolution des problèmes
Utilisez cette section pour résoudre les problèmes courants liés à l'intégration de Web Crawler.
Authentication failures (Échecs d’authentification)
Symptômes :
Messages d'erreur « Impossible d'authentifier »
Réponses HTTP 401/403
Boucles de redirection de la page de connexion
Erreurs de temporisation de session
Étapes de résolution :
Vérifiez que le site est accessible depuis la AWS région où l'instance Amazon Quick est configurée.
Vérifiez que vos informations d'identification sont correctes et qu'elles n'ont pas expiré.
Vérifiez la disponibilité et l'accessibilité des terminaux d'authentification.
Validez les XPath configurations en les testant dans les outils de développement du navigateur.
Consultez les journaux réseau du navigateur pour comprendre le flux d'authentification.
Assurez-vous que l'URL de la page de connexion est correcte et accessible.
Testez l'authentification manuellement à l'aide des mêmes informations d'identification.
Problèmes d'accès et de connectivité
Symptômes :
Délais de connexion et erreurs réseau
Erreurs d'inaccessibilité du réseau
Défaillances de résolution DNS
Étapes de résolution :
-
Vérifiez la connectivité réseau avec les sites Web cibles.
-
Validez l'accessibilité du site :
Vérifiez la résolution DNS des domaines cibles.
Vérifiez SSL/TLS la configuration et les certificats.
Testez l'accès depuis différents réseaux si possible.
Résolution DNS
Le Web Crawler utilise le DNS pour convertir les noms d'hôte des sites Web (par exemple,www.example.com) en adresses IP. Par défaut, il utilise la résolution DNS publique.
Lorsque vous analysez des sites au sein d'un VPC, vous devrez peut-être configurer un serveur DNS privé afin que le robot d'exploration puisse résoudre les noms d'hôte des sites internes. Choisissez l'une des options suivantes en fonction de la configuration de votre VPC :
-
Utiliser le serveur DNS fourni par VPC : si les noms d'hôte DNS et la résolution DNS sont activés sur votre VPC, vous pouvez utiliser le résolveur DNS VPC par défaut (généralement 10.0.0.2, ou plus généralement le VPC CIDR base+2). Pour de plus amples informations, veuillez consulter VPC.
-
Utiliser un serveur DNS personnalisé : si votre VPC utilise un résolveur DNS personnalisé, indiquez l'adresse IP du serveur DNS interne de votre organisation. Contactez votre administrateur réseau pour obtenir cette adresse.
Si vous ne configurez pas de serveur DNS, le robot d'exploration résout uniquement les noms d'hôte enregistrés publiquement.
JavaScript-navigation dépendante
Symptômes :
Seule l'URL de départ est indexée, aucune page supplémentaire n'est découverte
Le crawl se termine avec succès mais ne renvoie qu'un seul document
Étapes de résolution :
-
Web Crawler exécute JavaScript et affiche le contenu de la page, mais ne simule pas les interactions de l'utilisateur telles que les clics, les défilements ou les actions de survol. Si votre site charge des liens de navigation par le biais de l'interaction de l'utilisateur (par exemple, des gestionnaires de clics, un défilement infini ou des menus dynamiques), le robot d'exploration ne peut pas détecter ces liens.
-
Inspectez votre page dans les outils de développement du navigateur pour vérifier si les liens de navigation utilisent des
<a href="...">éléments standard. Si les liens sont plutôt câblés via des gestionnaires d' JavaScript événements, le robot d'exploration ne les suivra pas. -
Si votre site fournit un plan de site, Web Crawler recherche automatiquement les chemins de plan de site courants sur votre fichier d'origine. URLs Assurez-vous que votre plan du site est disponible à un emplacement standard (par exemple,
/sitemap.xml) afin que le robot d'exploration puisse en découvrir d'autres URLs sans recourir à l'extraction de liens sur la page. -
Vous pouvez également fournir toutes les pages cibles URLs directement sous forme de graine URLs.
-
Si le contenu peut être exporté sous forme de fichiers HTML, PDF ou texte, pensez plutôt à utiliser le connecteur Amazon S3 comme source de données.
Problèmes de crawl et de contenu
Symptômes :
Contenu manquant ou incomplet
Analyses incomplètes ou résiliation anticipée
Erreurs de limitation du débit (429 réponses)
Le contenu n'est pas correctement indexé
Étapes de résolution :
-
Passez en revue les restrictions du fichier robots.txt :
Vérifiez les restrictions d'exploration dans le fichier robots.txt.
Vérifiez que le robot d'exploration est autorisé à accéder aux chemins cibles.
Assurez-vous que la conformité du fichier robots.txt ne bloque pas le contenu.
-
Vérifiez la limitation du débit et l'étranglement :
Surveillez les en-têtes de réponse pour obtenir des informations sur les limites de débit.
Implémentez des délais de crawl appropriés.
-
Vérifiez les modèles d'URL et les filtres :
Testez la précision des modèles de regex.
Vérifiez le formatage et la structure de l'URL.
Validez la logique du include/exclude modèle.
-
Vérifiez les restrictions relatives au contenu :
Vérifiez la présence de balises méta noindex sur les pages.
Vérifiez la prise en charge des types de contenu.
Assurez-vous que la taille du contenu est conforme aux limites.
-
Mettez à jour le temps d'attente afin que le contenu soit chargé sur la page avant que le robot ne commence à explorer.
Limitations connues
L'intégration de Web Crawler présente les limites suivantes :
Limites d'URL : maximum de 10 graines URLs par ensemble de données. Vous ne pouvez pas fournir de plan de site URLs dans le champ URL de départ.
Profondeur de rampage : profondeur de rampage maximale de 10 niveaux
Exigences de sécurité : HTTPS requis pour les configurations de proxy Web
Les limites suivantes s'appliquent lors de l'utilisation du Web Crawler avec une connexion VPC :
Pas de support HTTP/3 (QUIC) : HTTP/3 n'est pas pris en charge. La plupart des sites reviendront automatiquement au HTTP/2, mais les sites configurés uniquement pour HTTP/3 ne seront pas accessibles.
DNS sur TCP requis : la résolution DNS doit utiliser le protocole TCP. Vérifiez que votre serveur DNS prend en charge le DNS via TCP avant de configurer le crawling VPC.
Certificats SSL approuvés par le public requis : les sites internes doivent utiliser un certificat délivré par une autorité de certification connue (par exemple, Let's Encrypt ou DigiCert). Les sites utilisant des certificats CA privés ou auto-signés ne parviendront pas à se connecter.
IPv4 uniquement : seules IPv4 les adresses sont prises en charge. Les sites accessibles exclusivement via IPv6 ne peuvent pas être explorés.