Fonctionnalités du Web Crawler Conditions préalables Préparation de l'accès au site Web et de l'authentification Configurer l'intégration de Web Crawler Configuration de l'exploration Gérer les bases de connaissances Résolution des problèmes

Intégration à Web Crawler

Grâce à l'intégration de Web Crawler dans Amazon Quick, vous pouvez créer des bases de connaissances à partir du contenu d'un site Web en explorant et en indexant des pages Web. Cette intégration prend en charge les capacités d'ingestion de données avec différentes options d'authentification.

Fonctionnalités du Web Crawler

Les utilisateurs de Web Crawler peuvent poser des questions sur le contenu stocké sur les sites Web et les pages Web. Par exemple, les utilisateurs peuvent rechercher des sites de documentation, des bases de connaissances ou des informations spécifiques sur plusieurs pages Web.

L'intégration aide les utilisateurs à accéder au contenu Web et à le comprendre indépendamment de son emplacement ou de son type. Il fournit des informations contextuelles telles que les dates de publication, l'historique des modifications et la propriété des pages pour une découverte plus efficace des informations.

Note

L'intégration de Web Crawler prend uniquement en charge l'ingestion de données. Il ne fournit pas de fonctionnalités d'action pour gérer des sites Web ou des services Web.

Conditions préalables

Avant de configurer l'intégration de Web Crawler, assurez-vous de disposer des éléments suivants :

URL de sites Web à explorer et à indexer.
Un abonnement Amazon Quick Enterprise.
Un site Web qui n'est pas protégé par un pare-feu et qui ne nécessite pas de plug-in de navigateur spécial pour se connecter.

Préparation de l'accès au site Web et de l'authentification

Avant de configurer l'intégration dans Amazon Quick, préparez les informations d'accès à votre site Web. L'intégration de Web Crawler prend en charge différentes méthodes d'authentification :

Aucune authentification

À utiliser pour explorer des sites Web qui ne nécessitent pas d'authentification.

Authentification basique

Authentification HTTP de base standard pour les sites Web sécurisés. Lorsque vous visitez un site protégé, votre navigateur affiche une boîte de dialogue qui vous demande vos informations d'identification.

Informations d'identification requises :

URL de la page de connexion : URL de la page de connexion
Nom d'utilisateur - Nom d'utilisateur d'authentification de base
Mot de passe - Mot de passe d'authentification de base

Authentification par formulaire

Pour les sites Web qui utilisent des pages de connexion basées sur des formulaires HTML. Vous spécifiez des expressions XPath pour identifier les champs du formulaire sur la page de connexion.

XPath (XML Path Language) est un langage de requête permettant de naviguer dans les éléments d'un document HTML ou XML. Pour trouver un XPath pour un élément de page Web, cliquez avec le bouton droit sur l'élément dans votre navigateur et choisissez Inspecter. Dans les outils de développement, cliquez avec le bouton droit sur le code HTML surligné, choisissez Copier, puis Copier XPath.

Informations requises :

URL de la page de connexion : URL du formulaire de connexion (par exemple,https://example.com/login)
Nom d'utilisateur - Nom d'utilisateur de connexion
Mot de passe - Mot de passe de connexion
Champ de nom d'utilisateur XPath - champ de saisie XPath vers le nom d'utilisateur (par exemple,) //input[@id='username']
Bouton du nom d'utilisateur XPath (facultatif) - Champ du bouton XPath vers le nom d'utilisateur (par exemple,) //input[@id='username_button']
Champ de mot de passe XPath - XPath vers le champ de saisie du mot de passe (par exemple,) //input[@id='password']
Bouton de mot de passe XPath - Bouton XPath vers mot de passe (par exemple,) //button[@type='password']

Authentification SAML

Pour les sites Web qui utilisent l'authentification SAML-based unique (SSO).

L'authentification SAML (Security Assertion Markup Language) est une norme d'identité fédérée qui active le SSO. Les utilisateurs s'authentifient via un fournisseur d'identité centralisé (tel que Microsoft Azure AD ou Okta) au lieu de saisir leurs informations d'identification directement dans chaque application. Le fournisseur d'identité renvoie un jeton sécurisé à l'application pour accorder l'accès.

Informations requises :

URL de la page de connexion : URL de la page de connexion SAML
Nom d'utilisateur - nom d'utilisateur SAML
Mot de passe - mot de passe SAML
Champ de nom d'utilisateur XPath - champ de saisie XPath vers le nom d'utilisateur (par exemple,) //input[@id='username']
Bouton du nom d'utilisateur XPath (facultatif) - Champ du bouton XPath vers le nom d'utilisateur (par exemple,) //input[@id='username_button']
Champ de mot de passe XPath - XPath vers le champ de saisie du mot de passe (par exemple,) //input[@id='password']
Bouton de mot de passe XPath - Bouton XPath vers mot de passe (par exemple,) //button[@type='password']

Exemples de configuration XPath

Utilisez ces exemples XPath pour configurer le formulaire et l'authentification SAML :



Username field examples:
//input[@id='username']
//input[@name='user']
//input[@class='username-field']

Password field examples:
//input[@id='password']
//input[@name='pass']
//input[@type='password']

Submit button examples:
//button[@type='submit']
//input[@type='submit']
//button[contains(text(), 'Login')]

Configurer l'intégration de Web Crawler

Après avoir préparé les exigences d'accès à votre site Web, créez l'intégration Web Crawler dans Amazon Quick.

Dans la console Amazon Quick, sélectionnez Knowledge.
Trouvez Web Crawler et cliquez sur l'icône Ajouter (+).
Choisissez Accéder aux données depuis Web Crawler. L'intégration de Web Crawler prend uniquement en charge l'accès aux données ; l'exécution d'actions n'est pas disponible pour l'exploration Web.
Configurez les détails de l'intégration et la méthode d'authentification, puis créez des bases de connaissances selon vos besoins.
1. Choisissez le type d'authentification pour l'intégration de votre robot d'exploration Web.
2. Entrez les informations requises en fonction de la méthode d'authentification que vous avez choisie.
3. (Facultatif) Choisissez une connexion VPC pour analyser les sites hébergés sur votre réseau privé. La connexion VPC doit être configurée dans les paramètres d'administration avant que vous puissiez la choisir ici. Pour de plus amples informations, veuillez consulter Configuration d'un VPC à utiliser avec Amazon Quick.
  
  Note
  Vous ne pouvez pas modifier la connexion VPC une fois l'intégration créée. Pour utiliser une autre connexion VPC, créez une nouvelle intégration.
4. Choisissez Créer et continuer.
5. Entrez le nom et la description de votre base de connaissances.
6. Ajoutez les URL de contenu que vous souhaitez explorer.
7. Choisissez Créer.

Une fois que vous avez sélectionné Create, la synchronisation des données démarre automatiquement.

Configuration de l'exploration

Vous pouvez configurer les sites Web et les pages à explorer et la manière de filtrer le contenu.

Configuration des URL et des sources de contenu

Configurez les sites Web et les pages à explorer :

URL directes

Spécifiez les URL individuelles à explorer :



https://example.com/docs
https://example.com/blog
https://example.com/support

Limite : 10 URL maximum par ensemble de données

Filtres de contenu et paramètres d'exploration

Paramètres du Crawl Scope

Pour afficher ces paramètres, vous devez d'abord configurer une base de connaissances, puis examiner l'option des paramètres avancés.

Profondeur du crawl

Plage : 0 à 10 (par défaut : 1)
0 = explorer uniquement les URL spécifiées
1 = inclure les pages liées d'un niveau de profondeur
Les valeurs les plus élevées suivent les liens plus profonds dans le site

Nombre maximum de liens par page

Par défaut: 1000
Maximum : 1 000.
Contrôle le nombre de liens à suivre sur chaque page

Durée d’Attente

Valeur par défaut : 1
Durée (en secondes) pendant laquelle le robot d'exploration Web attend chaque page une fois que celle-ci est prête. Augmentez cette valeur pour les pages dont JavaScript le contenu dynamique se charge après le modèle principal.

Gérer les bases de connaissances

Après avoir configuré l'intégration de votre Web Crawler, vous pouvez créer et gérer des bases de connaissances à partir du contenu de votre site Web exploré.

Modifier les bases de connaissances existantes

Vous pouvez modifier vos bases de connaissances Web Crawler existantes :

Dans la console Amazon Quick, sélectionnez Knowledge bases.
Choisissez votre base de connaissances Web Crawler dans la liste.
Cliquez sur l'icône à trois points sous Actions, puis sélectionnez Modifier la base de connaissances.
Mettez à jour vos paramètres de configuration selon vos besoins et choisissez Enregistrer.

Pièces jointes et exploration de fichiers

Contrôlez si le système traite les fichiers et les pièces jointes liés à des pages Web :

Activer l'analyse des pièces jointes : choisissez cette option pour analyser et indexer les fichiers et les pièces jointes présents sur les pages Web, tels que les PDF, les documents et les fichiers multimédia.

Comportement d'exploration et configuration de synchronisation

Votre intégration à Web Crawler suit les pratiques d'exploration suivantes :

Modèle de synchronisation incrémentielle : la première synchronisation effectue un crawl complet. Les synchronisations suivantes ne prennent en compte que les modifications.
Rétentative automatique : logique de Built-in nouvelle tentative en cas d'échec des demandes.
Gestion des doublons : détection et déduplication automatiques des URL.
Identification du robot : <UUID>s'identifie à l'aide de la chaîne d'agent utilisateur « aws-quick-on-behalf-of- » dans les en-têtes de requête.

Découverte du Sitemap

Web Crawler vérifie automatiquement la présence de plans de site en ajoutant des chemins de plan de site courants à vos URL de départ. Il n'est pas nécessaire de fournir les URL des plans de site séparément. Les chemins suivants sont vérifiés :



sitemap.xml
sitemap_index.xml
sitemap/sitemap.xml
sitemap/sitemap_index.xml
sitemaps/sitemap.xml
sitemap/index.xml

Par exemple, si votre URL de départ esthttps://example.com/docs, le robot d'exploration recherche https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, etc.

Note

Web Crawler ne suit pas les références d'index de plan de site récursives. Seules les URL répertoriées directement dans un plan de site découvert sont utilisées. Les directives du plan du site dans le fichier robots.txt ne sont pas utilisées pour la découverte du plan de site.

Conformité d'Robots.txt

Web Crawler respecte le protocole robots.txt et honore l'agent utilisateur et les allow/disallow directives. Cela vous permet de contrôler la manière dont le robot accède à votre site.

Comment fonctionne la vérification du fichier robots.txt

Host-level vérification : Web Crawler lit les fichiers robots.txt au niveau de l'hôte (par exemple, par exemple. com/robots.txt)
Prise en charge de plusieurs hôtes : pour les domaines comportant plusieurs hôtes, Web Crawler respecte les règles relatives aux robots pour chaque hôte séparément
Comportement de remplacement : si Web Crawler ne parvient pas à récupérer le fichier robots.txt en raison d'un blocage, d'erreurs d'analyse ou d'un délai d'attente, il se comporte comme si le fichier robots.txt n'existait pas. Dans ce cas, le robot d'exploration procède à l'exploration du site.

Champs robots.txt pris en charge

Web Crawler reconnaît les champs robots.txt suivants (les noms des champs ne distinguent pas les majuscules des minuscules, les valeurs distinguent les majuscules et minuscules) :

user-agent: Identifie à quel robot les règles s'appliquent.
allow: Un chemin d'URL qui peut être exploré.
disallow: Un chemin d'URL qui ne peut pas être exploré.
crawl-delay: Le temps (en secondes) d'attente entre les demandes adressées à votre site Web.

Support des balises Meta

Web Crawler prend en charge les balises méta de robots au niveau des pages que vous pouvez utiliser pour contrôler la manière dont vos données sont utilisées. Vous pouvez définir les paramètres au niveau de la page en incluant une balise méta sur les pages HTML ou dans un en-tête HTTP.

Balises méta prises en charge

noindex: N'indexez pas la page. Si vous ne spécifiez pas cette règle, la page peut être indexée et éligible pour apparaître dans les expériences.
nofollow: Ne suivez pas les liens de cette page. Si vous ne spécifiez pas cette règle, Web Crawler peut utiliser les liens de la page pour découvrir ces pages liées.

Vous pouvez combiner plusieurs valeurs à l'aide d'une virgule (par exemple, « noindex, nofollow »).

Note

Pour détecter les balises méta, Web Crawler doit accéder à votre page. Ne bloquez pas votre page avec le fichier robots.txt, car cela empêcherait toute nouvelle analyse de la page.

Résolution des problèmes

Utilisez cette section pour résoudre les problèmes courants liés à l'intégration de Web Crawler.

Authentication failures (Échecs d’authentification)

Symptômes :

Messages d'erreur « Impossible d'authentifier »
401/403 Réponses HTTP
Boucles de redirection de la page de connexion
Erreurs de temporisation de session

Étapes de résolution :

Vérifiez que le site est accessible depuis la AWS région où l'instance Amazon Quick est configurée.
Vérifiez que vos informations d'identification sont correctes et qu'elles n'ont pas expiré.
Vérifiez la disponibilité et l'accessibilité des terminaux d'authentification.
Validez les configurations XPath en les testant dans les outils de développement du navigateur.
Consultez les journaux réseau du navigateur pour comprendre le flux d'authentification.
Assurez-vous que l'URL de la page de connexion est correcte et accessible.
Testez l'authentification manuellement à l'aide des mêmes informations d'identification.

Problèmes d'accès et de connectivité

Symptômes :

Délais de connexion et erreurs réseau
Erreurs d'inaccessibilité du réseau
Défaillances de résolution DNS

Étapes de résolution :

Vérifiez la connectivité réseau avec les sites Web cibles.
Validez l'accessibilité du site :
- Vérifiez la résolution DNS des domaines cibles.
- Vérifiez SSL/TLS la configuration et les certificats.
- Testez l'accès depuis différents réseaux si possible.

Résolution DNS

Le Web Crawler utilise le DNS pour convertir les noms d'hôte des sites Web (par exemple,www.example.com) en adresses IP. Par défaut, il utilise la résolution DNS publique.

Lorsque vous analysez des sites au sein d'un VPC, vous devrez peut-être configurer un serveur DNS privé afin que le robot d'exploration puisse résoudre les noms d'hôte des sites internes. Choisissez l'une des options suivantes en fonction de la configuration de votre VPC :

Utiliser le serveur VPC-provided DNS : si les noms d'hôte DNS et la résolution DNS sont activés sur votre VPC, vous pouvez utiliser le résolveur DNS VPC par défaut (généralement 10.0.0.2, ou plus généralement le VPC CIDR base+2). Pour de plus amples informations, veuillez consulter VPC.
Utiliser un serveur DNS personnalisé : si votre VPC utilise un résolveur DNS personnalisé, indiquez l'adresse IP du serveur DNS interne de votre organisation. Contactez votre administrateur réseau pour obtenir cette adresse.

Si vous ne configurez pas de serveur DNS, le robot d'exploration résout uniquement les noms d'hôte enregistrés publiquement.

Symptômes :

Seule l'URL de départ est indexée, aucune page supplémentaire n'est découverte
Le crawl se termine avec succès mais ne renvoie qu'un seul document

Étapes de résolution :

Web Crawler exécute JavaScript et affiche le contenu de la page, mais ne simule pas les interactions de l'utilisateur telles que les clics, les défilements ou les actions de survol. Si votre site charge des liens de navigation par le biais de l'interaction de l'utilisateur (par exemple, des gestionnaires de clics, un défilement infini ou des menus dynamiques), le robot d'exploration ne peut pas détecter ces liens.
Inspectez votre page dans les outils de développement du navigateur pour vérifier si les liens de navigation utilisent des <a href="..."> éléments standard. Si les liens sont plutôt câblés via des gestionnaires d' JavaScript événements, le robot d'exploration ne les suivra pas.
Si votre site fournit un plan de site, Web Crawler recherche automatiquement les chemins de plan de site courants sur vos URL de départ. Assurez-vous que votre plan du site est disponible à un emplacement standard (par exemple,/sitemap.xml) afin que le robot d'exploration puisse découvrir des URL supplémentaires sans recourir à l'extraction de liens sur la page.
Vous pouvez également fournir toutes les URL de page cible directement sous forme d'URL de départ.
Si le contenu peut être exporté sous forme de fichiers HTML, PDF ou texte, pensez plutôt à utiliser le connecteur Amazon S3 comme source de données.

Problèmes de crawl et de contenu

Symptômes :

Contenu manquant ou incomplet
Analyses incomplètes ou résiliation anticipée
Erreurs de limitation du débit (429 réponses)
Le contenu n'est pas correctement indexé

Étapes de résolution :

Passez en revue les restrictions du fichier robots.txt :
- Vérifiez les restrictions d'exploration dans le fichier robots.txt.
- Vérifiez que le robot d'exploration est autorisé à accéder aux chemins cibles.
- Assurez-vous que la conformité du fichier robots.txt ne bloque pas le contenu.
Vérifiez la limitation du débit et l'étranglement :
- Surveillez les en-têtes de réponse pour obtenir des informations sur les limites de débit.
- Implémentez des délais de crawl appropriés.
Vérifiez les modèles d'URL et les filtres :
- Testez la précision des modèles de regex.
- Vérifiez le formatage et la structure de l'URL.
- Validez la logique du include/exclude modèle.
Vérifiez les restrictions relatives au contenu :
- Vérifiez la présence de balises méta noindex sur les pages.
- Vérifiez la prise en charge des types de contenu.
- Assurez-vous que la taille du contenu est conforme aux limites.
Mettez à jour le temps d'attente afin que le contenu soit chargé sur la page avant que le robot ne commence à explorer.

Limitations connues

L'intégration de Web Crawler présente les limites suivantes :

Limites d'URL : maximum de 10 URL de départ par ensemble de données. Vous ne pouvez pas fournir d'URL de plan de site dans le champ URL de départ.
Profondeur de rampage : profondeur de rampage maximale de 10 niveaux
Exigences de sécurité : HTTPS requis pour les configurations de proxy Web

Les limites suivantes s'appliquent lors de l'utilisation du Web Crawler avec une connexion VPC :

Aucune prise en charge HTTP/3 (QUIC) : n' HTTP/3 est pas prise en charge. La plupart des sites reviendront en HTTP/2 mode automatique, mais les sites configurés pour HTTP/3 uniquement ne seront pas accessibles.
DNS sur TCP requis : la résolution DNS doit utiliser le protocole TCP. Vérifiez que votre serveur DNS prend en charge le DNS via TCP avant de configurer le crawling VPC.
Certificats SSL approuvés par le public requis : les sites internes doivent utiliser un certificat délivré par une autorité de certification connue (par exemple, Let's Encrypt ou DigiCert). Les sites utilisant des certificats CA privés ou auto-signés ne parviendront pas à se connecter.
IPv4 uniquement : seules les adresses IPv4 sont prises en charge. Les sites accessibles exclusivement via IPv6 ne peuvent pas être explorés.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Intégration de Visier

Intégration de Zendesk

Intégration à Web Crawler

Fonctionnalités du Web Crawler

Note

Conditions préalables

Préparation de l'accès au site Web et de l'authentification

Exemples de configuration XPath

Configurer l'intégration de Web Crawler

Note

Configuration de l'exploration

Configuration des URL et des sources de contenu

URL directes

Filtres de contenu et paramètres d'exploration

Paramètres du Crawl Scope

Gérer les bases de connaissances

Modifier les bases de connaissances existantes

Pièces jointes et exploration de fichiers

Comportement d'exploration et configuration de synchronisation

Découverte du Sitemap

Note

Conformité d'Robots.txt

Comment fonctionne la vérification du fichier robots.txt

Champs robots.txt pris en charge

Support des balises Meta

Balises méta prises en charge

Note

Résolution des problèmes

Authentication failures (Échecs d’authentification)

Problèmes d'accès et de connectivité

Résolution DNS

JavaScript-dependent navigation

Problèmes de crawl et de contenu

Limitations connues