Funktionen des Web Crawlers Voraussetzungen Bereiten Sie den Zugriff und die Authentifizierung der Website vor Richten Sie die Web Crawler-Integration ein Konfigurieren Sie das Crawling Wissensdatenbanken verwalten Fehlerbehebung

Webcrawler-Integration

Mit der Web Crawler-Integration in Amazon Quick können Sie Wissensdatenbanken aus Webseiteninhalten erstellen, indem Sie Webseiten crawlen und indexieren. Diese Integration unterstützt Datenaufnahmefunktionen mit unterschiedlichen Authentifizierungsoptionen.

Funktionen des Web Crawlers

Web Crawler-Benutzer können Fragen zu Inhalten stellen, die auf Websites und Webseiten gespeichert sind. Benutzer können beispielsweise Dokumentationsseiten, Wissensdatenbanken oder bestimmte Informationen auf mehreren Webseiten durchsuchen.

Die Integration hilft Benutzern, unabhängig von Standort oder Typ auf Webinhalte zuzugreifen und diese zu verstehen. Es bietet kontextbezogene Details wie Veröffentlichungsdaten, Änderungsverlauf und Seitenbesitz für eine effizientere Informationssuche.

Anmerkung

Die Web Crawler-Integration unterstützt nur die Datenaufnahme. Sie bietet keine Aktionsfunktionen für die Verwaltung von Websites oder Webdiensten.

Voraussetzungen

Bevor Sie die Web Crawler-Integration einrichten, stellen Sie sicher, dass Sie über Folgendes verfügen:

URLs der Websites, die gecrawlt und indexiert werden sollen.
Ein Amazon Quick Enterprise-Abonnement.
Eine Website, die sich nicht hinter einer Firewall befindet und für deren Verbindung keine speziellen Browser-Plugins erforderlich sind.

Bereiten Sie den Zugriff und die Authentifizierung der Website vor

Bevor Sie die Integration in Amazon Quick einrichten, bereiten Sie Ihre Zugangsdaten für die Website vor. Die Web Crawler-Integration unterstützt verschiedene Authentifizierungsmethoden:

Keine Authentifizierung

Wird zum Crawlen von Websites verwendet, für die keine Authentifizierung erforderlich ist.

Grundlegende Authentifizierung

Standard-HTTP-Basisauthentifizierung für gesicherte Websites. Wenn Sie eine geschützte Site besuchen, zeigt Ihr Browser ein Dialogfeld an, in dem Sie nach Ihren Anmeldeinformationen gefragt werden.

Erforderliche Anmeldeinformationen:

URL der Anmeldeseite — Die URL der Anmeldeseite
Benutzername — Standardbenutzername für die Authentifizierung
Passwort — Grundlegendes Authentifizierungspasswort

Formularauthentifizierung

Für Websites, die auf Formularen basierende HTML-Anmeldeseiten verwenden. Sie geben XPath-Ausdrücke an, um die Formularfelder auf der Anmeldeseite zu identifizieren.

XPath (XML Path Language) ist eine Abfragesprache zum Navigieren in Elementen in einem HTML- oder XML-Dokument. Um einen XPath für ein Webseitenelement zu finden, klicken Sie in Ihrem Browser mit der rechten Maustaste auf das Element und wählen Sie Inspect. Klicken Sie in den Entwicklertools mit der rechten Maustaste auf den markierten HTML-Code, wählen Sie Kopieren und dann XPath kopieren.

Erforderliche Informationen:

URL der Anmeldeseite — URL des Anmeldeformulars (zum Beispielhttps://example.com/login)
Nutzername — Benutzername für die Anmeldung
Passwort - Login-Passwort
Feld für den Benutzernamen XPath — Eingabefeld für den XPath zum Benutzernamen (zum Beispiel) //input[@id='username']
Schaltfläche „Benutzername“ XPath (optional) — Feld für die Schaltfläche „XPath zum Benutzernamen“ (z. B.) //input[@id='username_button']
Passwortfeld XPath — XPath zum Passwort-Eingabefeld (zum Beispiel) //input[@id='password']
Passwort-Schaltfläche XPath — XPath-zu-Passwort-Schaltfläche (zum Beispiel) //button[@type='password']

SAML-Authentifizierung

Für Websites, die SAML-based Single Sign-On (SSO) -Authentifizierung verwenden.

Die SAML-Authentifizierung (Security Assertion Markup Language) ist ein föderierter Identitätsstandard, der SSO ermöglicht. Benutzer authentifizieren sich über einen zentralen Identitätsanbieter (wie Microsoft Azure AD oder Okta), anstatt Anmeldeinformationen direkt in jede Anwendung einzugeben. Der Identitätsanbieter gibt ein sicheres Token an die Anwendung zurück, um den Zugriff zu gewähren.

Erforderliche Informationen:

URL der Anmeldeseite — URL der SAML-Anmeldeseite
Benutzername — SAML-Benutzername
Passwort — SAML-Passwort
Feld für den Benutzernamen XPath — Eingabefeld für den XPath zum Benutzernamen (zum Beispiel) //input[@id='username']
Schaltfläche „Benutzername“ XPath (optional) — Feld für die Schaltfläche „XPath zum Benutzernamen“ (z. B.) //input[@id='username_button']
Passwortfeld XPath — XPath zum Passwort-Eingabefeld (zum Beispiel) //input[@id='password']
Passwort-Schaltfläche XPath — XPath-zu-Passwort-Schaltfläche (zum Beispiel) //button[@type='password']

XPath-Konfigurationsbeispiele

Verwenden Sie diese XPath-Beispiele, um die Formular- und SAML-Authentifizierung zu konfigurieren:



Username field examples:
//input[@id='username']
//input[@name='user']
//input[@class='username-field']

Password field examples:
//input[@id='password']
//input[@name='pass']
//input[@type='password']

Submit button examples:
//button[@type='submit']
//input[@type='submit']
//button[contains(text(), 'Login')]

Richten Sie die Web Crawler-Integration ein

Nachdem Sie Ihre Zugriffsanforderungen für Websites vorbereitet haben, erstellen Sie die Web Crawler-Integration in Amazon Quick.

Wählen Sie in der Amazon Quick-Konsole Knowledge aus.
Suchen Sie nach Web Crawler und wählen Sie das Symbol Hinzufügen (+).
Wählen Sie Auf Daten von Web Crawler zugreifen aus. Die Web Crawler-Integration unterstützt nur den Datenzugriff. Die Ausführung von Aktionen ist für Webcrawling nicht verfügbar.
Konfigurieren Sie die Integrationsdetails und die Authentifizierungsmethode und erstellen Sie dann nach Bedarf Wissensdatenbanken.
1. Wählen Sie den Authentifizierungstyp für Ihre Webcrawler-Integration.
2. Geben Sie die erforderlichen Details basierend auf der von Ihnen gewählten Authentifizierungsmethode ein.
3. (Optional) Wählen Sie eine VPC-Verbindung, um Websites zu crawlen, die in Ihrem privaten Netzwerk gehostet werden. Die VPC-Verbindung muss in den Admin-Einstellungen konfiguriert werden, bevor Sie sie hier auswählen können. Weitere Informationen finden Sie unter Einrichtung einer VPC für die Verwendung mit Amazon Quick.
  
  Anmerkung
  Sie können die VPC-Verbindung nicht ändern, nachdem die Integration erstellt wurde. Um eine andere VPC-Verbindung zu verwenden, erstellen Sie eine neue Integration.
4. Wählen Sie Erstellen und fortfahren.
5. Geben Sie den Namen und die Beschreibung für Ihre Wissensdatenbank ein.
6. Fügen Sie die Inhalts-URLs hinzu, die Sie crawlen möchten.
7. Wählen Sie Erstellen aus.

Nachdem Sie „Erstellen“ ausgewählt haben, wird die Datensynchronisierung automatisch gestartet.

Konfigurieren Sie das Crawling

Sie können konfigurieren, welche Websites und Seiten gecrawlt werden sollen und wie der Inhalt gefiltert werden soll.

URLs und Inhaltsquellen konfigurieren

Konfigurieren Sie, welche Websites und Seiten gecrawlt werden sollen:

Direkte URLs

Geben Sie einzelne URLs an, die gecrawlt werden sollen:



https://example.com/docs
https://example.com/blog
https://example.com/support

Limit: Maximal 10 URLs pro Datensatz

Inhaltsfilter und Crawl-Einstellungen

Einstellungen für den Crawling-Bereich

Um diese Einstellungen anzeigen zu können, müssen Sie zunächst eine Wissensdatenbank einrichten und dann die Option für erweiterte Einstellungen prüfen.

Tiefe des Kriechens

Bereich: 0-10 (Standard: 1)
0 = Nur bestimmte URLs crawlen
1 = schließt verlinkte Seiten ein, die eine Ebene tief sind
Höhere Werte folgen Links, die tiefer in die Site hineinreichen

Maximale Anzahl an Links pro Seite

Standard: 1000
Höchstwert: 1 000.
Steuert, wie vielen Links von jeder Seite aus gefolgt werden soll

Wait (Warten) Zeit

Standard: 1
Die Zeit (in Sekunden), die der Webcrawler auf jede Seite wartet, nachdem die Seite den Bereitschaftsstatus erreicht hat. Erhöhen Sie diesen Wert für Seiten mit dynamischem JavaScript Inhalt, der nach der Hauptvorlage geladen wird.

Wissensdatenbanken verwalten

Nachdem Sie Ihre Webcrawler-Integration eingerichtet haben, können Sie Wissensdatenbanken aus den Inhalten Ihrer gecrawlten Website erstellen und verwalten.

Bestehende Wissensdatenbanken bearbeiten

Sie können Ihre vorhandenen Web Crawler-Wissensdatenbanken ändern:

Wählen Sie in der Amazon Quick-Konsole Knowledge Bases aus.
Wählen Sie Ihre Web Crawler-Wissensdatenbank aus der Liste aus.
Wählen Sie unter Aktionen das Dreipunktsymbol und anschließend Wissensdatenbank bearbeiten aus.
Aktualisieren Sie Ihre Konfigurationseinstellungen nach Bedarf und wählen Sie Speichern.

Datei-Crawling und Datei-Crawling

Steuern Sie, ob das System Dateien und Anhänge verarbeitet, die über Webseiten verlinkt sind:

Crawling von Dateianhängen aktivieren — Wählen Sie diese Option, um Dateien und Anlagen auf Webseiten wie PDFs, Dokumente und Mediendateien zu crawlen und zu indexieren.

Crawling-Verhalten und Synchronisierungskonfiguration

Ihre Webcrawler-Integration folgt diesen Crawling-Praktiken:

Modell der inkrementellen Synchronisierung: Bei der ersten Synchronisierung wird ein vollständiger Crawl durchgeführt. Nachfolgende Synchronisierungen erfassen nur Änderungen.
Automatische Wiederholung: Built-in Wiederholungslogik für fehlgeschlagene Anfragen.
Behandlung von Duplikaten: Automatische Erkennung und Deduplizierung von URLs.
Crawler-Identifizierung: Identifiziert <UUID>sich selbst mit der User-Agent-Zeichenfolge „aws-quick-on-behalf-of-“ in den Headern der Anfrage.

Erkennung von Sitemaps

Web Crawler sucht automatisch nach Sitemaps, indem er allgemeine Sitemap-Pfade an Ihre Seed-URLs anhängt. Sie müssen die Sitemap-URLs nicht separat angeben. Die folgenden Pfade werden geprüft:



sitemap.xml
sitemap_index.xml
sitemap/sitemap.xml
sitemap/sitemap_index.xml
sitemaps/sitemap.xml
sitemap/index.xml

Wenn Ihre Seed-URL beispielsweise lautethttps://example.com/docs, sucht der Crawler nach https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, und so weiter.

Anmerkung

Web Crawler folgt keinen rekursiven Sitemap-Indexverweisen. Es werden nur die URLs verwendet, die direkt in einer erkannten Sitemap aufgeführt sind. Die Sitemap-Direktiven in robots.txt werden nicht für die Erkennung von Sitemaps verwendet.

Robots.txt -Compliance

Web Crawler respektiert das Protokoll robots.txt und berücksichtigt Benutzeragenten und Direktiven. allow/disallow Auf diese Weise können Sie steuern, wie der Crawler auf Ihre Website zugreift.

So funktioniert die Überprüfung von robots.txt

Host-level Überprüfung: Web Crawler liest Dateien vom Typ robots.txt auf Host-Ebene (zum Beispiel. com/robots.txt)
Unterstützung mehrerer Hosts: Bei Domains mit mehreren Hosts beachtet Web Crawler die Robots-Regeln für jeden Host separat
Fallback-Verhalten: Wenn der Web Crawler die Datei robots.txt aufgrund von Blockierung, Analysefehlern oder Timeouts nicht abrufen kann, verhält er sich so, als ob robots.txt nicht existiert. In diesem Fall fährt der Crawler mit dem Crawler mit dem Crawlen der Site fort.

Unterstützte Felder von robots.txt

Web Crawler erkennt diese robots.txt -Felder (bei Feldnamen wird nicht zwischen Groß- und Kleinschreibung unterschieden, bei Werten wird zwischen Groß- und Kleinschreibung unterschieden):

user-agent: Identifiziert, für welchen Crawler die Regeln gelten.
allow: Ein URL-Pfad, der gecrawlt werden kann.
disallow: Ein URL-Pfad, der möglicherweise nicht gecrawlt werden kann.
crawl-delay: Die Wartezeit (in Sekunden) zwischen Anfragen an Ihre Website.

Unterstützung für Metatags

Web Crawler unterstützt Robots-Metatags auf Seitenebene, mit denen Sie steuern können, wie Ihre Daten verwendet werden. Sie können Einstellungen auf Seitenebene angeben, indem Sie ein Metatag auf HTML-Seiten oder in einen HTTP-Header einfügen.

Unterstützte Metatags

noindex: Indexieren Sie die Seite nicht. Wenn Sie diese Regel nicht angeben, ist die Seite möglicherweise indexiert und kann in Erlebnissen erscheinen.
nofollow: Folgen Sie nicht den Links auf dieser Seite. Wenn Sie diese Regel nicht angeben, kann Web Crawler die Links auf der Seite verwenden, um diese verlinkten Seiten zu finden.

Sie können mehrere Werte mit einem Komma kombinieren (z. B. „noindex, nofollow“).

Anmerkung

Um Metatags zu erkennen, muss Web Crawler auf Ihre Seite zugreifen. Blockieren Sie Ihre Seite nicht mit robots.txt, da dies verhindert, dass die Seite erneut gecrawlt wird.

Fehlerbehebung

Verwenden Sie diesen Abschnitt, um häufig auftretende Probleme mit der Web Crawler-Integration zu lösen.

Authentication failures (Authentifizierungsfehler)

Symptome:

Fehlermeldungen „Authentifizierung nicht möglich“
401/403 HTTP-Antworten
Umleitungsschleifen auf der Anmeldeseite
Fehler beim Sitzungs-Timeout

Schritte zur Lösung:

Stellen Sie sicher, dass die Site von der AWS Region aus erreichbar ist, in der die Amazon Quick-Instance eingerichtet ist.
Stellen Sie sicher, dass Ihre Anmeldeinformationen korrekt und nicht abgelaufen sind.
Überprüfen Sie die Verfügbarkeit und Zugänglichkeit der Authentifizierungsendpunkte.
Validieren Sie XPath-Konfigurationen, indem Sie sie in Browser-Entwicklertools testen.
Lesen Sie die Browser-Netzwerkprotokolle, um den Authentifizierungsablauf zu verstehen.
Stellen Sie sicher, dass die URL der Anmeldeseite korrekt und zugänglich ist.
Testen Sie die Authentifizierung manuell mit denselben Anmeldeinformationen.

Zugriffs- und Verbindungsprobleme

Symptome:

Verbindungs-Timeouts und Netzwerkfehler
Fehler, die über das Netzwerk nicht erreichbar sind
Fehler bei der DNS-Auflösung

Schritte zur Lösung:

Überprüfen Sie die Netzwerkkonnektivität zu den Ziel-Websites.
Überprüfen Sie die Barrierefreiheit der Website:
- Überprüfen Sie die DNS-Auflösung für Zieldomänen.
- Überprüfen Sie die SSL/TLS Konfiguration und die Zertifikate.
- Testen Sie nach Möglichkeit den Zugriff von verschiedenen Netzwerken aus.

DNS-Auflösung

Der Web Crawler verwendet DNS, um Hostnamen von Websites (z. B.www.example.com) in IP-Adressen aufzulösen. Standardmäßig verwendet er die öffentliche DNS-Auflösung.

Beim Crawlen von Websites innerhalb einer VPC müssen Sie möglicherweise einen privaten DNS-Server konfigurieren, damit der Crawler Hostnamen für interne Websites auflösen kann. Wählen Sie je nach Ihrer VPC-Konfiguration eine der folgenden Optionen aus:

Den VPC-provided DNS-Server verwenden — Wenn in Ihrer VPC sowohl DNS-Hostnamen als auch DNS-Auflösung aktiviert sind, können Sie den Standard-VPC-DNS-Resolver verwenden (normalerweise 10.0.0.2 oder allgemeiner die VPC CIDR Base+2). Weitere Informationen finden Sie unter VPC.
Verwenden Sie einen benutzerdefinierten DNS-Server — Wenn Ihre VPC einen benutzerdefinierten DNS-Resolver verwendet, geben Sie die IP-Adresse des internen DNS-Servers Ihrer Organisation an. Wenden Sie sich an Ihren Netzwerkadministrator, um diese Adresse zu erhalten.

Wenn Sie keinen DNS-Server konfigurieren, löst der Crawler nur öffentlich registrierte Hostnamen auf.

Symptome:

Nur die Seed-URL wird indexiert, es wurden keine weiteren Seiten entdeckt
Der Crawl wurde erfolgreich abgeschlossen, es wird jedoch nur ein Dokument zurückgegeben

Schritte zur Lösung:

Web Crawler führt Seiteninhalte aus JavaScript und rendert sie, simuliert jedoch keine Benutzerinteraktionen wie Klicks, Scrollen oder Hover-Aktionen. Wenn Ihre Website Navigationslinks durch Benutzerinteraktion lädt (z. B. Klick-Handler, unendliches Scrollen oder dynamische Menüs), kann der Crawler diese Links nicht erkennen.
Untersuchen Sie Ihre Seite in den Browser-Entwicklertools, um zu überprüfen, ob Navigationslinks <a href="..."> Standardelemente verwenden. Wenn Links stattdessen über JavaScript Event-Handler weitergeleitet werden, folgt der Crawler ihnen nicht.
Wenn Ihre Website eine Sitemap bereitstellt, sucht Web Crawler automatisch nach gängigen Sitemap-Pfaden in Ihren Seed-URLs. Stellen Sie sicher, dass Ihre Sitemap an einem Standardspeicherort verfügbar ist (z. B./sitemap.xml), damit der Crawler zusätzliche URLs erkennen kann, ohne sich auf die Extraktion von In-Page-Links verlassen zu müssen.
Alternativ können Sie alle Zielseiten-URLs direkt als Seed-URLs angeben.
Wenn Inhalte als HTML-, PDF- oder Textdateien exportiert werden können, sollten Sie stattdessen den Amazon S3 S3-Connector als Datenquelle verwenden.

Probleme beim Crawlen und beim Inhalt

Symptome:

Fehlender oder unvollständiger Inhalt
Unvollständige Crawls oder vorzeitiger Abbruch
Fehler bei der Ratenbegrenzung (429 Antworten)
Inhalt wurde nicht richtig indexiert

Schritte zur Lösung:

Überprüfen Sie die Einschränkungen von robots.txt:
- Überprüfen Sie die Datei robots.txt auf Crawling-Einschränkungen.
- Stellen Sie sicher, dass der Crawler auf Zielpfade zugreifen darf.
- Stellen Sie sicher, dass Inhalte nicht durch die Einhaltung von robots.txt blockiert werden.
Überprüfen Sie die Ratenbegrenzung und Drosselung:
- Überwachen Sie die Antwort-Header auf Informationen zur Ratenbegrenzung.
- Implementieren Sie angemessene Crawling-Verzögerungen.
Überprüfen Sie URL-Muster und Filter:
- Testen Sie Regex-Muster auf Richtigkeit.
- Überprüfen Sie die Formatierung und Struktur der URL.
- Überprüfen Sie die include/exclude Musterlogik.
Inhaltsbeschränkungen überprüfen:
- Suchen Sie auf Seiten nach Noindex-Metatags.
- Überprüfen Sie die Unterstützung von Inhaltstypen.
- Stellen Sie sicher, dass die Inhaltsgröße innerhalb der Grenzen liegt.
Aktualisieren Sie die Wartezeit so, dass der Inhalt auf der Seite geladen wird, bevor der Crawler mit dem Crawlen beginnt.

Bekannte Beschränkungen

Für die Web Crawler-Integration gelten die folgenden Einschränkungen:

URL-Beschränkungen: Maximal 10 Seed-URLs pro Datensatz. Sie können im Feld Seed-URL keine Sitemap-URLs angeben.
Crawl-Tiefe: Maximale Crawl-Tiefe von 10 Stufen
Sicherheitsanforderungen: HTTPS ist für Web-Proxy-Konfigurationen erforderlich

Die folgenden Einschränkungen gelten, wenn Sie den Web Crawler mit einer VPC-Verbindung verwenden:

Keine HTTP/3 (QUIC-) Unterstützung: HTTP/3 wird nicht unterstützt. Auf die meisten Websites wird HTTP/2 automatisch zurückgegriffen, aber auf Websites, die HTTP/3 nur für sie konfiguriert sind, kann nicht zugegriffen werden.
DNS über TCP erforderlich: Die DNS-Auflösung muss TCP verwenden. Stellen Sie sicher, dass Ihr DNS-Server DNS über TCP unterstützt, bevor Sie VPC-Crawling konfigurieren.
Öffentlich vertrauenswürdige SSL-Zertifikate erforderlich: Interne Websites müssen ein Zertifikat einer bekannten Zertifizierungsstelle verwenden (z. B. Let's Encrypt oder). DigiCert Websites, die selbstsignierte oder private CA-Zertifikate verwenden, können keine Verbindung herstellen.
Nur IPv4: Es werden nur IPv4-Adressen unterstützt. Websites, auf die ausschließlich über IPv6 zugegriffen werden kann, können nicht gecrawlt werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Integration von Visier

Zendesk-Integration

Webcrawler-Integration

Funktionen des Web Crawlers

Anmerkung

Voraussetzungen

Bereiten Sie den Zugriff und die Authentifizierung der Website vor

XPath-Konfigurationsbeispiele

Richten Sie die Web Crawler-Integration ein

Anmerkung

Konfigurieren Sie das Crawling

URLs und Inhaltsquellen konfigurieren

Direkte URLs

Inhaltsfilter und Crawl-Einstellungen

Einstellungen für den Crawling-Bereich

Wissensdatenbanken verwalten

Bestehende Wissensdatenbanken bearbeiten

Datei-Crawling und Datei-Crawling

Crawling-Verhalten und Synchronisierungskonfiguration

Erkennung von Sitemaps

Anmerkung

Robots.txt -Compliance

So funktioniert die Überprüfung von robots.txt

Unterstützte Felder von robots.txt

Unterstützung für Metatags

Unterstützte Metatags

Anmerkung

Fehlerbehebung

Authentication failures (Authentifizierungsfehler)

Zugriffs- und Verbindungsprobleme

DNS-Auflösung

JavaScript-dependent Navigation

Probleme beim Crawlen und beim Inhalt

Bekannte Beschränkungen