Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Webcrawler-Integration
Mit der Web Crawler-Integration in Amazon Quick können Sie Wissensdatenbanken aus Webseiteninhalten erstellen, indem Sie Webseiten crawlen und indexieren. Diese Integration unterstützt Datenaufnahmefunktionen mit unterschiedlichen Authentifizierungsoptionen.
Funktionen des Web Crawlers
Web Crawler-Benutzer können Fragen zu Inhalten stellen, die auf Websites und Webseiten gespeichert sind. Benutzer können beispielsweise Dokumentationsseiten, Wissensdatenbanken oder bestimmte Informationen auf mehreren Webseiten durchsuchen.
Die Integration hilft Benutzern, unabhängig von Standort oder Typ auf Webinhalte zuzugreifen und diese zu verstehen. Es bietet kontextbezogene Details wie Veröffentlichungsdaten, Änderungsverlauf und Seitenbesitz für eine effizientere Informationssuche.
Anmerkung
Die Web Crawler-Integration unterstützt nur die Datenaufnahme. Sie bietet keine Aktionsfunktionen für die Verwaltung von Websites oder Webdiensten.
Voraussetzungen
Bevor Sie die Web Crawler-Integration einrichten, stellen Sie sicher, dass Sie über Folgendes verfügen:
-
Website URLs , die gecrawlt und indexiert werden soll.
-
Ein Amazon Quick Enterprise-Abonnement.
-
Eine Website, die sich nicht hinter einer Firewall befindet und für deren Verbindung keine speziellen Browser-Plugins erforderlich sind.
Bereiten Sie den Zugriff und die Authentifizierung der Website vor
Bevor Sie die Integration in Amazon Quick einrichten, bereiten Sie Ihre Zugangsdaten für die Website vor. Die Web Crawler-Integration unterstützt verschiedene Authentifizierungsmethoden:
- Keine Authentifizierung
-
Wird zum Crawlen von Websites verwendet, für die keine Authentifizierung erforderlich ist.
- Grundlegende Authentifizierung
-
Standard-HTTP-Basisauthentifizierung für gesicherte Websites. Wenn Sie eine geschützte Site besuchen, zeigt Ihr Browser ein Dialogfeld an, in dem Sie nach Ihren Anmeldeinformationen gefragt werden.
Erforderliche Anmeldeinformationen:
-
URL der Anmeldeseite — Die URL der Anmeldeseite
Benutzername — Standardbenutzername für die Authentifizierung
Passwort — Grundlegendes Authentifizierungspasswort
-
- Formularauthentifizierung
-
Für Websites, die auf Formularen basierende HTML-Anmeldeseiten verwenden. Sie geben XPath Ausdrücke an, um die Formularfelder auf der Anmeldeseite zu identifizieren.
XPath (XML Path Language) ist eine Abfragesprache zum Navigieren in Elementen in einem HTML- oder XML-Dokument. Um nach einem Element XPath für eine Webseite zu suchen, klicken Sie in Ihrem Browser mit der rechten Maustaste auf das Element und wählen Sie Inspizieren. Klicken Sie in den Entwicklertools mit der rechten Maustaste auf den markierten HTML-Code, wählen Sie Kopieren und dann Kopieren aus XPath.
Erforderliche Informationen:
URL der Anmeldeseite — URL des Anmeldeformulars (zum Beispiel
https://example.com/login)Nutzername — Benutzername für die Anmeldung
Passwort - Login-Passwort
Feld Benutzername XPath — XPath zum Eingabefeld für den Benutzernamen (zum Beispiel
//input[@id='username'])-
Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (zum Beispiel
//input[@id='username_button']) Passwortfeld XPath — XPath zum Passwort-Eingabefeld (zum Beispiel
//input[@id='password'])Passwort-Taste XPath — XPath zur Passwort-Taste (zum Beispiel
//button[@type='password'])
- SAML-Authentifizierung
-
Für Websites, die SAML-basierte SSO-Authentifizierung (Single Sign-On) verwenden.
Die SAML-Authentifizierung (Security Assertion Markup Language) ist ein föderierter Identitätsstandard, der SSO ermöglicht. Benutzer authentifizieren sich über einen zentralen Identitätsanbieter (wie Microsoft Azure AD oder Okta), anstatt Anmeldeinformationen direkt in jede Anwendung einzugeben. Der Identitätsanbieter gibt ein sicheres Token an die Anwendung zurück, um den Zugriff zu gewähren.
Erforderliche Informationen:
URL der Anmeldeseite — URL der SAML-Anmeldeseite
Benutzername — SAML-Benutzername
Passwort — SAML-Passwort
-
Feld für den Benutzernamen XPath — XPath zum Eingabefeld für den Benutzernamen (zum Beispiel
//input[@id='username']) -
Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (zum Beispiel
//input[@id='username_button']) -
Passwortfeld XPath — XPath zum Passwort-Eingabefeld (zum Beispiel
//input[@id='password']) -
Passwort-Taste XPath — XPath zur Passwort-Taste (zum Beispiel
//button[@type='password'])
XPath Konfigurationsbeispiele
Verwenden Sie diese XPath Beispiele, um die Formular- und SAML-Authentifizierung zu konfigurieren:
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Richten Sie die Web Crawler-Integration ein
Nachdem Sie Ihre Zugriffsanforderungen für Websites vorbereitet haben, erstellen Sie die Web Crawler-Integration in Amazon Quick.
-
Wählen Sie in der Amazon Quick-Konsole Integrationen aus.
-
Wählen Sie Web Crawler aus den Integrationsoptionen aus und klicken Sie auf die Schaltfläche Hinzufügen (plus „+“).
-
Wählen Sie „Auf Daten von Web Crawler zugreifen“ aus. Die Web Crawler-Integration unterstützt nur den Datenzugriff. Die Ausführung von Aktionen ist für Webcrawling nicht verfügbar.
-
Konfigurieren Sie die Integrationsdetails und die Authentifizierungsmethode und erstellen Sie dann nach Bedarf Wissensdatenbanken.
-
Wählen Sie den Authentifizierungstyp für Ihre Webcrawler-Integration.
-
Geben Sie die erforderlichen Details basierend auf der von Ihnen gewählten Authentifizierungsmethode ein.
-
(Optional) Wählen Sie eine VPC-Verbindung, um Websites zu crawlen, die in Ihrem privaten Netzwerk gehostet werden. Die VPC-Verbindung muss in den Admin-Einstellungen konfiguriert werden, bevor Sie sie hier auswählen können. Weitere Informationen finden Sie unter Einrichtung einer VPC für die Verwendung mit Amazon Quick.
Anmerkung
Sie können die VPC-Verbindung nicht ändern, nachdem die Integration erstellt wurde. Um eine andere VPC-Verbindung zu verwenden, erstellen Sie eine neue Integration.
-
Wählen Sie Erstellen und fortfahren.
-
Geben Sie den Namen und die Beschreibung für Ihre Wissensdatenbank ein.
-
Fügen Sie den Inhalt hinzu URLs , den Sie crawlen möchten.
-
Wählen Sie Erstellen aus.
-
Nachdem Sie „Erstellen“ ausgewählt haben, wird die Datensynchronisierung automatisch gestartet.
Konfigurieren Sie das Crawling
Sie können konfigurieren, welche Websites und Seiten gecrawlt werden sollen und wie der Inhalt gefiltert werden soll.
Konfiguration URLs und Inhaltsquellen
Konfigurieren Sie, welche Websites und Seiten gecrawlt werden sollen:
Direkt URLs
Geben Sie die Person URLs an, die gecrawlt werden soll:
https://example.com/docs https://example.com/blog https://example.com/support
Limit: Maximal 10 URLs pro Datensatz
Inhaltsfilter und Crawl-Einstellungen
Einstellungen für den Crawling-Bereich
Um diese Einstellungen anzeigen zu können, müssen Sie zunächst eine Wissensdatenbank einrichten und dann die Option für erweiterte Einstellungen prüfen.
- Tiefe des Kriechens
-
Bereich: 0-10 (Standard: 1)
0 = Nur Crawl angegeben URLs
1 = schließt verlinkte Seiten ein, die eine Ebene tief sind
Höhere Werte folgen Links, die tiefer in die Site hineinreichen
- Maximale Anzahl an Links pro Seite
-
Standard: 1000
Höchstwert: 1 000.
Steuert, wie vielen Links von jeder Seite aus gefolgt werden soll
- Wait (Warten) Zeit
-
Standard: 1
-
Die Zeit (in Sekunden), die der Webcrawler auf jede Seite wartet, nachdem die Seite den Bereitschaftsstatus erreicht hat. Erhöhen Sie diesen Wert für Seiten mit dynamischem JavaScript Inhalt, der nach der Hauptvorlage geladen wird.
Wissensdatenbanken verwalten
Nachdem Sie Ihre Webcrawler-Integration eingerichtet haben, können Sie Wissensdatenbanken aus den Inhalten Ihrer gecrawlten Website erstellen und verwalten.
Bestehende Wissensdatenbanken bearbeiten
Sie können Ihre vorhandenen Web Crawler-Wissensdatenbanken ändern:
-
Wählen Sie in der Amazon Quick-Konsole Knowledge Bases aus.
-
Wählen Sie Ihre Web Crawler-Wissensdatenbank aus der Liste aus.
-
Wählen Sie unter Aktionen das Dreipunktsymbol und anschließend Wissensdatenbank bearbeiten aus.
-
Aktualisieren Sie Ihre Konfigurationseinstellungen nach Bedarf und wählen Sie Speichern.
Datei-Crawling und Datei-Crawling
Steuern Sie, ob das System Dateien und Anhänge verarbeitet, die über Webseiten verlinkt sind:
-
Crawling von Dateianhängen aktivieren — Wählen Sie diese Option, um Dateien und Anlagen, die sich auf Webseiten befinden, wie PDFs Dokumente und Mediendateien, zu crawlen und zu indizieren.
Crawling-Verhalten und Synchronisierungskonfiguration
Ihre Webcrawler-Integration folgt diesen Crawling-Praktiken:
Modell der inkrementellen Synchronisierung: Bei der ersten Synchronisierung wird ein vollständiger Crawl durchgeführt. Nachfolgende Synchronisierungen erfassen nur Änderungen.
Automatischer Wiederholungsversuch: Integrierte Wiederholungslogik für fehlgeschlagene Anfragen.
Behandlung von Duplikaten: Automatische Erkennung und Deduplizierung von. URLs
Crawler-Identifizierung: Identifiziert <UUID>sich selbst mit der User-Agent-Zeichenfolge "aws-quick-on-behalf-of-" in den Anforderungsheadern.
Erkennung von Sitemaps
Web Crawler sucht automatisch nach Sitemaps, indem er allgemeine Sitemap-Pfade an Ihren Seed anhängt. URLs Sie müssen die Sitemap nicht separat bereitstellen. URLs Die folgenden Pfade werden geprüft:
sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml
Wenn Ihre Seed-URL beispielsweise lautethttps://example.com/docs, sucht der Crawler nach https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, usw.
Anmerkung
Web Crawler folgt keinen rekursiven Sitemap-Indexverweisen. Es werden nur die direkt in einer erkannten Sitemap URLs aufgeführten verwendet. Die Sitemap-Direktiven in robots.txt werden nicht für die Sitemap-Erkennung verwendet.
Konformität mit Robots.txt
Web Crawler respektiert das Protokoll robots.txt und berücksichtigt Benutzeragenten und Richtlinien. allow/disallow Auf diese Weise können Sie steuern, wie der Crawler auf Ihre Website zugreift.
So funktioniert die Überprüfung von robots.txt
Prüfung auf Host-Ebene: Web Crawler liest Dateien vom Typ robots.txt auf Host-Ebene (z. B. example.com/robots.txt)
Unterstützung mehrerer Hosts: Bei Domains mit mehreren Hosts beachtet Web Crawler die Robots-Regeln für jeden Host separat
Fallback-Verhalten: Wenn der Web Crawler die Datei robots.txt aufgrund von Blockierung, Analysefehlern oder Timeouts nicht abrufen kann, verhält er sich so, als ob robots.txt nicht existiert. In diesem Fall fährt der Crawler mit dem Crawler mit dem Crawlen der Site fort.
Unterstützte Felder von robots.txt
Web Crawler erkennt diese robots.txt -Felder (bei Feldnamen wird nicht zwischen Groß- und Kleinschreibung unterschieden, bei Werten wird zwischen Groß- und Kleinschreibung unterschieden):
user-agentIdentifiziert, für welchen Crawler die Regeln gelten.
allowEin URL-Pfad, der gecrawlt werden kann.
disallowEin URL-Pfad, der möglicherweise nicht gecrawlt werden kann.
crawl-delayDie Wartezeit (in Sekunden) zwischen Anfragen an Ihre Website.
Unterstützung für Metatags
Web Crawler unterstützt Robots-Metatags auf Seitenebene, mit denen Sie steuern können, wie Ihre Daten verwendet werden. Sie können Einstellungen auf Seitenebene angeben, indem Sie ein Metatag auf HTML-Seiten oder in einen HTTP-Header einfügen.
Unterstützte Metatags
noindexIndexieren Sie die Seite nicht. Wenn Sie diese Regel nicht angeben, ist die Seite möglicherweise indexiert und kann in Erlebnissen erscheinen.
nofollowFolgen Sie nicht den Links auf dieser Seite. Wenn Sie diese Regel nicht angeben, kann Web Crawler die Links auf der Seite verwenden, um diese verlinkten Seiten zu finden.
Sie können mehrere Werte mit einem Komma kombinieren (z. B. „noindex, nofollow“).
Anmerkung
Um Metatags zu erkennen, muss Web Crawler auf Ihre Seite zugreifen. Blockieren Sie Ihre Seite nicht mit robots.txt, da dies verhindert, dass die Seite erneut gecrawlt wird.
Fehlerbehebung
Verwenden Sie diesen Abschnitt, um häufig auftretende Probleme mit der Web Crawler-Integration zu lösen.
Authentication failures (Authentifizierungsfehler)
Symptome:
Fehlermeldungen „Authentifizierung nicht möglich“
401/403 HTTP-Antworten
Umleitungsschleifen auf der Anmeldeseite
Fehler beim Sitzungs-Timeout
Schritte zur Lösung:
Stellen Sie sicher, dass die Site von der AWS Region aus erreichbar ist, in der die Amazon Quick-Instance eingerichtet ist.
Stellen Sie sicher, dass Ihre Anmeldeinformationen korrekt und nicht abgelaufen sind.
Überprüfen Sie die Verfügbarkeit und Zugänglichkeit der Authentifizierungsendpunkte.
Überprüfen Sie XPath Konfigurationen, indem Sie sie in Browser-Entwicklertools testen.
Lesen Sie die Browser-Netzwerkprotokolle, um den Authentifizierungsablauf zu verstehen.
Stellen Sie sicher, dass die URL der Anmeldeseite korrekt und zugänglich ist.
Testen Sie die Authentifizierung manuell mit denselben Anmeldeinformationen.
Zugriffs- und Verbindungsprobleme
Symptome:
Verbindungs-Timeouts und Netzwerkfehler
Fehler, die über das Netzwerk nicht erreichbar sind
Fehler bei der DNS-Auflösung
Schritte zur Lösung:
-
Überprüfen Sie die Netzwerkkonnektivität zu den Ziel-Websites.
-
Überprüfen Sie die Barrierefreiheit der Website:
Überprüfen Sie die DNS-Auflösung für Zieldomänen.
Überprüfen Sie die SSL/TLS Konfiguration und die Zertifikate.
Testen Sie nach Möglichkeit den Zugriff von verschiedenen Netzwerken aus.
DNS-Auflösung
Der Web Crawler verwendet DNS, um Hostnamen von Websites (z. B.www.example.com) in IP-Adressen aufzulösen. Standardmäßig verwendet er die öffentliche DNS-Auflösung.
Beim Crawlen von Websites innerhalb einer VPC müssen Sie möglicherweise einen privaten DNS-Server konfigurieren, damit der Crawler Hostnamen für interne Websites auflösen kann. Wählen Sie je nach Ihrer VPC-Konfiguration eine der folgenden Optionen aus:
-
Verwenden Sie den von VPC bereitgestellten DNS-Server — Wenn in Ihrer VPC sowohl DNS-Hostnamen als auch DNS-Auflösung aktiviert sind, können Sie den Standard-VPC-DNS-Resolver verwenden (normalerweise 10.0.0.2 oder allgemeiner die VPC CIDR Base+2). Weitere Informationen finden Sie unter VPC.
-
Verwenden Sie einen benutzerdefinierten DNS-Server — Wenn Ihre VPC einen benutzerdefinierten DNS-Resolver verwendet, geben Sie die IP-Adresse des internen DNS-Servers Ihrer Organisation an. Wenden Sie sich an Ihren Netzwerkadministrator, um diese Adresse zu erhalten.
Wenn Sie keinen DNS-Server konfigurieren, löst der Crawler nur öffentlich registrierte Hostnamen auf.
JavaScript-abhängige Navigation
Symptome:
Nur die Seed-URL wird indexiert, es wurden keine weiteren Seiten erkannt
Der Crawl wurde erfolgreich abgeschlossen, es wird jedoch nur ein Dokument zurückgegeben
Schritte zur Lösung:
-
Web Crawler führt Seiteninhalte aus JavaScript und rendert sie, simuliert jedoch keine Benutzerinteraktionen wie Klicks, Scrollen oder Hover-Aktionen. Wenn Ihre Website Navigationslinks durch Benutzerinteraktion lädt (z. B. Klick-Handler, unendliches Scrollen oder dynamische Menüs), kann der Crawler diese Links nicht erkennen.
-
Untersuchen Sie Ihre Seite in den Browser-Entwicklertools, um zu überprüfen, ob Navigationslinks
<a href="...">Standardelemente verwenden. Wenn Links stattdessen über JavaScript Event-Handler weitergeleitet werden, folgt der Crawler ihnen nicht. -
Wenn Ihre Website eine Sitemap bereitstellt, sucht Web Crawler automatisch nach gängigen Sitemap-Pfaden in Ihrem Seed. URLs Stellen Sie sicher, dass Ihre Sitemap an einem Standardspeicherort verfügbar ist (z. B.
/sitemap.xml), damit der Crawler weitere entdecken kann, URLs ohne sich auf die Extraktion von In-Page-Links verlassen zu müssen. -
Alternativ können Sie die gesamte Zielseite URLs direkt als Startwert angeben. URLs
-
Wenn Inhalte als HTML-, PDF- oder Textdateien exportiert werden können, sollten Sie stattdessen den Amazon S3 S3-Connector als Datenquelle verwenden.
Probleme beim Crawlen und beim Inhalt
Symptome:
Fehlender oder unvollständiger Inhalt
Unvollständige Crawls oder vorzeitiger Abbruch
Fehler bei der Ratenbegrenzung (429 Antworten)
Inhalt wurde nicht richtig indexiert
Schritte zur Lösung:
-
Überprüfen Sie die Einschränkungen von robots.txt:
Überprüfen Sie die Datei robots.txt auf Crawling-Einschränkungen.
Stellen Sie sicher, dass der Crawler auf Zielpfade zugreifen darf.
Stellen Sie sicher, dass Inhalte nicht durch die Einhaltung von robots.txt blockiert werden.
-
Überprüfen Sie die Ratenbegrenzung und Drosselung:
Überwachen Sie die Antwort-Header auf Informationen zur Ratenbegrenzung.
Implementieren Sie angemessene Crawling-Verzögerungen.
-
Überprüfen Sie URL-Muster und Filter:
Testen Sie Regex-Muster auf Richtigkeit.
Überprüfen Sie die Formatierung und Struktur der URL.
Überprüfen Sie die include/exclude Musterlogik.
-
Inhaltsbeschränkungen überprüfen:
Suchen Sie auf Seiten nach Noindex-Metatags.
Überprüfen Sie die Unterstützung von Inhaltstypen.
Stellen Sie sicher, dass die Inhaltsgröße innerhalb der Grenzen liegt.
-
Aktualisieren Sie die Wartezeit so, dass der Inhalt auf der Seite geladen wird, bevor der Crawler mit dem Crawlen beginnt.
Bekannte Beschränkungen
Für die Web Crawler-Integration gelten die folgenden Einschränkungen:
URL-Beschränkungen: Maximal 10 Seeds URLs pro Datensatz. Sie können URLs im Feld Seed-URL keine Sitemap angeben.
Kriechtiefe: Maximale Kriechtiefe von 10 Stufen
Sicherheitsanforderungen: HTTPS ist für Web-Proxy-Konfigurationen erforderlich
Die folgenden Einschränkungen gelten, wenn Sie den Web Crawler mit einer VPC-Verbindung verwenden:
Keine HTTP/3 (QUIC) -Unterstützung: HTTP/3 wird nicht unterstützt. Die meisten Websites werden automatisch auf HTTP/2 zurückgreifen, aber auf Websites, die nur für HTTP/3 konfiguriert sind, kann nicht zugegriffen werden.
DNS über TCP erforderlich: Die DNS-Auflösung muss TCP verwenden. Stellen Sie sicher, dass Ihr DNS-Server DNS über TCP unterstützt, bevor Sie VPC-Crawling konfigurieren.
Öffentlich vertrauenswürdige SSL-Zertifikate erforderlich: Interne Websites müssen ein Zertifikat einer bekannten Zertifizierungsstelle verwenden (z. B. Let's Encrypt oder). DigiCert Websites, die selbstsignierte oder private CA-Zertifikate verwenden, können keine Verbindung herstellen.
IPv4 nur: Es werden nur IPv4 Adressen unterstützt. Websites, auf die ausschließlich über zugegriffen werden kann, IPv6 können nicht gecrawlt werden.