Webcrawler-Integration - Amazon Quick

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Webcrawler-Integration

Mit der Web Crawler-Integration in Amazon Quick können Sie Wissensdatenbanken aus Webseiteninhalten erstellen, indem Sie Webseiten crawlen und indexieren. Diese Integration unterstützt Datenaufnahmefunktionen mit unterschiedlichen Authentifizierungsoptionen.

Funktionen des Web Crawlers

Web Crawler-Benutzer können Fragen zu Inhalten stellen, die auf Websites und Webseiten gespeichert sind. Benutzer können beispielsweise Dokumentationsseiten, Wissensdatenbanken oder bestimmte Informationen auf mehreren Webseiten durchsuchen.

Die Integration hilft Benutzern, unabhängig von Standort oder Typ auf Webinhalte zuzugreifen und diese zu verstehen. Es bietet kontextbezogene Details wie Veröffentlichungsdaten, Änderungsverlauf und Seitenbesitz für eine effizientere Informationssuche.

Anmerkung

Die Web Crawler-Integration unterstützt nur die Datenaufnahme. Sie bietet keine Aktionsfunktionen für die Verwaltung von Websites oder Webdiensten.

Voraussetzungen

Bevor Sie die Web Crawler-Integration einrichten, stellen Sie sicher, dass Sie über Folgendes verfügen:

  • Website URLs , die gecrawlt und indexiert werden soll.

  • Ein Amazon Quick Enterprise-Abonnement.

  • Eine Website, die sich nicht hinter einer Firewall befindet und für deren Verbindung keine speziellen Browser-Plugins erforderlich sind.

Bereiten Sie den Zugriff und die Authentifizierung der Website vor

Bevor Sie die Integration in Amazon Quick einrichten, bereiten Sie Ihre Zugangsdaten für die Website vor. Die Web Crawler-Integration unterstützt verschiedene Authentifizierungsmethoden:

Keine Authentifizierung

Wird zum Crawlen von Websites verwendet, für die keine Authentifizierung erforderlich ist.

Grundlegende Authentifizierung

Standard-HTTP-Basisauthentifizierung für gesicherte Websites. Wenn Sie eine geschützte Site besuchen, zeigt Ihr Browser ein Dialogfeld an, in dem Sie nach Ihren Anmeldeinformationen gefragt werden.

Erforderliche Anmeldeinformationen:

  • URL der Anmeldeseite — Die URL der Anmeldeseite

  • Benutzername — Standardbenutzername für die Authentifizierung

  • Passwort — Grundlegendes Authentifizierungspasswort

Formularauthentifizierung

Für Websites, die auf Formularen basierende HTML-Anmeldeseiten verwenden. Sie geben XPath Ausdrücke an, um die Formularfelder auf der Anmeldeseite zu identifizieren.

XPath (XML Path Language) ist eine Abfragesprache zum Navigieren in Elementen in einem HTML- oder XML-Dokument. Um nach einem Element XPath für eine Webseite zu suchen, klicken Sie in Ihrem Browser mit der rechten Maustaste auf das Element und wählen Sie Inspizieren. Klicken Sie in den Entwicklertools mit der rechten Maustaste auf den markierten HTML-Code, wählen Sie Kopieren und dann Kopieren aus XPath.

Erforderliche Informationen:

  • URL der Anmeldeseite — URL des Anmeldeformulars (zum Beispielhttps://example.com/login)

  • Nutzername — Benutzername für die Anmeldung

  • Passwort - Login-Passwort

  • Feld Benutzername XPath — XPath zum Eingabefeld für den Benutzernamen (zum Beispiel//input[@id='username'])

  • Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (zum Beispiel//input[@id='username_button'])

  • Passwortfeld XPath — XPath zum Passwort-Eingabefeld (zum Beispiel//input[@id='password'])

  • Passwort-Taste XPath — XPath zur Passwort-Taste (zum Beispiel//button[@type='password'])

SAML-Authentifizierung

Für Websites, die SAML-basierte SSO-Authentifizierung (Single Sign-On) verwenden.

Die SAML-Authentifizierung (Security Assertion Markup Language) ist ein föderierter Identitätsstandard, der SSO ermöglicht. Benutzer authentifizieren sich über einen zentralen Identitätsanbieter (wie Microsoft Azure AD oder Okta), anstatt Anmeldeinformationen direkt in jede Anwendung einzugeben. Der Identitätsanbieter gibt ein sicheres Token an die Anwendung zurück, um den Zugriff zu gewähren.

Erforderliche Informationen:

  • URL der Anmeldeseite — URL der SAML-Anmeldeseite

  • Benutzername — SAML-Benutzername

  • Passwort — SAML-Passwort

  • Feld für den Benutzernamen XPath — XPath zum Eingabefeld für den Benutzernamen (zum Beispiel//input[@id='username'])

  • Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (zum Beispiel//input[@id='username_button'])

  • Passwortfeld XPath — XPath zum Passwort-Eingabefeld (zum Beispiel//input[@id='password'])

  • Passwort-Taste XPath — XPath zur Passwort-Taste (zum Beispiel//button[@type='password'])

XPath Konfigurationsbeispiele

Verwenden Sie diese XPath Beispiele, um die Formular- und SAML-Authentifizierung zu konfigurieren:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Richten Sie die Web Crawler-Integration ein

Nachdem Sie Ihre Zugriffsanforderungen für Websites vorbereitet haben, erstellen Sie die Web Crawler-Integration in Amazon Quick.

  1. Wählen Sie in der Amazon Quick-Konsole Integrationen aus.

  2. Wählen Sie Web Crawler aus den Integrationsoptionen aus und klicken Sie auf die Schaltfläche Hinzufügen (plus „+“).

  3. Wählen Sie „Auf Daten von Web Crawler zugreifen“ aus. Die Web Crawler-Integration unterstützt nur den Datenzugriff. Die Ausführung von Aktionen ist für Webcrawling nicht verfügbar.

  4. Konfigurieren Sie die Integrationsdetails und die Authentifizierungsmethode und erstellen Sie dann nach Bedarf Wissensdatenbanken.

    1. Wählen Sie den Authentifizierungstyp für Ihre Webcrawler-Integration.

    2. Geben Sie die erforderlichen Details basierend auf der von Ihnen gewählten Authentifizierungsmethode ein.

    3. (Optional) Wählen Sie eine VPC-Verbindung, um Websites zu crawlen, die in Ihrem privaten Netzwerk gehostet werden. Die VPC-Verbindung muss in den Admin-Einstellungen konfiguriert werden, bevor Sie sie hier auswählen können. Weitere Informationen finden Sie unter Einrichtung einer VPC für die Verwendung mit Amazon Quick.

      Anmerkung

      Sie können die VPC-Verbindung nicht ändern, nachdem die Integration erstellt wurde. Um eine andere VPC-Verbindung zu verwenden, erstellen Sie eine neue Integration.

    4. Wählen Sie Erstellen und fortfahren.

    5. Geben Sie den Namen und die Beschreibung für Ihre Wissensdatenbank ein.

    6. Fügen Sie den Inhalt hinzu URLs , den Sie crawlen möchten.

    7. Wählen Sie Erstellen aus.

Nachdem Sie „Erstellen“ ausgewählt haben, wird die Datensynchronisierung automatisch gestartet.

Konfigurieren Sie das Crawling

Sie können konfigurieren, welche Websites und Seiten gecrawlt werden sollen und wie der Inhalt gefiltert werden soll.

Konfiguration URLs und Inhaltsquellen

Konfigurieren Sie, welche Websites und Seiten gecrawlt werden sollen:

Direkt URLs

Geben Sie die Person URLs an, die gecrawlt werden soll:

https://example.com/docs https://example.com/blog https://example.com/support

Limit: Maximal 10 URLs pro Datensatz

Inhaltsfilter und Crawl-Einstellungen

Einstellungen für den Crawling-Bereich

Um diese Einstellungen anzeigen zu können, müssen Sie zunächst eine Wissensdatenbank einrichten und dann die Option für erweiterte Einstellungen prüfen.

Tiefe des Kriechens
  • Bereich: 0-10 (Standard: 1)

  • 0 = Nur Crawl angegeben URLs

  • 1 = schließt verlinkte Seiten ein, die eine Ebene tief sind

  • Höhere Werte folgen Links, die tiefer in die Site hineinreichen

Maximale Anzahl an Links pro Seite
  • Standard: 1000

  • Höchstwert: 1 000.

  • Steuert, wie vielen Links von jeder Seite aus gefolgt werden soll

Wait (Warten) Zeit
  • Standard: 1

  • Die Zeit (in Sekunden), die der Webcrawler auf jede Seite wartet, nachdem die Seite den Bereitschaftsstatus erreicht hat. Erhöhen Sie diesen Wert für Seiten mit dynamischem JavaScript Inhalt, der nach der Hauptvorlage geladen wird.

Wissensdatenbanken verwalten

Nachdem Sie Ihre Webcrawler-Integration eingerichtet haben, können Sie Wissensdatenbanken aus den Inhalten Ihrer gecrawlten Website erstellen und verwalten.

Bestehende Wissensdatenbanken bearbeiten

Sie können Ihre vorhandenen Web Crawler-Wissensdatenbanken ändern:

  1. Wählen Sie in der Amazon Quick-Konsole Knowledge Bases aus.

  2. Wählen Sie Ihre Web Crawler-Wissensdatenbank aus der Liste aus.

  3. Wählen Sie unter Aktionen das Dreipunktsymbol und anschließend Wissensdatenbank bearbeiten aus.

  4. Aktualisieren Sie Ihre Konfigurationseinstellungen nach Bedarf und wählen Sie Speichern.

Datei-Crawling und Datei-Crawling

Steuern Sie, ob das System Dateien und Anhänge verarbeitet, die über Webseiten verlinkt sind:

  • Crawling von Dateianhängen aktivieren — Wählen Sie diese Option, um Dateien und Anlagen, die sich auf Webseiten befinden, wie PDFs Dokumente und Mediendateien, zu crawlen und zu indizieren.

Crawling-Verhalten und Synchronisierungskonfiguration

Ihre Webcrawler-Integration folgt diesen Crawling-Praktiken:

  • Modell der inkrementellen Synchronisierung: Bei der ersten Synchronisierung wird ein vollständiger Crawl durchgeführt. Nachfolgende Synchronisierungen erfassen nur Änderungen.

  • Automatischer Wiederholungsversuch: Integrierte Wiederholungslogik für fehlgeschlagene Anfragen.

  • Behandlung von Duplikaten: Automatische Erkennung und Deduplizierung von. URLs

  • Crawler-Identifizierung: Identifiziert <UUID>sich selbst mit der User-Agent-Zeichenfolge "aws-quick-on-behalf-of-" in den Anforderungsheadern.

Erkennung von Sitemaps

Web Crawler sucht automatisch nach Sitemaps, indem er allgemeine Sitemap-Pfade an Ihren Seed anhängt. URLs Sie müssen die Sitemap nicht separat bereitstellen. URLs Die folgenden Pfade werden geprüft:

sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml

Wenn Ihre Seed-URL beispielsweise lautethttps://example.com/docs, sucht der Crawler nach https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, usw.

Anmerkung

Web Crawler folgt keinen rekursiven Sitemap-Indexverweisen. Es werden nur die direkt in einer erkannten Sitemap URLs aufgeführten verwendet. Die Sitemap-Direktiven in robots.txt werden nicht für die Sitemap-Erkennung verwendet.

Konformität mit Robots.txt

Web Crawler respektiert das Protokoll robots.txt und berücksichtigt Benutzeragenten und Richtlinien. allow/disallow Auf diese Weise können Sie steuern, wie der Crawler auf Ihre Website zugreift.

So funktioniert die Überprüfung von robots.txt
  • Prüfung auf Host-Ebene: Web Crawler liest Dateien vom Typ robots.txt auf Host-Ebene (z. B. example.com/robots.txt)

  • Unterstützung mehrerer Hosts: Bei Domains mit mehreren Hosts beachtet Web Crawler die Robots-Regeln für jeden Host separat

  • Fallback-Verhalten: Wenn der Web Crawler die Datei robots.txt aufgrund von Blockierung, Analysefehlern oder Timeouts nicht abrufen kann, verhält er sich so, als ob robots.txt nicht existiert. In diesem Fall fährt der Crawler mit dem Crawler mit dem Crawlen der Site fort.

Unterstützte Felder von robots.txt

Web Crawler erkennt diese robots.txt -Felder (bei Feldnamen wird nicht zwischen Groß- und Kleinschreibung unterschieden, bei Werten wird zwischen Groß- und Kleinschreibung unterschieden):

user-agent

Identifiziert, für welchen Crawler die Regeln gelten.

allow

Ein URL-Pfad, der gecrawlt werden kann.

disallow

Ein URL-Pfad, der möglicherweise nicht gecrawlt werden kann.

crawl-delay

Die Wartezeit (in Sekunden) zwischen Anfragen an Ihre Website.

Unterstützung für Metatags

Web Crawler unterstützt Robots-Metatags auf Seitenebene, mit denen Sie steuern können, wie Ihre Daten verwendet werden. Sie können Einstellungen auf Seitenebene angeben, indem Sie ein Metatag auf HTML-Seiten oder in einen HTTP-Header einfügen.

Unterstützte Metatags
noindex

Indexieren Sie die Seite nicht. Wenn Sie diese Regel nicht angeben, ist die Seite möglicherweise indexiert und kann in Erlebnissen erscheinen.

nofollow

Folgen Sie nicht den Links auf dieser Seite. Wenn Sie diese Regel nicht angeben, kann Web Crawler die Links auf der Seite verwenden, um diese verlinkten Seiten zu finden.

Sie können mehrere Werte mit einem Komma kombinieren (z. B. „noindex, nofollow“).

Anmerkung

Um Metatags zu erkennen, muss Web Crawler auf Ihre Seite zugreifen. Blockieren Sie Ihre Seite nicht mit robots.txt, da dies verhindert, dass die Seite erneut gecrawlt wird.

Fehlerbehebung

Verwenden Sie diesen Abschnitt, um häufig auftretende Probleme mit der Web Crawler-Integration zu lösen.

Authentication failures (Authentifizierungsfehler)

Symptome:

  • Fehlermeldungen „Authentifizierung nicht möglich“

  • 401/403 HTTP-Antworten

  • Umleitungsschleifen auf der Anmeldeseite

  • Fehler beim Sitzungs-Timeout

Schritte zur Lösung:

  1. Stellen Sie sicher, dass die Site von der AWS Region aus erreichbar ist, in der die Amazon Quick-Instance eingerichtet ist.

  2. Stellen Sie sicher, dass Ihre Anmeldeinformationen korrekt und nicht abgelaufen sind.

  3. Überprüfen Sie die Verfügbarkeit und Zugänglichkeit der Authentifizierungsendpunkte.

  4. Überprüfen Sie XPath Konfigurationen, indem Sie sie in Browser-Entwicklertools testen.

  5. Lesen Sie die Browser-Netzwerkprotokolle, um den Authentifizierungsablauf zu verstehen.

  6. Stellen Sie sicher, dass die URL der Anmeldeseite korrekt und zugänglich ist.

  7. Testen Sie die Authentifizierung manuell mit denselben Anmeldeinformationen.

Zugriffs- und Verbindungsprobleme

Symptome:

  • Verbindungs-Timeouts und Netzwerkfehler

  • Fehler, die über das Netzwerk nicht erreichbar sind

  • Fehler bei der DNS-Auflösung

Schritte zur Lösung:

  1. Überprüfen Sie die Netzwerkkonnektivität zu den Ziel-Websites.

  2. Überprüfen Sie die Barrierefreiheit der Website:

    • Überprüfen Sie die DNS-Auflösung für Zieldomänen.

    • Überprüfen Sie die SSL/TLS Konfiguration und die Zertifikate.

    • Testen Sie nach Möglichkeit den Zugriff von verschiedenen Netzwerken aus.

DNS-Auflösung

Der Web Crawler verwendet DNS, um Hostnamen von Websites (z. B.www.example.com) in IP-Adressen aufzulösen. Standardmäßig verwendet er die öffentliche DNS-Auflösung.

Beim Crawlen von Websites innerhalb einer VPC müssen Sie möglicherweise einen privaten DNS-Server konfigurieren, damit der Crawler Hostnamen für interne Websites auflösen kann. Wählen Sie je nach Ihrer VPC-Konfiguration eine der folgenden Optionen aus:

  1. Verwenden Sie den von VPC bereitgestellten DNS-Server — Wenn in Ihrer VPC sowohl DNS-Hostnamen als auch DNS-Auflösung aktiviert sind, können Sie den Standard-VPC-DNS-Resolver verwenden (normalerweise 10.0.0.2 oder allgemeiner die VPC CIDR Base+2). Weitere Informationen finden Sie unter VPC.

  2. Verwenden Sie einen benutzerdefinierten DNS-Server — Wenn Ihre VPC einen benutzerdefinierten DNS-Resolver verwendet, geben Sie die IP-Adresse des internen DNS-Servers Ihrer Organisation an. Wenden Sie sich an Ihren Netzwerkadministrator, um diese Adresse zu erhalten.

Wenn Sie keinen DNS-Server konfigurieren, löst der Crawler nur öffentlich registrierte Hostnamen auf.

JavaScript-abhängige Navigation

Symptome:

  • Nur die Seed-URL wird indexiert, es wurden keine weiteren Seiten erkannt

  • Der Crawl wurde erfolgreich abgeschlossen, es wird jedoch nur ein Dokument zurückgegeben

Schritte zur Lösung:

  1. Web Crawler führt Seiteninhalte aus JavaScript und rendert sie, simuliert jedoch keine Benutzerinteraktionen wie Klicks, Scrollen oder Hover-Aktionen. Wenn Ihre Website Navigationslinks durch Benutzerinteraktion lädt (z. B. Klick-Handler, unendliches Scrollen oder dynamische Menüs), kann der Crawler diese Links nicht erkennen.

  2. Untersuchen Sie Ihre Seite in den Browser-Entwicklertools, um zu überprüfen, ob Navigationslinks <a href="..."> Standardelemente verwenden. Wenn Links stattdessen über JavaScript Event-Handler weitergeleitet werden, folgt der Crawler ihnen nicht.

  3. Wenn Ihre Website eine Sitemap bereitstellt, sucht Web Crawler automatisch nach gängigen Sitemap-Pfaden in Ihrem Seed. URLs Stellen Sie sicher, dass Ihre Sitemap an einem Standardspeicherort verfügbar ist (z. B./sitemap.xml), damit der Crawler weitere entdecken kann, URLs ohne sich auf die Extraktion von In-Page-Links verlassen zu müssen.

  4. Alternativ können Sie die gesamte Zielseite URLs direkt als Startwert angeben. URLs

  5. Wenn Inhalte als HTML-, PDF- oder Textdateien exportiert werden können, sollten Sie stattdessen den Amazon S3 S3-Connector als Datenquelle verwenden.

Probleme beim Crawlen und beim Inhalt

Symptome:

  • Fehlender oder unvollständiger Inhalt

  • Unvollständige Crawls oder vorzeitiger Abbruch

  • Fehler bei der Ratenbegrenzung (429 Antworten)

  • Inhalt wurde nicht richtig indexiert

Schritte zur Lösung:

  1. Überprüfen Sie die Einschränkungen von robots.txt:

    • Überprüfen Sie die Datei robots.txt auf Crawling-Einschränkungen.

    • Stellen Sie sicher, dass der Crawler auf Zielpfade zugreifen darf.

    • Stellen Sie sicher, dass Inhalte nicht durch die Einhaltung von robots.txt blockiert werden.

  2. Überprüfen Sie die Ratenbegrenzung und Drosselung:

    • Überwachen Sie die Antwort-Header auf Informationen zur Ratenbegrenzung.

    • Implementieren Sie angemessene Crawling-Verzögerungen.

  3. Überprüfen Sie URL-Muster und Filter:

    • Testen Sie Regex-Muster auf Richtigkeit.

    • Überprüfen Sie die Formatierung und Struktur der URL.

    • Überprüfen Sie die include/exclude Musterlogik.

  4. Inhaltsbeschränkungen überprüfen:

    • Suchen Sie auf Seiten nach Noindex-Metatags.

    • Überprüfen Sie die Unterstützung von Inhaltstypen.

    • Stellen Sie sicher, dass die Inhaltsgröße innerhalb der Grenzen liegt.

  5. Aktualisieren Sie die Wartezeit so, dass der Inhalt auf der Seite geladen wird, bevor der Crawler mit dem Crawlen beginnt.

Bekannte Beschränkungen

Für die Web Crawler-Integration gelten die folgenden Einschränkungen:

  • URL-Beschränkungen: Maximal 10 Seeds URLs pro Datensatz. Sie können URLs im Feld Seed-URL keine Sitemap angeben.

  • Kriechtiefe: Maximale Kriechtiefe von 10 Stufen

  • Sicherheitsanforderungen: HTTPS ist für Web-Proxy-Konfigurationen erforderlich

Die folgenden Einschränkungen gelten, wenn Sie den Web Crawler mit einer VPC-Verbindung verwenden:

  • Keine HTTP/3 (QUIC) -Unterstützung: HTTP/3 wird nicht unterstützt. Die meisten Websites werden automatisch auf HTTP/2 zurückgreifen, aber auf Websites, die nur für HTTP/3 konfiguriert sind, kann nicht zugegriffen werden.

  • DNS über TCP erforderlich: Die DNS-Auflösung muss TCP verwenden. Stellen Sie sicher, dass Ihr DNS-Server DNS über TCP unterstützt, bevor Sie VPC-Crawling konfigurieren.

  • Öffentlich vertrauenswürdige SSL-Zertifikate erforderlich: Interne Websites müssen ein Zertifikat einer bekannten Zertifizierungsstelle verwenden (z. B. Let's Encrypt oder). DigiCert Websites, die selbstsignierte oder private CA-Zertifikate verwenden, können keine Verbindung herstellen.

  • IPv4 nur: Es werden nur IPv4 Adressen unterstützt. Websites, auf die ausschließlich über zugegriffen werden kann, IPv6 können nicht gecrawlt werden.