Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Crawlen von Webseiten für Ihre Wissensdatenbank
Der von Amazon Bedrock bereitgestellte Webcrawler stellt eine Verbindung zu URLs her, die Sie für die Verwendung in Ihrer Amazon-Bedrock-Wissensdatenbank ausgewählt haben, und crawlt diese. Sie können Webseiten gemäß Ihrem festgelegten Bereich oder den von Ihnen festgelegten Grenzwerten für Ihre ausgewählten URLs crawlen. Sie können Webseiten entweder mit der AWS Management Console für Amazon Bedrock
Anmerkung
Der Webcrawler-Datenquellen-Connector befindet sich in der Vorversion und kann sich ändern.
Bei der Auswahl der zu Crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung
Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309
Die Anzahl der Inhaltselemente der Webseite und die Anzahl der MB pro Inhaltselement, die gecrawlt werden können, ist begrenzt. Weitere Informationen finden Sie unter Kontingente für Wissensdatenbanken.
Unterstützte Features
Der Webcrawler stellt ausgehend von der Seed-URL eine Verbindung zu HTML-Seiten her und crawlt diese. Dabei werden alle untergeordneten Links unter derselben primären Top-Domain und demselben Pfad durchlaufen. Wenn eine der HTML-Seiten auf unterstützte Dokumente verweist, ruft der Webcrawler diese Dokumente ab, unabhängig davon, ob sie sich innerhalb derselben obersten primären Domain befinden. Sie können das Crawling-Verhalten ändern, indem Sie eine andere Crawling-Konfiguration vornehmen. Weitere Informationen finden Sie unter Konfiguration der Verbindung.
Die Ausführung der folgenden Schritte wird unterstützt:
-
Wählen Sie mehrere Quell-URLs für das Crawlen aus und legen Sie den URL-Bereich so fest, dass nur der Host gecrawlt wird oder auch Subdomains einbezogen werden.
-
Crawlen Sie statische Webseiten, die Teil Ihrer Quell-URLs sind.
-
Geben Sie ein angepasstes Suffix für Benutzeragenten an, um Regeln für Ihren eigenen Crawler festzulegen.
-
Schließen Sie bestimmte URLs, die einem Filtermuster entsprechen, ein oder aus.
-
Beachten Sie die Standardanweisungen von robots.txt wie „Zulassen“ und „Nicht zulassen“.
-
Begrenzen Sie den Bereich der zu crawlenden URLs und schließen Sie optional URLs aus, die einem Filtermuster entsprechen.
-
Begrenzen Sie die Crawling-Rate von URLs und die maximale Anzahl der zu crawlenden Seiten.
-
Den Status gecrawlter URLs in Amazon anzeigen CloudWatch
Voraussetzungen
Führen Sie die folgenden Schritte aus, um den Webcrawler zu verwenden:.
-
Vergewissern Sie sich, dass Sie berechtigt sind, Ihre Quell-URLs zu crawlen.
-
Vergewissern Sie sich, dass der Pfad zu robots.txt, der Ihren Quell-URLs entspricht, nicht verhindert, dass die URLs gecrawlt werden. Der Webcrawler hält sich an die Standards von robots.txt: standardmäßig
disallow, wenn robots.txt für die Website nicht gefunden wird. Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309. Sie können auch ein angepasstes Suffix für Benutzeragenten angeben, um Regeln für Ihren eigenen Crawler festzulegen. Weitere Informationen finden Sie unter „Zugriff auf die Webcrawler-URL“ in den Anleitungen zu Konfiguration der Verbindung auf dieser Seite. -
Aktivieren Sie die Übertragung von CloudWatch Protokollen und folgen Sie den Beispielen für Webcrawler-Protokolle, um den Status Ihres Datenerfassungsauftrags für die Aufnahme von Webinhalten zu überprüfen und festzustellen, ob bestimmte URLs nicht abgerufen werden können.
Anmerkung
Bei der Auswahl der zu crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung
Konfiguration der Verbindung
Weitere Informationen zum Synchronisierungsbereich für das Crawlen von URLs, zu inclusion/exclusion Filtern, zum URL-Zugriff, zur inkrementellen Synchronisierung und zu deren Funktionsweise finden Sie unter:
Sie können den Bereich der zu crawlenden URLs basierend auf der spezifischen Beziehung der einzelnen Seed-URLs begrenzen. Um Crawl-Vorgänge zu beschleunigen, können Sie die URLs auf diejenigen beschränken, die denselben Host und denselben ursprünglichen URL-Pfad wie die Seed-URL aufweisen. Für umfassendere Crawl-Vorgänge können Sie auswählen, ob URLs mit demselben Host oder innerhalb einer beliebigen Subdomain der Seed-URL gecrawlt werden sollen.
Sie können aus den folgenden Optionen auswählen.
-
Standard: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören und über denselben ursprünglichen URL-Pfad verfügen. Wenn die Seed-URL beispielsweise "https://aws.amazon.com/bedrock/" lautet, werden nur dieser Pfad und Webseiten, die von diesem Pfad ausgehen, gecrawlt, z. B. "“. https://aws.amazon.com/bedrock/agents/ Gleichrangige URLs wie "https://aws.amazon.com/ec2/" werden beispielsweise nicht gecrawlt.
-
Nur Host: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören. Bei einer Seed-URL von "https://aws.amazon.com/bedrock/" werden beispielsweise auch Webseiten mit "https://aws.amazon.com" gecrawlt, wie "“. https://aws.amazon.com/ec2
-
Subdomains: Schließt das Crawling aller Webseiten ein, deren primäre Domain mit der der Seed-URL identisch ist. Bei einer Seed-URL von "https://aws.amazon.com/bedrock/" wird beispielsweise jede Webseite gecrawlt, die „amazon.com“ (Subdomain) enthält, wie "“. https://www.amazon.com
Anmerkung
Stellen Sie sicher, dass Sie keine potenziell überlastete Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbegrenzung zu crawlen. Das Crawling großer Websites nimmt sehr viel Zeit in Anspruch.
Unterstützte Dateitypen werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist.
Der Webcrawler unterstützt statische Websites.
Sie können auch die Crawling-Rate für URLs begrenzen, um die Drosselung der Crawling-Geschwindigkeit zu steuern. Sie legen die maximale Anzahl von URLs fest, die pro Host pro Minute gecrawlt werden. Darüber hinaus können Sie auch die maximale Anzahl (bis zu 25 000) aller Webseiten festlegen, die gecrawlt werden sollen. Beachten Sie, dass Ihr sync/ingestion Datenquellen-Job fehlschlägt, wenn die Gesamtzahl der Webseiten aus Ihren Quell-URLs das festgelegte Maximum überschreitet.
Sie können je nach Bereich bestimmte URLs ein- oder ausschließen. Unterstützte Dateitypen werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist. Wenn Sie einen Ein- und einen Ausschlussfilter angeben und beide mit einer URL übereinstimmen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht gecrawlt.
Wichtig
Problematische Musterfilter mit regulären Ausdrücken, die zu einer katastrophalen Rückverfolgung und Vorausschau führen, werden abgelehnt.
Ein Beispiel für ein Filtermuster für reguläre Ausdrücke zum Ausschließen von URLs, die mit „.pdf“ enden, oder von PDF-Webseitenanhängen: „.*\.pdf$“
Ein Beispiel für ein Inklusionsfiltermuster, mit dem nur URLs unter einem bestimmten Pfad gecrawlt werden: "https://www\ .example\. com/docs/. *“
Sie können den Webcrawler verwenden, um die Seiten von Websites zu crawlen, für deren Crawling Sie autorisiert sind.
Bei der Auswahl der zu crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung
Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309
Sie können festlegen, dass bestimmte Benutzer-Agent-Bots dem Benutzeragenten das Crawlen Ihrer Quell-URLs entweder erlauben oder verbieten. Sie können die Datei „robots.txt“ Ihrer Website ändern, um zu steuern, wie der Webcrawler Ihre Quell-URLs crawlt. Der Crawler sucht zuerst nach bedrockbot-UUID -Regeln und dann nach generischen bedrockbot-Regeln in der Datei „robots.txt“.
Sie können auch ein User-Agent Suffix hinzufügen, das verwendet werden kann, um Ihren Crawler in Bot-Schutzsystemen auf eine Zulassungsliste zu setzen. Beachten Sie, dass dieses Suffix der robots.txt-Datei nicht hinzugefügt werden muss, um sicherzustellen, dass niemand die Zeichenfolge „Benutzeragent“ nachahmen kann. Verwenden Sie beispielsweise die folgende Richtlinie, um dem Webcrawler das Crawling aller Webseiteninhalte zu ermöglichen und es allen anderen Robotern zu verbieten:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Bei jeder Ausführung des Webcrawlers werden Inhalte für alle URLs abgerufen, die über die Quell-URLs erreichbar sind und dem Bereich und den Filtern entsprechen. Bei inkrementellen Synchronisierungen aktualisiert Amazon Bedrock Ihre Wissensdatenbank nach der ersten Synchronisierung aller Inhalte mit neuen und geänderten Inhalten und entfernt alte Inhalte, die nicht mehr vorhanden sind. Gelegentlich kann der Crawler möglicherweise nicht erkennen, ob Inhalte von der Website entfernt wurden. In diesem Fall versucht er, alte Inhalte in Ihrer Wissensdatenbank beizubehalten.
Um Ihre Datenquelle mit Ihrer Wissensdatenbank zu synchronisieren, verwenden Sie die StartIngestionJobAPI oder wählen Sie Ihre Wissensdatenbank in der Konsole aus und wählen Sie im Bereich Datenquellenübersicht die Option Synchronisieren aus.
Wichtig
Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der bedrock:Retrieve-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter Berechtigungen für die Wissensdatenbank.