Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Merayapi halaman web untuk basis pengetahuan Anda
Amazon Bedrock menyediakan Web Crawler terhubung ke dan meng-crawl URL yang telah Anda pilih untuk digunakan di basis pengetahuan Amazon Bedrock Anda. Anda dapat merayapi halaman situs web sesuai dengan cakupan atau batasan yang ditetapkan untuk URL yang Anda pilih. Anda dapat merayapi halaman situs web menggunakan Konsol AWS Manajemen untuk Amazon Bedrock
catatan
Konektor sumber data Web Crawler dalam rilis pratinjau dan dapat berubah sewaktu-waktu.
Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon
Web Crawler menghormati robots.txt sesuai dengan RFC 9309
Ada batasan berapa banyak item konten halaman web dan MB per item konten yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.
Fitur yang didukung
Web Crawler menghubungkan dan merayapi halaman HTML mulai dari URL benih, melintasi semua tautan anak di bawah domain dan jalur utama teratas yang sama. Jika salah satu halaman HTML mereferensikan dokumen yang didukung, Web Crawler akan mengambil dokumen-dokumen ini, terlepas dari apakah mereka berada dalam domain utama teratas yang sama. Anda dapat mengubah perilaku crawling dengan mengubah konfigurasi crawling - lihat. Konfigurasi koneksi
Berikut ini didukung bagi Anda untuk:
-
Pilih beberapa URL sumber untuk dirayapi dan setel cakupan URL agar hanya dirayapi host atau juga menyertakan subdomain.
-
Merayapi halaman web statis yang merupakan bagian dari URL sumber Anda.
-
Tentukan akhiran Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri.
-
Sertakan atau kecualikan URL tertentu yang cocok dengan pola filter.
-
Hormati arahan robots.txt standar seperti 'Allow' dan 'Disallow'.
-
Batasi cakupan URL untuk dirayapi dan secara opsional mengecualikan URL yang cocok dengan pola filter.
-
Batasi kecepatan URL perayapan dan jumlah maksimum halaman yang akan dirayapi.
-
Melihat status URL yang dirayapi di Amazon CloudWatch
Prasyarat
Untuk menggunakan Web Crawler, pastikan Anda:.
-
Periksa apakah Anda berwenang untuk merayapi URL sumber Anda.
-
Memeriksa jalur ke robots.txt yang sesuai dengan URL sumber Anda tidak memblokir URL agar tidak dirayapi. Web Crawler mematuhi standar robots.txt: secara
disallowdefault jika robots.txt tidak ditemukan untuk situs web. Web Crawler menghormati robots.txt sesuai dengan RFC9309. Anda juga dapat menentukan sufiks header Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri. Untuk informasi selengkapnya, lihat Akses URL Perayap Web dalam Konfigurasi koneksi petunjuk di halaman ini. -
Aktifkan pengiriman CloudWatch Log dan ikuti contoh log Perayap Web untuk melihat status pekerjaan pengambilan data Anda untuk menelan konten web, dan jika URL tertentu tidak dapat diambil.
catatan
Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon
Konfigurasi koneksi
Untuk informasi selengkapnya tentang cakupan sinkronisasi untuk merayapi URL, inclusion/exclusion filter, akses URL, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:
Anda dapat membatasi cakupan URL untuk dirayapi berdasarkan setiap hubungan spesifik URL halaman dengan URL benih. Untuk perayapan yang lebih cepat, Anda dapat membatasi URL ke URL yang memiliki host dan jalur URL awal yang sama dari URL benih. Untuk perayapan yang lebih luas, Anda dapat memilih untuk merayapi URL dengan host yang sama atau dalam subdomain mana pun dari URL benih.
Anda dapat memilih dari opsi berikut.
-
Default: Batasi perayapan ke halaman web milik host yang sama dan dengan jalur URL awal yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agents/”. URL saudara seperti "https://aws.amazon.com/ec2/" tidak dirayapi, misalnya.
-
Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti"https://aws.amazon.com/ec2”.
-
Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan URL benih. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka halaman web apa pun yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com
catatan
Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.
Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.
Web Crawler mendukung situs web statis.
Anda juga dapat membatasi kecepatan crawling URL untuk mengontrol pembatasan kecepatan crawling. Anda menetapkan jumlah maksimum URL yang dirayapi per host per menit. Selain itu, Anda juga dapat mengatur jumlah maksimum (hingga 25.000) dari total halaman web untuk dirayapi. Perhatikan bahwa jika jumlah total halaman web dari URL sumber Anda melebihi maksimum yang ditetapkan, maka sync/ingestion pekerjaan sumber data Anda akan gagal.
Anda dapat menyertakan atau mengecualikan URL tertentu sesuai dengan cakupan Anda. Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file. Jika Anda menentukan filter penyertaan dan pengecualian dan keduanya cocok dengan URL, filter pengecualian akan diutamakan dan konten web tidak dirayapi.
penting
Filter pola ekspresi reguler bermasalah yang menyebabkan bencana mundur dan melihat ke depan ditolak.
Contoh pola filter ekspresi reguler untuk mengecualikan URL yang diakhiri dengan lampiran halaman web “.pdf” atau PDF: “.*\ .pdf$”
Contoh pola filter inklusi untuk hanya merayapi URL di bawah jalur tertentu: "https://www\ .example\. com/docs/. *”
Anda dapat menggunakan Web Crawler untuk merayapi halaman situs web yang diizinkan untuk dirayapi.
Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon
Web Crawler menghormati robots.txt sesuai dengan RFC 9309
Anda dapat menentukan bot agen pengguna tertentu untuk 'Izinkan' atau 'Larang' agen pengguna untuk merayapi URL sumber Anda. Anda dapat memodifikasi file robots.txt situs web Anda untuk mengontrol bagaimana Web Crawler merayapi URL sumber Anda. Crawler pertama-tama akan mencari bedrockbot-UUID aturan dan kemudian untuk bedrockbot aturan generik dalam file robots.txt.
Anda juga dapat menambahkan User-Agent akhiran yang dapat digunakan untuk mengizinkan crawler Anda di sistem perlindungan bot. Perhatikan bahwa akhiran ini tidak perlu ditambahkan ke robots.txt file untuk memastikan bahwa tidak ada yang dapat meniru string Agen Pengguna. Misalnya, untuk mengizinkan Perayap Web merayapi semua konten situs web dan melarang perayapan untuk robot lain, gunakan arahan berikut:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Setiap kali Web Crawler berjalan, ia mengambil konten untuk semua URL yang dapat dijangkau dari URL sumber dan yang cocok dengan cakupan dan filter. Untuk sinkronisasi tambahan setelah sinkronisasi pertama semua konten, Amazon Bedrock akan memperbarui basis pengetahuan Anda dengan konten baru dan yang dimodifikasi, dan akan menghapus konten lama yang tidak lagi ada. Kadang-kadang, crawler mungkin tidak dapat mengetahui apakah konten telah dihapus dari situs web; dan dalam hal ini akan salah di sisi melestarikan konten lama di basis pengetahuan Anda.
Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPI atau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.
penting
Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.