Fitur yang didukung Prasyarat Konfigurasi koneksi

Merayapi halaman web untuk basis pengetahuan Anda

penting

Untuk akurasi pengambilan yang dioptimalkan dan pengalaman terkelola, kami merekomendasikan Amazon Bedrock Managed Knowledge Base.

Amazon Bedrock menyediakan Web Crawler terhubung ke dan meng-crawl URL yang telah Anda pilih untuk digunakan di basis pengetahuan Amazon Bedrock Anda. Anda dapat merayapi halaman situs web sesuai dengan cakupan atau batasan yang ditetapkan untuk URL yang Anda pilih. Anda dapat merayapi halaman situs web menggunakan Konsol AWS Manajemen untuk Amazon Bedrock atau CreateDataSourceAPI (lihat SDK yang didukung Amazon Bedrock dan). AWS CLI Saat ini, hanya penyimpanan vektor Amazon OpenSearch Tanpa Server yang tersedia untuk digunakan dengan sumber data ini.

catatan

Konektor sumber data Web Crawler dalam rilis pratinjau dan dapat berubah sewaktu-waktu.

Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon dan semua persyaratan Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk dirayapi dan harus menghormati konfigurasi robots.txt..

Web Crawler menghormati robots.txt sesuai dengan RFC 9309

Ada batasan berapa banyak item konten halaman web dan MB per item konten yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.

Fitur yang didukung

Web Crawler menghubungkan dan merayapi halaman HTML mulai dari URL benih, melintasi semua tautan anak di bawah domain dan jalur utama teratas yang sama. Jika salah satu halaman HTML mereferensikan dokumen yang didukung, Web Crawler akan mengambil dokumen-dokumen ini, terlepas dari apakah mereka berada dalam domain utama teratas yang sama. Anda dapat mengubah perilaku crawling dengan mengubah konfigurasi crawling - lihat. Konfigurasi koneksi

Berikut ini didukung bagi Anda untuk:

Pilih beberapa URL sumber untuk dirayapi dan setel cakupan URL agar hanya dirayapi host atau juga menyertakan subdomain.
Merayapi halaman web statis yang merupakan bagian dari URL sumber Anda.
Tentukan akhiran Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri.
Sertakan atau kecualikan URL tertentu yang cocok dengan pola filter.
Hormati arahan robots.txt standar seperti 'Allow' dan 'Disallow'.
Batasi cakupan URL untuk dirayapi dan secara opsional mengecualikan URL yang cocok dengan pola filter.
Batasi kecepatan URL perayapan dan jumlah maksimum halaman yang akan dirayapi.
Melihat status URL yang dirayapi di Amazon CloudWatch

Prasyarat

Untuk menggunakan Web Crawler, pastikan Anda:.

Periksa apakah Anda berwenang untuk merayapi URL sumber Anda.
Memeriksa jalur ke robots.txt yang sesuai dengan URL sumber Anda tidak memblokir URL agar tidak dirayapi. Web Crawler mematuhi standar robots.txt: secara disallow default jika robots.txt tidak ditemukan untuk situs web. Web Crawler menghormati robots.txt sesuai dengan RFC 9309. Anda juga dapat menentukan sufiks header Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri. Untuk informasi selengkapnya, lihat Akses URL Perayap Web dalam Konfigurasi koneksi petunjuk di halaman ini.
Aktifkan pengiriman CloudWatch Log dan ikuti contoh log Perayap Web untuk melihat status pekerjaan pengambilan data Anda untuk menelan konten web, dan jika URL tertentu tidak dapat diambil.

catatan

Konfigurasi koneksi

Untuk informasi selengkapnya tentang cakupan sinkronisasi untuk merayapi URL, inclusion/exclusion filter, akses URL, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:

Anda dapat membatasi cakupan URL untuk dirayapi berdasarkan setiap hubungan spesifik URL halaman dengan URL benih. Untuk perayapan yang lebih cepat, Anda dapat membatasi URL ke URL yang memiliki host dan jalur URL awal yang sama dari URL benih. Untuk perayapan yang lebih luas, Anda dapat memilih untuk merayapi URL dengan host yang sama atau dalam subdomain mana pun dari URL benih.

Anda dapat memilih dari opsi berikut.

Default: Batasi perayapan ke halaman web milik host yang sama dan dengan jalur URL awal yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agents/”. URL saudara seperti "https://aws.amazon.com/ec2/" tidak dirayapi, misalnya.
Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti"https://aws.amazon.com/ec2”.
Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan URL benih. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka halaman web apa pun yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com

catatan

Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.

Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.

Web Crawler mendukung situs web statis.

Anda juga dapat membatasi kecepatan crawling URL untuk mengontrol pembatasan kecepatan crawling. Anda menetapkan jumlah maksimum URL yang dirayapi per host per menit. Selain itu, Anda juga dapat mengatur jumlah maksimum (hingga 25.000) dari total halaman web untuk dirayapi. Perhatikan bahwa jika jumlah total halaman web dari URL sumber Anda melebihi maksimum yang ditetapkan, maka sync/ingestion pekerjaan sumber data Anda akan gagal.

Anda dapat menyertakan atau mengecualikan URL tertentu sesuai dengan cakupan Anda. Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file. Jika Anda menentukan filter penyertaan dan pengecualian dan keduanya cocok dengan URL, filter pengecualian akan diutamakan dan konten web tidak dirayapi.

penting

Filter pola ekspresi reguler bermasalah yang menyebabkan bencana mundur dan melihat ke depan ditolak.

Contoh pola filter ekspresi reguler untuk mengecualikan URL yang diakhiri dengan lampiran halaman web “.pdf” atau PDF: “.*\ .pdf$”

Contoh pola filter inklusi untuk hanya merayapi URL di bawah jalur tertentu: "https://www\ .example\. com/docs/. *”

Anda dapat menggunakan Web Crawler untuk merayapi halaman situs web yang diizinkan untuk dirayapi.

Web Crawler menghormati robots.txt sesuai dengan RFC 9309

Anda dapat menentukan bot agen pengguna tertentu untuk 'Izinkan' atau 'Larang' agen pengguna untuk merayapi URL sumber Anda. Anda dapat memodifikasi file robots.txt situs web Anda untuk mengontrol bagaimana Web Crawler merayapi URL sumber Anda. Crawler pertama-tama akan mencari bedrockbot-UUID aturan dan kemudian untuk bedrockbot aturan generik dalam file robots.txt.

Anda juga dapat menambahkan User-Agent akhiran yang dapat digunakan untuk mengizinkan crawler Anda di sistem perlindungan bot. Perhatikan bahwa akhiran ini tidak perlu ditambahkan ke robots.txt file untuk memastikan bahwa tidak ada yang dapat meniru string Agen Pengguna. Misalnya, untuk mengizinkan Perayap Web merayapi semua konten situs web dan melarang perayapan untuk robot lain, gunakan arahan berikut:


User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Setiap kali Web Crawler berjalan, ia mengambil konten untuk semua URL yang dapat dijangkau dari URL sumber dan yang cocok dengan cakupan dan filter. Untuk sinkronisasi tambahan setelah sinkronisasi pertama semua konten, Amazon Bedrock akan memperbarui basis pengetahuan Anda dengan konten baru dan yang dimodifikasi, dan akan menghapus konten lama yang tidak lagi ada. Kadang-kadang, crawler mungkin tidak dapat mengetahui apakah konten telah dihapus dari situs web; dan dalam hal ini akan salah di sisi melestarikan konten lama di basis pengetahuan Anda.

Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPI atau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.

penting

Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.

Console

Connect sumber data Web Crawler ke basis pengetahuan Anda

Ikuti langkah-langkah di Buat basis pengetahuan dengan menghubungkan ke sumber data di Amazon Bedrock Knowledge Bases dan pilih Web Crawler sebagai sumber data.
Berikan nama dan deskripsi opsional untuk sumber data.
Berikan URL Sumber URL yang ingin dirayapi. Anda dapat menambahkan hingga 9 URL tambahan dengan memilih Tambahkan URL Sumber. Dengan menyediakan URL sumber, Anda mengonfirmasi bahwa Anda berwenang untuk merayapi domainnya.
Di bagian Pengaturan lanjutan, Anda dapat secara opsional mengonfigurasi yang berikut:
- Kunci KMS untuk penyimpanan data sementara. — Anda dapat mengenkripsi data sementara sambil mengubah data Anda menjadi embeddings dengan default atau kunci KMS Anda sendiri. Kunci yang dikelola AWS Untuk informasi selengkapnya, lihat Enkripsi penyimpanan data sementara selama konsumsi data.
- Kebijakan penghapusan data — Anda dapat menghapus embeddings vektor untuk sumber data Anda yang disimpan di penyimpanan vektor secara default, atau memilih untuk menyimpan data penyimpanan vektor.
(Opsional) Berikan akhiran agen pengguna untuk BedROCK-UUID- yang mengidentifikasi crawler atau bot saat mengakses server web.
Konfigurasikan yang berikut ini di bagian Lingkup sinkronisasi:
1. Pilih rentang domain Situs web untuk merayapi URL sumber Anda:
  - Default: Batasi perayapan ke halaman web milik host yang sama dan dengan jalur URL awal yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agents/”. URL saudara seperti "https://aws.amazon.com/ec2/" tidak dirayapi, misalnya.
  - Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti"https://aws.amazon.com/ec2”.
  - Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan URL benih. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka halaman web apa pun yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com
  catatan
  Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.
  Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.
2. Masukkan pelambatan maksimum kecepatan perayapan. Konsumsi URL antara 1 dan 300 URL per host per menit. Kecepatan merangkak yang lebih tinggi meningkatkan beban tetapi membutuhkan waktu lebih sedikit.
3. Masukkan halaman Maksimum untuk sinkronisasi sumber data antara 1 dan 25000. Batasi jumlah maksimum halaman web yang dirayapi dari URL sumber Anda. Jika halaman web melebihi angka ini, sinkronisasi sumber data akan gagal dan tidak ada halaman web yang akan dicerna.
4. Untuk pola URL Regex (opsional) Anda dapat menambahkan pola Sertakan atau Kecualikan pola dengan memasukkan pola ekspresi reguler di dalam kotak. Anda dapat menambahkan hingga 25 termasuk dan 25 mengecualikan pola filter dengan memilih Tambahkan pola baru. Pola include dan exclude dirayapi sesuai dengan cakupan Anda. Jika ada konflik, pola pengecualian diutamakan.
(Opsional) Di bagian Parsing dan chunking konten, Anda dapat menyesuaikan cara mengurai dan memotong data Anda. Lihat sumber daya berikut untuk mempelajari lebih lanjut tentang penyesuaian ini:
- Untuk informasi selengkapnya tentang opsi penguraian, lihatOpsi penguraian untuk sumber data Anda.
- Untuk informasi lebih lanjut tentang strategi chunking, lihat. Bagaimana content chunking bekerja untuk basis pengetahuan
  
  Awas
  Anda tidak dapat mengubah strategi chunking setelah terhubung ke sumber data.
- Untuk informasi selengkapnya tentang cara menyesuaikan potongan data dan pemrosesan metadata Anda dengan fungsi Lambda, lihat. Gunakan fungsi Lambda transformasi kustom untuk menentukan bagaimana data Anda dicerna
Lanjutkan untuk memilih model embeddings dan penyimpanan vektor. Untuk melihat langkah-langkah yang tersisa, kembali ke Buat basis pengetahuan dengan menghubungkan ke sumber data di Amazon Bedrock Knowledge Bases dan lanjutkan dari langkah setelah menghubungkan sumber data Anda.

API

Untuk menghubungkan basis pengetahuan ke sumber data yang menggunakan WebCrawler, kirim CreateDataSourcepermintaan dengan titik akhir waktu pembuatan Agen untuk Amazon Bedrock, tentukan WEB di type bidang DataSourceConfiguration, dan sertakan bidang. webConfiguration Berikut ini adalah contoh konfigurasi Web Crawler untuk basis pengetahuan Amazon Bedrock Anda.


{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}

Untuk mempelajari tentang penyesuaian yang dapat Anda terapkan pada konsumsi dengan menyertakan bidang opsionalvectorIngestionConfiguration, lihat. Sesuaikan konsumsi untuk sumber data

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Salesforce

Khusus