Integrazione con Web Crawler - Amazon Quick

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Integrazione con Web Crawler

Con l'integrazione di Web Crawler in Amazon Quick, puoi creare basi di conoscenza a partire dai contenuti dei siti Web eseguendo la scansione e l'indicizzazione delle pagine Web. Questa integrazione supporta funzionalità di inserimento dei dati con diverse opzioni di autenticazione.

Funzionalità di Web Crawler

Gli utenti di Web Crawler possono porre domande sui contenuti archiviati su siti Web e pagine Web. Ad esempio, gli utenti possono cercare siti di documentazione, knowledge base o informazioni specifiche su più pagine Web.

L'integrazione consente agli utenti di accedere e comprendere i contenuti Web indipendentemente dalla posizione o dal tipo. Fornisce dettagli contestuali come le date di pubblicazione, la cronologia delle modifiche e la proprietà delle pagine per una più efficiente scoperta delle informazioni.

Nota

L'integrazione con Web Crawler supporta solo l'inserimento di dati. Non fornisce funzionalità di azione per la gestione di siti Web o servizi Web.

Prerequisiti

Prima di configurare l'integrazione con Web Crawler, assicurati di disporre di quanto segue:

  • Sito Web URLs da scansionare e indicizzare.

  • Un abbonamento Amazon Quick Enterprise.

  • Un sito Web che non è protetto da un firewall e che non richiede plug-in speciali del browser per la connessione.

Prepara l'accesso e l'autenticazione al sito web

Prima di configurare l'integrazione in Amazon Quick, prepara le credenziali di accesso al sito Web. L'integrazione con Web Crawler supporta diversi metodi di autenticazione:

Nessuna autenticazione

Utilizzalo per la scansione di siti Web che non richiedono l'autenticazione.

Autenticazione Base

Autenticazione HTTP di base standard per siti Web protetti. Quando visiti un sito protetto, il browser visualizza una finestra di dialogo che richiede le tue credenziali.

Credenziali richieste:

  • URL della pagina di accesso: l'URL della pagina di accesso

  • Nome utente: nome utente di autenticazione di base

  • Password: password di autenticazione di base

Autenticazione modulo

Per siti Web che utilizzano pagine di accesso basate su moduli HTML. Si specificano XPath le espressioni per identificare i campi del modulo nella pagina di accesso.

XPath (XML Path Language) è un linguaggio di interrogazione per navigare tra gli elementi di un documento HTML o XML. Per trovare un elemento XPath per una pagina Web, fate clic con il pulsante destro del mouse sull'elemento nel browser e scegliete Ispeziona. Negli strumenti di sviluppo, fate clic con il pulsante destro del mouse sul codice HTML evidenziato, scegliete Copia, quindi scegliete Copia XPath.

Informazioni richieste:

  • URL della pagina di accesso: URL del modulo di accesso (ad esempio,https://example.com/login)

  • Nome utente: nome utente di accesso

  • Password: password di accesso

  • Campo nome utente XPath: XPath nel campo di immissione del nome utente (ad esempio,//input[@id='username'])

  • Pulsante nome utente XPath (opzionale): XPath al campo del pulsante nome utente (ad esempio,//input[@id='username_button'])

  • Campo password XPath: XPath al campo di immissione della password (ad esempio,//input[@id='password'])

  • Pulsante password XPath: XPath al pulsante della password (ad esempio,//button[@type='password'])

Autenticazione SAML

Per i siti Web che utilizzano l'autenticazione Single Sign-on (SSO) basata su SAML.

L'autenticazione SAML (Security Assertion Markup Language) è uno standard di identità federato che abilita l'SSO. Gli utenti si autenticano tramite un provider di identità centralizzato (come Microsoft Azure AD o Okta) anziché inserire le credenziali direttamente in ogni applicazione. Il provider di identità restituisce un token sicuro all'applicazione per concedere l'accesso.

Informazioni richieste:

  • URL della pagina di accesso: URL della pagina di accesso SAML

  • Nome utente: nome utente SAML

  • Password: password SAML

  • Campo nome utente XPath: nel campo XPath di immissione del nome utente (ad esempio,//input[@id='username'])

  • Pulsante nome utente XPath (opzionale): XPath al campo del pulsante nome utente (ad esempio,//input[@id='username_button'])

  • Campo password XPath: XPath al campo di immissione della password (ad esempio,//input[@id='password'])

  • Pulsante password XPath: XPath al pulsante della password (ad esempio,//button[@type='password'])

XPath esempi di configurazione

Usa questi XPath esempi per configurare il modulo e l'autenticazione SAML:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Configura l'integrazione con Web Crawler

Dopo aver preparato i requisiti di accesso al sito Web, crea l'integrazione Web Crawler in Amazon Quick.

  1. Nella console Amazon Quick, scegli Integrazioni.

  2. Scegli Web Crawler tra le opzioni di integrazione e fai clic sul pulsante Aggiungi (più il pulsante «+»).

  3. Scegli Accedi ai dati da Web Crawler. L'integrazione con Web Crawler supporta solo l'accesso ai dati: l'esecuzione delle azioni non è disponibile per la scansione sul Web.

  4. Configura i dettagli di integrazione e il metodo di autenticazione, quindi crea le knowledge base secondo necessità.

    1. Scegli il tipo di autenticazione per l'integrazione con il web crawler.

    2. Inserisci i dettagli richiesti in base al metodo di autenticazione scelto.

    3. (Facoltativo) Scegli una connessione VPC per eseguire la scansione dei siti ospitati nella tua rete privata. La connessione VPC deve essere configurata nelle impostazioni di amministrazione prima di poterla scegliere qui. Per ulteriori informazioni, consulta Configurazione di un VPC da utilizzare con Amazon Quick.

      Nota

      Non è possibile modificare la connessione VPC dopo la creazione dell'integrazione. Per utilizzare una connessione VPC diversa, crea una nuova integrazione.

    4. Scegli Crea e continua.

    5. Inserisci il nome e la descrizione della tua knowledge base.

    6. Aggiungi il contenuto URLs che desideri sottoporre a scansione.

    7. Scegli Create (Crea).

Dopo aver scelto Crea, la sincronizzazione dei dati si avvia automaticamente.

Configura la scansione

È possibile configurare i siti Web e le pagine da sottoporre a scansione e come filtrare il contenuto.

Configurazione URLs e fonti di contenuto

Configura i siti Web e le pagine da sottoporre a scansione:

Diretto URLs

Specificare URLs la persona da esplorare:

https://example.com/docs https://example.com/blog https://example.com/support

Limite: massimo 10 URLs per set di dati

Filtri di contenuto e impostazioni di scansione

Impostazioni dell'ambito di scansione

Per visualizzare queste impostazioni, è necessario prima configurare una knowledge base e quindi esaminare l'opzione delle impostazioni avanzate.

Profondità di esplorazione
  • Intervallo: 0-10 (impostazione predefinita: 1)

  • 0 = è specificata solo la scansione URLs

  • 1 = include le pagine collegate di un livello

  • I valori più alti seguono i link più profondi nel sito

Numero massimo di link per pagina
  • Impostazione predefinita: 1000

  • Massimo: 1.000

  • Controlla quanti link seguire da ogni pagina

Tempo di Wait (Attesa)
  • Impostazione predefinita: 1

  • Il tempo (in secondi) che il web crawler attende per ogni pagina dopo che la pagina ha raggiunto lo stato pronto. Aumenta questo valore per le pagine con JavaScript contenuti dinamici che vengono caricati dopo il modello principale.

Gestisci le basi di conoscenza

Dopo aver configurato l'integrazione con Web Crawler, puoi creare e gestire le knowledge base a partire dai contenuti del tuo sito web sottoposti a scansione.

Modifica le knowledge base esistenti

È possibile modificare le knowledge base esistenti di Web Crawler:

  1. Nella console Amazon Quick, scegli Knowledge base.

  2. Scegli la tua knowledge base di Web Crawler dall'elenco.

  3. Scegli l'icona a tre punti in Azioni, quindi scegli Modifica knowledge base.

  4. Aggiorna le impostazioni di configurazione secondo necessità e scegli Salva.

Scansione degli allegati e dei file

Controlla se il sistema elabora file e allegati collegati da pagine Web:

  • Abilita la scansione degli allegati: scegliete questa opzione per eseguire la scansione e indicizzare i file e gli allegati presenti nelle pagine Web PDFs, come documenti e file multimediali.

Comportamento di scansione e configurazione della sincronizzazione

L'integrazione con Web Crawler segue queste pratiche di scansione:

  • Modello di sincronizzazione incrementale: la prima sincronizzazione esegue la scansione completa. Le sincronizzazioni successive acquisiscono solo le modifiche.

  • Riprova automatica: logica di ripetizione integrata per le richieste non riuscite.

  • Gestione dei duplicati: rilevamento e deduplicazione automatici di. URLs

  • Identificazione del crawler: <UUID>si identifica con la stringa user-agent "-of-" aws-quick-on-behalf nelle intestazioni della richiesta.

Scoperta della mappa del sito

Web Crawler verifica automaticamente la presenza di sitemap aggiungendo percorsi di sitemap comuni al tuo seed. URLs Non è necessario fornire la mappa del sito separatamente. URLs Vengono controllati i seguenti percorsi:

sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml

Ad esempio, se l'URL iniziale èhttps://example.com/docs, il crawler lo verifica e così via. https://example.com/docs/sitemap.xml https://example.com/docs/sitemap_index.xml

Nota

Web Crawler non segue i riferimenti ricorsivi all'indice delle Sitemap. Vengono utilizzati solo URLs quelli elencati direttamente in una Sitemap rilevata. Le direttive Sitemap in robots.txt non vengono utilizzate per l'individuazione della mappa del sito.

Conformità a Robots.txt

Web Crawler rispetta il protocollo robots.txt e rispetta lo user-agent e le direttive. allow/disallow Ciò ti consente di controllare il modo in cui il crawler accede al tuo sito.

Come funziona il controllo di robots.txt
  • Controllo a livello di host: Web Crawler legge i file robots.txt a livello di host (ad esempio, example.com/robots.txt)

  • Supporto per più host: per i domini con più host, Web Crawler rispetta le regole dei robot per ciascun host separatamente

  • Comportamento fallback: se Web Crawler non riesce a recuperare robots.txt a causa di errori di blocco, analisi o timeout, si comporta come se robots.txt non esistesse. In questo caso, il crawler procede alla scansione del sito.

Campi robots.txt supportati

Web Crawler riconosce questi campi robots.txt (i nomi dei campi non fanno distinzione tra maiuscole e minuscole, i valori fanno distinzione tra maiuscole e minuscole):

user-agent

Identifica a quale crawler si applicano le regole.

allow

Un percorso URL che può essere sottoposto a scansione.

disallow

Un percorso URL che non può essere sottoposto a scansione.

crawl-delay

Il tempo di attesa (in secondi) tra le richieste al tuo sito web.

Supporto per i meta tag

Web Crawler supporta i meta tag robots a livello di pagina che puoi usare per controllare come vengono utilizzati i tuoi dati. È possibile specificare le impostazioni a livello di pagina includendo un meta tag nelle pagine HTML o in un'intestazione HTTP.

Meta tag supportati
noindex

Non indicizzate la pagina. Se non specifichi questa regola, la pagina potrebbe essere indicizzata e idonea a comparire nelle esperienze.

nofollow

Non seguire i link in questa pagina. Se non specifichi questa regola, Web Crawler può utilizzare i collegamenti sulla pagina per scoprire le pagine collegate.

È possibile combinare più valori utilizzando una virgola (ad esempio, «noindex, nofollow»).

Nota

Per rilevare i meta tag, Web Crawler deve accedere alla pagina. Non bloccate la pagina con robots.txt, perché ciò impedisce che la pagina venga sottoposta a nuova scansione.

Risoluzione dei problemi

Utilizzate questa sezione per risolvere problemi comuni relativi all'integrazione con Web Crawler.

Errori di autenticazione

Caratteristiche:

  • Messaggi di errore «Impossibile autenticare»

  • Risposte HTTP 401/403

  • Cicli di reindirizzamento della pagina di accesso

  • Errori di timeout della sessione

Fasi di risoluzione:

  1. Verifica che il sito sia raggiungibile dalla AWS regione in cui è configurata l'istanza Amazon Quick.

  2. Verifica che le tue credenziali siano corrette e non siano scadute.

  3. Verifica la disponibilità e l'accessibilità degli endpoint di autenticazione.

  4. Convalida XPath le configurazioni testandole negli strumenti di sviluppo del browser.

  5. Esamina i log di rete del browser per comprendere il flusso di autenticazione.

  6. Assicurati che l'URL della pagina di accesso sia corretto e accessibile.

  7. Verifica l'autenticazione manualmente utilizzando le stesse credenziali.

Problemi di accesso e connettività

Caratteristiche:

  • Timeout di connessione ed errori di rete

  • Errori di rete irraggiungibili

  • Errori di risoluzione DNS

Fasi di risoluzione:

  1. Verifica la connettività di rete ai siti Web di destinazione.

  2. Convalida l'accessibilità del sito:

    • Verifica la risoluzione DNS per i domini di destinazione.

    • Verifica la SSL/TLS configurazione e i certificati.

    • Se possibile, verifica l'accesso da reti diverse.

Risoluzione DNS

Il web crawler utilizza il DNS per risolvere i nomi host dei siti Web (ad esempiowww.example.com) in indirizzi IP. Per impostazione predefinita, utilizza la risoluzione DNS pubblica.

Durante la scansione dei siti all'interno di un VPC, potrebbe essere necessario configurare un server DNS privato in modo che il crawler possa risolvere i nomi host per i siti interni. Scegli una delle seguenti opzioni in base alla configurazione del tuo VPC:

  1. Usa il server DNS fornito da VPC: se il tuo VPC ha sia i nomi host DNS che la risoluzione DNS abilitati, puoi utilizzare il resolver DNS VPC predefinito (in genere 10.0.0.2 o più in generale la base VPC CIDR+2). Per ulteriori informazioni, consulta VPC.

  2. Usa un server DNS personalizzato: se il tuo VPC utilizza un resolver DNS personalizzato, fornisci l'indirizzo IP del server DNS interno dell'organizzazione. Contatta il tuo amministratore di rete per ottenere questo indirizzo.

Se non configuri un server DNS, il crawler risolve solo i nomi di host registrati pubblicamente.

JavaScript-navigazione dipendente

Caratteristiche:

  • Viene indicizzato solo l'URL iniziale, nessuna pagina aggiuntiva scoperta

  • La scansione viene completata correttamente ma restituisce solo un documento

Fasi di risoluzione:

  1. Web Crawler esegue JavaScript e renderizza il contenuto della pagina, ma non simula le interazioni degli utenti come clic, scorrimenti o azioni al passaggio del mouse. Se il sito carica i link di navigazione tramite l'interazione dell'utente (ad esempio gestori di clic, scorrimento infinito o menu dinamici), il crawler non è in grado di individuare tali link.

  2. Ispeziona la pagina negli strumenti di sviluppo del browser per verificare se i link di navigazione utilizzano elementi standard. <a href="..."> Se invece i link sono collegati tramite gestori di JavaScript eventi, il crawler non li seguirà.

  3. Se il tuo sito fornisce una mappa del sito, Web Crawler verifica automaticamente i percorsi di mappa del sito comuni nel tuo seed. URLs Assicurati che la sitemap sia disponibile in una posizione standard (ad esempio/sitemap.xml) in modo che il crawler possa individuarne altri URLs senza fare affidamento sull'estrazione dei link all'interno della pagina.

  4. In alternativa, fornisci tutte le pagine di destinazione direttamente come seed. URLs URLs

  5. Se i contenuti possono essere esportati come file HTML, PDF o di testo, prendi in considerazione l'utilizzo del connettore Amazon S3 come origine dati.

Problemi relativi alla scansione e ai contenuti

Caratteristiche:

  • Contenuto mancante o incompleto

  • Scansione incompleta o chiusura anticipata

  • Errori di limitazione della velocità (429 risposte)

  • Il contenuto non viene indicizzato correttamente

Fasi di risoluzione:

  1. Esamina le restrizioni di robots.txt:

    • Controlla le restrizioni di scansione nel file robots.txt.

    • Verificate che il crawler sia autorizzato ad accedere ai percorsi di destinazione.

    • Assicurati che la conformità a robots.txt non stia bloccando i contenuti.

  2. Verifica la limitazione e la limitazione della velocità:

    • Monitora le intestazioni di risposta per informazioni sui limiti di velocità.

    • Implementa ritardi di scansione appropriati.

  3. Verifica modelli e filtri URL:

    • Verifica la precisione dei pattern regex.

    • Controlla la formattazione e la struttura degli URL.

    • Convalida la logica del include/exclude pattern.

  4. Rivedi le restrizioni relative ai contenuti:

    • Verifica la presenza di meta tag noindex sulle pagine.

    • Verifica il supporto dei tipi di contenuto.

    • Assicurati che le dimensioni dei contenuti rientrino nei limiti.

  5. Aggiorna il tempo di attesa in modo che il contenuto venga caricato sulla pagina prima che il crawler inizi la scansione.

Limiti noti

L'integrazione con Web Crawler presenta le seguenti limitazioni:

  • Limiti URL: massimo 10 seed URLs per set di dati. Non puoi fornire la mappa del sito URLs nel campo URL iniziale.

  • Profondità di scansione: profondità di scansione massima di 10 livelli

  • Requisiti di sicurezza: HTTPS richiesto per le configurazioni del proxy web

Le seguenti limitazioni si applicano quando si utilizza il Web Crawler con una connessione VPC:

  • Nessun supporto HTTP/3 (QUIC): HTTP/3 non è supportato. La maggior parte dei siti ricorre automaticamente a HTTP/2, ma i siti configurati solo per HTTP/3 non saranno accessibili.

  • È richiesto DNS su TCP: la risoluzione DNS deve utilizzare TCP. Verifica che il tuo server DNS supporti il DNS su TCP prima di configurare la scansione VPC.

  • Certificati SSL pubblicamente attendibili: i siti interni devono utilizzare un certificato di un'autorità di certificazione nota (ad esempio, Let's Encrypt o). DigiCert I siti che utilizzano certificati CA autofirmati o privati non riusciranno a connettersi.

  • IPv4 solo: sono supportati solo IPv4 gli indirizzi. I siti accessibili esclusivamente tramite Internet IPv6 non possono essere sottoposti a scansione.