Funzionalità di Web Crawler Prerequisiti Prepara l'accesso e l'autenticazione al sito web Configura l'integrazione con Web Crawler Configura la scansione Gestisci le basi di conoscenza Risoluzione dei problemi

Integrazione con Web Crawler

Con l'integrazione di Web Crawler in Amazon Quick, puoi creare basi di conoscenza a partire dai contenuti dei siti Web eseguendo la scansione e l'indicizzazione delle pagine Web. Questa integrazione supporta funzionalità di inserimento dei dati con diverse opzioni di autenticazione.

Funzionalità di Web Crawler

Gli utenti di Web Crawler possono porre domande sui contenuti archiviati su siti Web e pagine Web. Ad esempio, gli utenti possono cercare siti di documentazione, knowledge base o informazioni specifiche su più pagine Web.

L'integrazione consente agli utenti di accedere e comprendere i contenuti Web indipendentemente dalla posizione o dal tipo. Fornisce dettagli contestuali come le date di pubblicazione, la cronologia delle modifiche e la proprietà delle pagine per una più efficiente scoperta delle informazioni.

Nota

L'integrazione con Web Crawler supporta solo l'inserimento di dati. Non fornisce funzionalità di azione per la gestione di siti Web o servizi Web.

Prerequisiti

Prima di configurare l'integrazione con Web Crawler, assicurati di disporre di quanto segue:

URL di siti Web da scansionare e indicizzare.
Un abbonamento Amazon Quick Enterprise.
Un sito Web che non è protetto da un firewall e che non richiede plug-in speciali del browser per la connessione.

Prepara l'accesso e l'autenticazione al sito web

Prima di configurare l'integrazione in Amazon Quick, prepara le credenziali di accesso al sito Web. L'integrazione con Web Crawler supporta diversi metodi di autenticazione:

Nessuna autenticazione

Utilizzalo per la scansione di siti Web che non richiedono l'autenticazione.

Autenticazione Base

Autenticazione HTTP di base standard per siti Web protetti. Quando visiti un sito protetto, il browser visualizza una finestra di dialogo che richiede le tue credenziali.

Credenziali richieste:

URL della pagina di accesso: l'URL della pagina di accesso
Nome utente: nome utente di autenticazione di base
Password: password di autenticazione di base

Autenticazione modulo

Per siti Web che utilizzano pagine di accesso basate su moduli HTML. Si specificano espressioni XPath per identificare i campi del modulo nella pagina di accesso.

XPath (XML Path Language) è un linguaggio di interrogazione per navigare tra gli elementi in un documento HTML o XML. Per trovare un XPath per un elemento di una pagina Web, fate clic con il pulsante destro del mouse sull'elemento nel browser e scegliete Ispeziona. Negli strumenti di sviluppo, fai clic con il pulsante destro del mouse sul codice HTML evidenziato, scegli Copia, quindi scegli Copia XPath.

Informazioni richieste:

URL della pagina di accesso: URL del modulo di accesso (ad esempio,https://example.com/login)
Nome utente: nome utente di accesso
Password: password di accesso
Campo nome utente XPath - Campo di immissione da XPath a nome utente (ad esempio,) //input[@id='username']
Pulsante nome utente XPath (opzionale): campo da XPath al pulsante nome utente (ad esempio,) //input[@id='username_button']
Campo password XPath - Campo di immissione da XPath a password (ad esempio,) //input[@id='password']
Pulsante password XPath - Pulsante da XPath a password (ad esempio,) //button[@type='password']

Autenticazione SAML

Per i siti Web che utilizzano l'autenticazione SAML-based Single Sign-On (SSO).

L'autenticazione SAML (Security Assertion Markup Language) è uno standard di identità federato che abilita l'SSO. Gli utenti si autenticano tramite un provider di identità centralizzato (come Microsoft Azure AD o Okta) anziché inserire le credenziali direttamente in ogni applicazione. Il provider di identità restituisce un token sicuro all'applicazione per concedere l'accesso.

Informazioni richieste:

URL della pagina di accesso: URL della pagina di accesso SAML
Nome utente: nome utente SAML
Password: password SAML
Campo nome utente XPath - Campo di immissione da XPath a nome utente (ad esempio,) //input[@id='username']
Pulsante nome utente XPath (opzionale): campo da XPath al pulsante nome utente (ad esempio,) //input[@id='username_button']
Campo password XPath - Campo di immissione da XPath a password (ad esempio,) //input[@id='password']
Pulsante password XPath - Pulsante da XPath a password (ad esempio,) //button[@type='password']

Esempi di configurazione XPath

Usa questi esempi XPath per configurare i moduli e l'autenticazione SAML:



Username field examples:
//input[@id='username']
//input[@name='user']
//input[@class='username-field']

Password field examples:
//input[@id='password']
//input[@name='pass']
//input[@type='password']

Submit button examples:
//button[@type='submit']
//input[@type='submit']
//button[contains(text(), 'Login')]

Configura l'integrazione con Web Crawler

Dopo aver preparato i requisiti di accesso al sito Web, crea l'integrazione Web Crawler in Amazon Quick.

Nella console Amazon Quick, scegli Knowledge.
Trova Web Crawler e scegli l'icona Aggiungi (+).
Scegli Accedi ai dati da Web Crawler. L'integrazione con Web Crawler supporta solo l'accesso ai dati: l'esecuzione delle azioni non è disponibile per la scansione sul Web.
Configura i dettagli di integrazione e il metodo di autenticazione, quindi crea le knowledge base secondo necessità.
1. Scegli il tipo di autenticazione per l'integrazione con il web crawler.
2. Inserisci i dettagli richiesti in base al metodo di autenticazione scelto.
3. (Facoltativo) Scegli una connessione VPC per eseguire la scansione dei siti ospitati nella tua rete privata. La connessione VPC deve essere configurata nelle impostazioni di amministrazione prima di poterla scegliere qui. Per ulteriori informazioni, consulta Configurazione di un VPC da utilizzare con Amazon Quick.
  
  Nota
  Non è possibile modificare la connessione VPC dopo la creazione dell'integrazione. Per utilizzare una connessione VPC diversa, crea una nuova integrazione.
4. Scegli Crea e continua.
5. Inserisci il nome e la descrizione della tua knowledge base.
6. Aggiungi gli URL dei contenuti che desideri sottoporre a scansione.
7. Scegli Create (Crea).

Dopo aver scelto Crea, la sincronizzazione dei dati si avvia automaticamente.

Configura la scansione

È possibile configurare i siti Web e le pagine da sottoporre a scansione e come filtrare il contenuto.

Configura gli URL e le fonti di contenuto

Configura i siti Web e le pagine da sottoporre a scansione:

URL diretti

Specificate i singoli URL da sottoporre a scansione:



https://example.com/docs
https://example.com/blog
https://example.com/support

Limite: massimo 10 URL per set di dati

Filtri dei contenuti e impostazioni di scansione

Impostazioni dell'ambito di scansione

Per visualizzare queste impostazioni, è necessario prima configurare una knowledge base e quindi esaminare l'opzione delle impostazioni avanzate.

Profondità di esplorazione

Intervallo: 0-10 (impostazione predefinita: 1)
0 = esegue la scansione solo degli URL specificati
1 = include le pagine collegate di un livello
I valori più alti seguono i link più profondi nel sito

Numero massimo di link per pagina

Impostazione predefinita: 1000
Massimo: 1.000
Controlla quanti link seguire da ogni pagina

Tempo di Wait (Attesa)

Impostazione predefinita: 1
Il tempo (in secondi) che il web crawler attende per ogni pagina dopo che la pagina ha raggiunto lo stato pronto. Aumenta questo valore per le pagine con JavaScript contenuti dinamici che vengono caricati dopo il modello principale.

Gestisci le basi di conoscenza

Dopo aver configurato l'integrazione con Web Crawler, puoi creare e gestire le knowledge base a partire dai contenuti del tuo sito web sottoposti a scansione.

Modifica le knowledge base esistenti

È possibile modificare le knowledge base esistenti di Web Crawler:

Nella console Amazon Quick, scegli Knowledge base.
Scegli la tua knowledge base di Web Crawler dall'elenco.
Scegli l'icona a tre punti in Azioni, quindi scegli Modifica knowledge base.
Aggiorna le impostazioni di configurazione secondo necessità e scegli Salva.

Scansione degli allegati e dei file

Controlla se il sistema elabora file e allegati collegati da pagine Web:

Abilita la scansione degli allegati: scegli questa opzione per eseguire la scansione e indicizzare i file e gli allegati presenti nelle pagine Web, come PDF, documenti e file multimediali.

Comportamento di scansione e configurazione di sincronizzazione

L'integrazione con Web Crawler segue queste pratiche di scansione:

Modello di sincronizzazione incrementale: la prima sincronizzazione esegue la scansione completa. Le sincronizzazioni successive acquisiscono solo le modifiche.
Riprova automatica: logica di Built-in ripetizione per le richieste non riuscite.
Gestione dei duplicati: rilevamento e deduplicazione automatici degli URL.
Identificazione del crawler: <UUID>si identifica con la stringa user-agent «aws-quick-on-behalf-of-" nelle intestazioni delle richieste.

Scoperta della mappa del sito

Web Crawler verifica automaticamente la presenza di sitemap aggiungendo percorsi di sitemap comuni agli URL iniziali. Non è necessario fornire gli URL della mappa del sito separatamente. Vengono controllati i seguenti percorsi:



sitemap.xml
sitemap_index.xml
sitemap/sitemap.xml
sitemap/sitemap_index.xml
sitemaps/sitemap.xml
sitemap/index.xml

Ad esempio, se l'URL iniziale èhttps://example.com/docs, il crawler lo verifica e così via. https://example.com/docs/sitemap.xml https://example.com/docs/sitemap_index.xml

Nota

Web Crawler non segue i riferimenti ricorsivi all'indice delle Sitemap. Vengono utilizzati solo gli URL elencati direttamente in una Sitemap rilevata. Le direttive Sitemap in robots.txt non vengono utilizzate per l'individuazione delle Sitemap.

Conformità Robots.txt

Web Crawler rispetta il protocollo robots.txt e rispetta lo user-agent e le direttive. allow/disallow Ciò consente di controllare il modo in cui il crawler accede al sito.

Come funziona il controllo di robots.txt

Host-level verifica: Web Crawler legge i file robots.txt a livello di host (ad esempio, com/robots.txt)
Supporto per più host: per i domini con più host, Web Crawler rispetta le regole dei robot per ogni host separatamente
Comportamento fallback: se Web Crawler non riesce a recuperare robots.txt a causa di errori di blocco, analisi o timeout, si comporta come se robots.txt non esistesse. In questo caso, il crawler procede alla scansione del sito.

Campi robots.txt supportati

Web Crawler riconosce questi campi robots.txt (i nomi dei campi non fanno distinzione tra maiuscole e minuscole, i valori fanno distinzione tra maiuscole e minuscole):

user-agent: Identifica a quale crawler si applicano le regole.
allow: Un percorso URL che può essere sottoposto a scansione.
disallow: Un percorso URL che non può essere sottoposto a scansione.
crawl-delay: Il tempo di attesa (in secondi) tra le richieste al tuo sito web.

Supporto per i meta tag

Web Crawler supporta i meta tag robots a livello di pagina che puoi usare per controllare come vengono utilizzati i tuoi dati. È possibile specificare le impostazioni a livello di pagina includendo un meta tag nelle pagine HTML o in un'intestazione HTTP.

Meta tag supportati

noindex: Non indicizzate la pagina. Se non specifichi questa regola, la pagina potrebbe essere indicizzata e idonea a comparire nelle esperienze.
nofollow: Non seguire i link in questa pagina. Se non specifichi questa regola, Web Crawler può utilizzare i collegamenti sulla pagina per scoprire le pagine collegate.

È possibile combinare più valori utilizzando una virgola (ad esempio, «noindex, nofollow»).

Nota

Per rilevare i meta tag, Web Crawler deve accedere alla pagina. Non bloccate la pagina con robots.txt, perché ciò impedisce che la pagina venga sottoposta a nuova scansione.

Risoluzione dei problemi

Utilizzate questa sezione per risolvere problemi comuni relativi all'integrazione con Web Crawler.

Errori di autenticazione

Caratteristiche:

Messaggi di errore «Impossibile autenticare»
401/403 Risposte HTTP
Cicli di reindirizzamento delle pagine di accesso
Errori di timeout della sessione

Fasi di risoluzione:

Verifica che il sito sia raggiungibile dalla AWS regione in cui è configurata l'istanza Amazon Quick.
Verifica che le tue credenziali siano corrette e non siano scadute.
Verifica la disponibilità e l'accessibilità degli endpoint di autenticazione.
Convalida le configurazioni XPath testandole negli strumenti di sviluppo del browser.
Esamina i log di rete del browser per comprendere il flusso di autenticazione.
Assicurati che l'URL della pagina di accesso sia corretto e accessibile.
Verifica l'autenticazione manualmente utilizzando le stesse credenziali.

Problemi di accesso e connettività

Caratteristiche:

Timeout di connessione ed errori di rete
Errori di rete irraggiungibili
Errori di risoluzione DNS

Fasi di risoluzione:

Verifica la connettività di rete ai siti Web di destinazione.
Convalida l'accessibilità del sito:
- Verifica la risoluzione DNS per i domini di destinazione.
- Verifica la SSL/TLS configurazione e i certificati.
- Se possibile, verifica l'accesso da reti diverse.

Risoluzione DNS

Il web crawler utilizza il DNS per risolvere i nomi host dei siti Web (ad esempiowww.example.com) in indirizzi IP. Per impostazione predefinita, utilizza la risoluzione DNS pubblica.

Quando si esegue la scansione dei siti all'interno di un VPC, potrebbe essere necessario configurare un server DNS privato in modo che il crawler possa risolvere i nomi host per i siti interni. Scegli una delle seguenti opzioni in base alla configurazione del tuo VPC:

Usa il server VPC-provided DNS: se il tuo VPC ha sia i nomi host DNS che la risoluzione DNS abilitati, puoi utilizzare il resolver DNS VPC predefinito (in genere 10.0.0.2, o più in generale la base VPC CIDR +2). Per ulteriori informazioni, consulta VPC.
Usa un server DNS personalizzato: se il tuo VPC utilizza un resolver DNS personalizzato, fornisci l'indirizzo IP del server DNS interno dell'organizzazione. Contatta il tuo amministratore di rete per ottenere questo indirizzo.

Se non configuri un server DNS, il crawler risolve solo i nomi host registrati pubblicamente.

Caratteristiche:

Viene indicizzato solo l'URL iniziale, nessuna pagina aggiuntiva scoperta
La scansione viene completata correttamente ma restituisce solo un documento

Fasi di risoluzione:

Web Crawler esegue JavaScript e renderizza il contenuto della pagina, ma non simula le interazioni degli utenti come clic, scorrimenti o azioni al passaggio del mouse. Se il sito carica i link di navigazione tramite l'interazione dell'utente (ad esempio gestori di clic, scorrimento infinito o menu dinamici), il crawler non è in grado di individuare tali link.
Ispeziona la pagina negli strumenti di sviluppo del browser per verificare se i link di navigazione utilizzano elementi standard. <a href="..."> Se invece i link sono collegati tramite gestori di JavaScript eventi, il crawler non li seguirà.
Se il tuo sito fornisce una mappa del sito, Web Crawler verifica automaticamente la presenza di percorsi di sitemap comuni negli URL iniziali. Assicurati che la mappa del sito sia disponibile in una posizione standard (ad esempio/sitemap.xml) in modo che il crawler possa scoprire URL aggiuntivi senza fare affidamento sull'estrazione dei link all'interno della pagina.
In alternativa, fornisci tutti gli URL delle pagine di destinazione direttamente come URL iniziali.
Se i contenuti possono essere esportati come file HTML, PDF o di testo, prendi in considerazione l'utilizzo del connettore Amazon S3 come origine dati.

Problemi relativi alla scansione e ai contenuti

Caratteristiche:

Contenuto mancante o incompleto
Scansione incompleta o chiusura anticipata
Errori di limitazione della velocità (429 risposte)
Il contenuto non viene indicizzato correttamente

Fasi di risoluzione:

Esamina le restrizioni di robots.txt:
- Controlla le restrizioni di scansione nel file robots.txt.
- Verificate che il crawler sia autorizzato ad accedere ai percorsi di destinazione.
- Assicurati che la conformità a robots.txt non stia bloccando i contenuti.
Verifica la limitazione e la limitazione della velocità:
- Monitora le intestazioni di risposta per informazioni sui limiti di velocità.
- Implementa ritardi di scansione appropriati.
Verifica i modelli e i filtri degli URL:
- Verifica la precisione dei pattern regex.
- Controlla la formattazione e la struttura degli URL.
- Convalida la logica del include/exclude pattern.
Rivedi le restrizioni relative ai contenuti:
- Verifica la presenza di meta tag noindex sulle pagine.
- Verifica il supporto dei tipi di contenuto.
- Assicurati che le dimensioni dei contenuti rientrino nei limiti.
Aggiorna il tempo di attesa in modo che il contenuto venga caricato sulla pagina prima che il crawler inizi la scansione.

Limiti noti

L'integrazione con Web Crawler presenta le seguenti limitazioni:

Limiti URL: massimo 10 URL iniziali per set di dati. Non puoi fornire gli URL della mappa del sito nel campo URL iniziale.
Profondità di scansione: profondità di scansione massima di 10 livelli
Requisiti di sicurezza: HTTPS richiesto per le configurazioni del proxy web

Le seguenti limitazioni si applicano quando si utilizza il Web Crawler con una connessione VPC:

Nessun supporto HTTP/3 (QUIC): HTTP/3 non è supportato. La maggior parte dei siti verrà ripristinata HTTP/2 automaticamente, ma i siti configurati HTTP/3 solo per non saranno accessibili.
È richiesto DNS over TCP: la risoluzione DNS deve utilizzare TCP. Verifica che il tuo server DNS supporti il DNS su TCP prima di configurare la scansione VPC.
Certificati SSL pubblicamente attendibili: i siti interni devono utilizzare un certificato di un'autorità di certificazione nota (ad esempio, Let's Encrypt o). DigiCert I siti che utilizzano certificati CA autofirmati o privati non riusciranno a connettersi.
Solo IPv4: sono supportati solo gli indirizzi IPv4. I siti accessibili esclusivamente tramite IPv6 non possono essere sottoposti a scansione.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Integrazione con Visier

Integrazione di Zendesk

Integrazione con Web Crawler

Funzionalità di Web Crawler

Nota

Prerequisiti

Prepara l'accesso e l'autenticazione al sito web

Esempi di configurazione XPath

Configura l'integrazione con Web Crawler

Nota

Configura la scansione

Configura gli URL e le fonti di contenuto

URL diretti

Filtri dei contenuti e impostazioni di scansione

Impostazioni dell'ambito di scansione

Gestisci le basi di conoscenza

Modifica le knowledge base esistenti

Scansione degli allegati e dei file

Comportamento di scansione e configurazione di sincronizzazione

Scoperta della mappa del sito

Nota

Conformità Robots.txt

Come funziona il controllo di robots.txt

Campi robots.txt supportati

Supporto per i meta tag

Meta tag supportati

Nota

Risoluzione dei problemi

Errori di autenticazione

Problemi di accesso e connettività

Risoluzione DNS

JavaScript-dependent navigazione

Problemi relativi alla scansione e ai contenuti

Limiti noti