

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Integración de Web Crawler
<a name="web-crawler-integration"></a>

Con la integración de Web Crawler en Amazon Quick, puede crear bases de conocimiento a partir del contenido del sitio web rastreando e indexando páginas web. Esta integración admite las capacidades de ingesta de datos con diferentes opciones de autenticación.

## Capacidades de Web Crawler
<a name="web-crawler-integration-capabilities"></a>

Los usuarios de Web Crawler pueden hacer preguntas sobre el contenido almacenado en sitios web y páginas web. Por ejemplo, los usuarios pueden buscar sitios de documentación, bases de conocimiento o información específica en varias páginas web.

La integración ayuda a los usuarios a acceder y comprender el contenido web, independientemente de su ubicación o tipo. Proporciona detalles contextuales, como las fechas de publicación, el historial de modificaciones y la propiedad de la página, para descubrir la información de forma más eficiente.

**nota**  
La integración de Web Crawler solo admite la ingesta de datos. No proporciona funciones de acción para administrar sitios web o servicios web.

## Requisitos previos
<a name="web-crawler-integration-prerequisites"></a>

Antes de configurar la integración de Web Crawler, asegúrese de disponer de lo siguiente:
+ URL de sitios web para rastrear e indexar.
+ Una suscripción a Amazon Quick Enterprise.
+ Un sitio web que no esté protegido por un firewall y que no requiera complementos de navegador especiales para conectarse.

## Prepare el acceso y la autenticación del sitio web
<a name="web-crawler-integration-authentication"></a>

Antes de configurar la integración en Amazon Quick, prepare las credenciales de acceso a su sitio web. La integración de Web Crawler admite diferentes métodos de autenticación:

**Sin autenticación**  
Se utiliza para rastrear sitios web que no requieren autenticación.

**Autenticación básica**   
Autenticación básica HTTP estándar para sitios web seguros. Cuando visita un sitio protegido, el navegador muestra un cuadro de diálogo en el que se le solicitan sus credenciales.  
**Credenciales requeridas:**  
+ **URL de la página de inicio de sesión**: la URL de la página de inicio de sesión
+ **Nombre de usuario: nombre** de usuario de autenticación básico
+ **Contraseña: contraseña** de autenticación básica

**Autenticación de formulario**   
Para sitios web que utilizan páginas de inicio de sesión basadas en formularios HTML. Las expresiones de XPath se especifican para identificar los campos del formulario en la página de inicio de sesión.  
XPath (lenguaje de rutas XML) es un lenguaje de consulta para navegar por los elementos de un documento HTML o XML. **Para buscar un XPath para un elemento de una página web, haga clic con el botón derecho en el elemento en el navegador y seleccione Inspeccionar.** En las herramientas para desarrolladores, haga clic con el botón derecho en el código HTML resaltado, seleccione **Copiar** y, a continuación, elija **Copiar XPath**.  
**Información requerida:**  
+ **URL de la página de inicio** de sesión: URL del formulario de inicio de sesión (por ejemplo,`https://example.com/login`)
+ **Nombre de usuario: nombre** de usuario de inicio
+ **Contraseña: contraseña** de inicio de sesión
+ **Campo de nombre de usuario XPath**: campo de entrada de XPath al nombre de usuario (por ejemplo,) `//input[@id='username']`
+ **Botón de nombre de usuario XPath** (opcional): campo de botón XPath a nombre de usuario (por ejemplo,) `//input[@id='username_button']`
+ **Campo de contraseña XPath**: XPath al campo de entrada de contraseña (por ejemplo,) `//input[@id='password']`
+ **Botón de contraseña XPath**: botón XPath a contraseña (por ejemplo,) `//button[@type='password']`

**Autenticación SAML**  
Para sitios web que utilizan la autenticación de inicio de sesión SAML-based único (SSO).  
La autenticación SAML (lenguaje de marcado de aserciones de seguridad) es un estándar de identidad federado que permite el SSO. Los usuarios se autentican a través de un proveedor de identidad centralizado (como Microsoft Azure AD u Okta) en lugar de introducir las credenciales directamente en cada aplicación. El proveedor de identidad devuelve un token seguro a la aplicación para conceder el acceso.  
**Información requerida:**  
+ URL de **la página de inicio de sesión: URL** de la página de inicio de sesión de SAML
+ **Nombre de usuario: nombre** de usuario de SAML
+ **Contraseña: contraseña** SAML
+ **Campo de nombre de usuario XPath**: campo de entrada de XPath al nombre de usuario (por ejemplo,) `//input[@id='username']`
+ **Botón de nombre de usuario XPath** (opcional): campo de botón XPath a nombre de usuario (por ejemplo,) `//input[@id='username_button']`
+ **Campo de contraseña XPath**: XPath al campo de entrada de contraseña (por ejemplo,) `//input[@id='password']`
+ **Botón de contraseña XPath**: botón XPath a contraseña (por ejemplo,) `//button[@type='password']`

### Ejemplos de configuración de XPath
<a name="web-crawler-xpath-examples"></a>

Utilice estos ejemplos de XPath para configurar la autenticación de formularios y SAML:

```
Username field examples:
//input[@id='username']
//input[@name='user']
//input[@class='username-field']

Password field examples:
//input[@id='password']
//input[@name='pass']
//input[@type='password']

Submit button examples:
//button[@type='submit']
//input[@type='submit']
//button[contains(text(), 'Login')]
```

## Configure la integración de Web Crawler
<a name="web-crawler-integration-setup"></a>

Tras preparar los requisitos de acceso a su sitio web, cree la integración de Web Crawler en Amazon Quick.

1. En la consola Amazon Quick, selecciona **Knowledge**.

1. Busque **Web Crawler** y elija el icono **Añadir** (\+).

1. Selecciona **Acceder a los datos desde Web Crawler**. La integración de Web Crawler solo permite el acceso a los datos; la ejecución de acciones no está disponible para el rastreo web.

1. Configure los detalles de la integración y el método de autenticación y, a continuación, cree bases de conocimiento según sea necesario.

   1. Elija el tipo de autenticación para la integración de su rastreador web.

   1. Introduzca los detalles necesarios en función del método de autenticación que haya elegido.

   1. (Opcional) Elija una conexión de VPC para rastrear los sitios alojados en su red privada. La conexión de VPC debe configurarse en los ajustes de administración para poder elegirla aquí. Para obtener más información, consulte [Configuración de una VPC para usarla con Amazon Quick](vpc-setup-for-quicksight.md).
**nota**  
No puedes cambiar la conexión de la VPC una vez creada la integración. Para usar una conexión de VPC diferente, cree una nueva integración.

   1. Seleccione **Crear y continuar**.

   1. Introduzca el nombre y la descripción de su base de conocimientos.

   1. Añada las direcciones URL del contenido que desee rastrear.

   1. Seleccione **Crear**.

Tras seleccionar **Crear**, la sincronización de datos se iniciará automáticamente.

## Configura el rastreo
<a name="web-crawler-integration-configuration"></a>

Puede configurar qué sitios web y páginas rastrear y cómo filtrar el contenido.

### Configura las direcciones URL y las fuentes de contenido
<a name="web-crawler-url-configuration"></a>

Configura los sitios web y las páginas que deseas rastrear:

#### URL directas
<a name="web-crawler-direct-urls"></a>

Especifique las URL individuales que desee rastrear:

```
https://example.com/docs
https://example.com/blog
https://example.com/support
```

**Límite:** máximo 10 URL por conjunto de datos

### Filtros de contenido y configuración de rastreo
<a name="web-crawler-content-filters"></a>

#### Configuración del ámbito de rastreo
<a name="web-crawler-crawl-scope-settings"></a>

 Para ver esta configuración, primero debe configurar una base de conocimientos y, a continuación, examinar la opción de configuración avanzada. 

**Profundidad de rastreo**  
+ Rango: 0-10 (predeterminado: 1)
+ 0 = rastrea solo las URL especificadas
+ 1 = incluye páginas enlazadas con un nivel de profundidad
+ Los valores más altos hacen que los enlaces se adentren más profundamente en el sitio

**Número máximo de enlaces por página**  
+ Predeterminado: 1000
+ Máximo: 1000
+ Controla el número de enlaces que se deben seguir desde cada página

Tiempo de **espera**  
+ Valor predeterminado: 1
+ El tiempo (en segundos) que el rastreador web espera a cada página una vez que la página esté lista. Aumente este valor para las páginas con JavaScript contenido dinámico que se cargue después de la plantilla principal.

## Gestione las bases de conocimiento
<a name="web-crawler-integration-knowledge-base"></a>

Tras configurar la integración del rastreador web, puede crear y gestionar bases de conocimiento a partir del contenido del sitio web rastreado.

### Edite las bases de conocimiento existentes
<a name="web-crawler-edit-knowledge-base"></a>

Puede modificar sus bases de conocimiento de Web Crawler existentes:

1. En la consola Amazon Quick, selecciona **Bases de conocimiento**.

1. Elija la base de conocimientos de Web Crawler de la lista.

1. Selecciona el icono de tres puntos en **Acciones** y, a continuación, selecciona **Editar base de conocimientos**.

1. Actualice los ajustes de configuración según sea necesario y seleccione **Guardar**.

### Rastreo de archivos adjuntos y archivos
<a name="web-crawler-attachments"></a>

Controle si el sistema procesa los archivos y adjuntos enlazados desde páginas web:
+ **Habilitar el rastreo de archivos adjuntos**: seleccione esta opción para rastrear e indexar los archivos y adjuntos que se encuentran en páginas web, como archivos PDF, documentos y archivos multimedia.

### Comportamiento de rastreo y configuración de sincronización
<a name="web-crawler-crawling-behavior"></a>

La integración de Web Crawler sigue estas prácticas de rastreo:
+ **Modelo de sincronización incremental:** la primera sincronización realiza un rastreo completo. Las sincronizaciones posteriores solo capturan los cambios.
+ **Reintento automático: lógica de Built-in reintento** para las solicitudes fallidas.
+ **Gestión de duplicados:** detección y deduplicación automáticas de las URL.
+ **Identificación del rastreador:** <UUID>se identifica con la cadena de agente de usuario «aws-quick-on-behalf-of-» en los encabezados de las solicitudes.

#### Descubrimiento de un mapa
<a name="web-crawler-sitemap-discovery"></a>

Web Crawler comprueba automáticamente los mapas de sitio añadiendo rutas de mapa de sitio comunes a las URL iniciales. No es necesario que proporciones las URL de los mapas del sitio por separado. Están marcadas las siguientes rutas:

```
sitemap.xml
sitemap_index.xml
sitemap/sitemap.xml
sitemap/sitemap_index.xml
sitemaps/sitemap.xml
sitemap/index.xml
```

Por ejemplo, si tu URL inicial es`https://example.com/docs`, el rastreador la busca `https://example.com/docs/sitemap.xml``https://example.com/docs/sitemap_index.xml`, y así sucesivamente.

**nota**  
Web Crawler no sigue las referencias recursivas a los índices de los mapas del sitio. Solo se utilizan las URL que aparecen directamente en un mapa del sitio descubierto. Las directivas de mapas de sitio de robots.txt no se utilizan para la detección de mapas de sitio.

#### Conformidad de Robots.txt
<a name="web-crawler-robots-compliance"></a>

Web Crawler respeta el protocolo robots.txt y respeta las directivas y el agente de usuario. allow/disallow Esto le permite controlar la forma en que el rastreador accede a su sitio.

##### Cómo funciona la comprobación de robots.txt
<a name="web-crawler-robots-behavior"></a>
+ **Host-level comprobando:** Web Crawler lee los archivos robots.txt en el nivel de host (por ejemplo, por ejemplo). com/robots.txt)
+ **Soporte para varios hosts:** para los dominios con varios hosts, Web Crawler respeta las reglas de robots para cada host por separado
+ **Comportamiento alternativo:** si Web Crawler no puede recuperar el archivo robots.txt debido a un bloqueo, a errores de análisis o a tiempos de espera, se comporta como si robots.txt no existiera. En este caso, el rastreador procede a rastrear el sitio.

##### Campos de robots.txt compatibles
<a name="web-crawler-robots-fields"></a>

Web Crawler reconoce estos campos de robots.txt (los nombres de los campos no distinguen entre mayúsculas y minúsculas, los valores distinguen entre mayúsculas y minúsculas):

`user-agent`  
Identifica a qué rastreador se aplican las reglas.

`allow`  
Una ruta URL que se puede rastrear.

`disallow`  
Una ruta URL que no se puede rastrear.

`crawl-delay`  
El tiempo (en segundos) de espera entre las solicitudes a tu sitio web.

#### Soporte para metaetiquetas
<a name="web-crawler-meta-tags"></a>

Web Crawler admite metaetiquetas de robots a nivel de página que puede utilizar para controlar el uso de sus datos. Puede especificar la configuración a nivel de página incluyendo una metaetiqueta en las páginas HTML o en un encabezado HTTP.

##### Metaetiquetas compatibles
<a name="web-crawler-supported-meta-tags"></a>

`noindex`  
No indexe la página. Si no especificas esta regla, es posible que la página esté indexada y apta para aparecer en las experiencias.

`nofollow`  
No sigas los enlaces de esta página. Si no especificas esta regla, Web Crawler puede usar los enlaces de la página para descubrir esas páginas enlazadas.

Puede combinar varios valores mediante una coma (por ejemplo, «noindex, nofollow»).

**nota**  
Para detectar las metaetiquetas, Web Crawler debe acceder a tu página. No bloquee la página con el archivo robots.txt, ya que esto impedirá que se vuelva a rastrear.

## Resolución de problemas
<a name="web-crawler-integration-troubleshooting"></a>

Utilice esta sección para resolver problemas habituales relacionados con la integración de Web Crawler.

### Errores de autenticación
<a name="web-crawler-authentication-failures"></a>

**Síntomas:**
+ Mensajes de error que indican que no se puede autenticar
+ 401/403 Respuestas HTTP
+ Bucles de redirección de páginas de inicio
+ Errores de tiempo de espera de la sesión

**Pasos de resolución:**

1. Comprueba que se pueda acceder al sitio desde la AWS región en la que está configurada la instancia de Amazon Quick.

1. Compruebe que sus credenciales son correctas y no han caducado.

1. Comprueba la disponibilidad y accesibilidad de los terminales de autenticación.

1. Valide las configuraciones de XPath probándolas en las herramientas para desarrolladores de navegadores.

1. Revise los registros de red del navegador para comprender el flujo de autenticación.

1. Asegúrese de que la URL de la página de inicio de sesión sea correcta y accesible.

1. Pruebe la autenticación manualmente con las mismas credenciales.

### Problemas de acceso y conectividad
<a name="web-crawler-access-issues"></a>

**Síntomas:**
+ Tiempos de espera de conexión y errores de red
+ Errores de red inalcanzables
+ Fallos en la resolución de DNS

**Pasos de resolución:**

1. Compruebe la conectividad de la red con los sitios web de destino.

1. Valide la accesibilidad del sitio:
   + Compruebe la resolución de DNS de los dominios de destino.
   + Compruebe SSL/TLS la configuración y los certificados.
   + Si es posible, pruebe el acceso desde diferentes redes.

### Resolución de los DNS
<a name="web-crawler-dns-resolution"></a>

El rastreador web utiliza el DNS para convertir los nombres de host de los sitios web (por ejemplo`www.example.com`) en direcciones IP. De forma predeterminada, utiliza una resolución de DNS pública.

Al rastrear sitios dentro de una VPC, es posible que deba configurar un servidor DNS privado para que el rastreador pueda resolver los nombres de host de los sitios internos. Elija una de las siguientes opciones en función de la configuración de la VPC:

1. **Use el servidor VPC-provided DNS**: si su VPC tiene habilitados tanto los **nombres de host DNS** como la **resolución de DNS**, puede usar el solucionador de DNS de VPC predeterminado (normalmente 10.0.0.2 o, de manera más general, el CIDR base\+2 de la VPC). Para obtener más información, consulte [VPC](vpc-amazon-virtual-private-cloud.md).

1. **Usa un servidor DNS personalizado**: si tu VPC usa un solucionador de DNS personalizado, proporciona la dirección IP del servidor DNS interno de tu organización. Trabaje con el administrador de la red para obtener esta dirección.

Si no configura un servidor DNS, el rastreador solo resolverá los nombres de host registrados públicamente.

### JavaScript-dependent navegación
<a name="web-crawler-javascript-navigation"></a>

**Síntomas:**
+ Solo se indexa la URL inicial, no se descubren páginas adicionales
+ El rastreo se completa correctamente, pero solo devuelve un documento

**Pasos de resolución:**

1. Web Crawler ejecuta JavaScript y representa el contenido de la página, pero no simula las interacciones del usuario, como los clics, los desplazamientos o las acciones de desplazamiento del ratón. Si tu sitio carga enlaces de navegación a través de la interacción del usuario (por ejemplo, mediante controladores de clics, desplazamiento infinito o menús dinámicos), el rastreador no podrá detectar esos enlaces.

1. Inspecciona tu página en las herramientas de desarrollo del navegador para comprobar si los enlaces de navegación utilizan elementos estándar`<a href="...">`. Si los enlaces se conectan a través de controladores de JavaScript eventos, el rastreador no los seguirá.

1. Si tu sitio proporciona un mapa del sitio, Web Crawler comprueba automáticamente las rutas de mapa del sitio más comunes en las URL iniciales. Asegúrese de que su mapa del sitio esté disponible en una ubicación estándar (por ejemplo`/sitemap.xml`) para que el rastreador pueda descubrir otras URL sin tener que recurrir a la extracción de enlaces de la página.

1. Como alternativa, proporciona todas las URL de las páginas de destino directamente como URL iniciales.

1. Si el contenido se puede exportar como archivos HTML, PDF o de texto, considere utilizar el conector Amazon S3 como fuente de datos.

### Problemas de rastreo y contenido
<a name="web-crawler-crawl-issues"></a>

**Síntomas:**
+ Contenido faltante o incompleto
+ Rastreos incompletos o finalización anticipada
+ Errores de limitación de velocidad (429 respuestas)
+ El contenido no se indexa correctamente

**Pasos de resolución:**

1. Revise las restricciones de robots.txt:
   + Compruebe las restricciones de rastreo en el archivo robots.txt.
   + Compruebe que el rastreador pueda acceder a las rutas de destino.
   + Asegúrese de que el cumplimiento de robots.txt no bloquee el contenido.

1. Comprueba la limitación y la regulación de la velocidad:
   + Supervisa los encabezados de respuesta para obtener información sobre los límites de velocidad.
   + Implemente los retrasos de rastreo adecuados.

1. Verifica los patrones y filtros de URL:
   + Pruebe los patrones de expresiones regulares para comprobar su precisión.
   + Comprueba el formato y la estructura de las URL.
   + Valide la lógica de los include/exclude patrones.

1. Revisa las restricciones de contenido:
   + Comprueba si hay metaetiquetas noindex en las páginas.
   + Verifica la compatibilidad con los tipos de contenido.
   + Asegúrese de que el tamaño del contenido esté dentro de los límites.

1. Actualice el tiempo de espera para que el contenido se cargue en la página antes de que el rastreador comience a rastrearlo.

### Limitaciones conocidas
<a name="web-crawler-integration-limitations"></a>

La integración de Web Crawler tiene las siguientes limitaciones:
+ **Límites de URL:** máximo 10 URL iniciales por conjunto de datos. No puedes proporcionar las URL del mapa del sitio en el campo URL inicial.
+ Profundidad de **rastreo: profundidad** de rastreo máxima de 10 niveles
+ **Requisitos de seguridad:** se requiere HTTPS para las configuraciones de proxy web

Cuando se utiliza el Web Crawler con una conexión de VPC, se aplican las siguientes limitaciones:
+ **Sin soporte HTTP/3 (QUIC): no HTTP/3 es compatible**. La mayoría de los sitios volverán a funcionar HTTP/2 automáticamente, pero no se podrá acceder a los sitios configurados HTTP/3 únicamente para ello.
+ **Se requiere DNS a través de TCP:** la resolución de DNS debe usar TCP. Compruebe que su servidor DNS admite DNS a través de TCP antes de configurar el rastreo de VPC.
+ **Se requieren certificados SSL de confianza pública:** los sitios internos deben usar un certificado de una entidad de certificación conocida (por ejemplo, Let's Encrypt o). DigiCert Los sitios que utilizan certificados de CA privados o autofirmados no se conectarán.
+ Solo **IPv4: solo** se admiten direcciones IPv4. Los sitios a los que se puede acceder exclusivamente a través de IPv6 no se pueden rastrear.