Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Integración de Web Crawler
Con la integración de Web Crawler en Amazon Quick, puede crear bases de conocimiento a partir del contenido del sitio web rastreando e indexando páginas web. Esta integración admite las capacidades de ingesta de datos con diferentes opciones de autenticación.
Capacidades de Web Crawler
Los usuarios de Web Crawler pueden hacer preguntas sobre el contenido almacenado en sitios web y páginas web. Por ejemplo, los usuarios pueden buscar sitios de documentación, bases de conocimiento o información específica en varias páginas web.
La integración ayuda a los usuarios a acceder al contenido web y a comprenderlo, independientemente de su ubicación o tipo. Proporciona detalles contextuales, como las fechas de publicación, el historial de modificaciones y la propiedad de la página, para descubrir la información de forma más eficiente.
nota
La integración de Web Crawler solo admite la ingesta de datos. No proporciona funciones de acción para administrar sitios web o servicios web.
Requisitos previos
Antes de configurar la integración de Web Crawler, asegúrese de disponer de lo siguiente:
-
Sitio web URLs para rastrear e indexar.
-
Una suscripción a Amazon Quick Enterprise.
-
Un sitio web que no esté protegido por un firewall y que no requiera complementos de navegador especiales para conectarse.
Prepare el acceso y la autenticación del sitio web
Antes de configurar la integración en Amazon Quick, prepare las credenciales de acceso a su sitio web. La integración de Web Crawler admite diferentes métodos de autenticación:
- Sin autenticación
-
Se utiliza para rastrear sitios web que no requieren autenticación.
- Autenticación básica
-
Autenticación básica HTTP estándar para sitios web seguros. Cuando visita un sitio protegido, el navegador muestra un cuadro de diálogo en el que se le solicitan sus credenciales.
Credenciales requeridas:
-
URL de la página de inicio de sesión: la URL de la página de inicio de sesión
Nombre de usuario: nombre de usuario de autenticación básico
Contraseña: contraseña de autenticación básica
-
- Autenticación de formulario
-
Para sitios web que utilizan páginas de inicio de sesión basadas en formularios HTML. XPathLas expresiones se especifican para identificar los campos del formulario en la página de inicio de sesión.
XPath (lenguaje de rutas XML) es un lenguaje de consulta para navegar por los elementos de un documento HTML o XML. Para buscar un XPath elemento de una página web, haga clic con el botón derecho en el elemento del navegador y seleccione Inspeccionar. En las herramientas para desarrolladores, haz clic con el botón derecho en el código HTML resaltado, selecciona Copiar y, a continuación, selecciona Copiar XPath.
Información requerida:
URL de la página de inicio de sesión: URL del formulario de inicio de sesión (por ejemplo,
https://example.com/login)Nombre de usuario: nombre de usuario de inicio
Contraseña: contraseña de inicio de sesión
Campo de nombre de usuario XPath: XPath al campo de entrada de nombre de usuario (por ejemplo,
//input[@id='username'])-
Botón de nombre de usuario XPath (opcional): XPath al campo de botón de nombre de usuario (por ejemplo,
//input[@id='username_button']) Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,
//input[@id='password'])Botón de contraseña XPath: botón XPath a contraseña (por ejemplo,
//button[@type='password'])
- Autenticación SAML
-
Para sitios web que utilizan la autenticación de inicio de sesión único (SSO) basada en SAML.
La autenticación SAML (lenguaje de marcado de aserciones de seguridad) es un estándar de identidad federado que permite el SSO. Los usuarios se autentican a través de un proveedor de identidad centralizado (como Microsoft Azure AD u Okta) en lugar de introducir las credenciales directamente en cada aplicación. El proveedor de identidad devuelve un token seguro a la aplicación para conceder el acceso.
Información requerida:
URL de la página de inicio de sesión: URL de la página de inicio de sesión de SAML
Nombre de usuario: nombre de usuario de SAML
Contraseña: contraseña SAML
-
Campo de nombre de usuario XPath: XPath al campo de entrada de nombre de usuario (por ejemplo,
//input[@id='username']) -
Botón de nombre de usuario XPath (opcional): XPath al campo de botón de nombre de usuario (por ejemplo,
//input[@id='username_button']) -
Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,
//input[@id='password']) -
Botón de contraseña XPath: botón XPath a contraseña (por ejemplo,
//button[@type='password'])
XPath ejemplos de configuración
Usa estos XPath ejemplos para configurar la autenticación de formularios y SAML:
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Configure la integración de Web Crawler
Tras preparar los requisitos de acceso a su sitio web, cree la integración de Web Crawler en Amazon Quick.
-
En la consola Amazon Quick, selecciona Integraciones.
-
Elija Web Crawler entre las opciones de integración y haga clic en el botón Añadir (junto con el botón «+»).
-
Selecciona Acceder a los datos desde Web Crawler. La integración de Web Crawler solo permite el acceso a los datos; la ejecución de acciones no está disponible para el rastreo web.
-
Configure los detalles de la integración y el método de autenticación y, a continuación, cree bases de conocimiento según sea necesario.
-
Elija el tipo de autenticación para la integración de su rastreador web.
-
Introduzca los detalles necesarios en función del método de autenticación que haya elegido.
-
(Opcional) Elija una conexión de VPC para rastrear los sitios alojados en su red privada. La conexión de VPC debe configurarse en los ajustes de administración para poder elegirla aquí. Para obtener más información, consulte Configuración de una VPC para usarla con Amazon Quick.
nota
No puedes cambiar la conexión de la VPC una vez creada la integración. Para usar una conexión de VPC diferente, cree una nueva integración.
-
Seleccione Crear y continuar.
-
Introduzca el nombre y la descripción de su base de conocimientos.
-
Añada el contenido URLs que desee rastrear.
-
Seleccione Crear.
-
Tras seleccionar Crear, la sincronización de datos se iniciará automáticamente.
Configura el rastreo
Puede configurar qué sitios web y páginas rastrear y cómo filtrar el contenido.
Configuración URLs y fuentes de contenido
Configura los sitios web y las páginas que deseas rastrear:
Directo URLs
Especifique la persona URLs a la que desee rastrear:
https://example.com/docs https://example.com/blog https://example.com/support
Límite: máximo 10 URLs por conjunto de datos
Filtros de contenido y configuración de rastreo
Configuración del ámbito de rastreo
Para ver esta configuración, primero debe configurar una base de conocimientos y, a continuación, examinar la opción de configuración avanzada.
- Profundidad de rastreo
-
Rango: 0-10 (predeterminado: 1)
0 = solo se ha especificado el rastreo URLs
1 = incluir páginas enlazadas de un nivel de profundidad
Los valores más altos hacen que los enlaces se adentren más profundamente en el sitio
- Número máximo de enlaces por página
-
Predeterminado: 1000
Máximo: 1000
Controla el número de enlaces que se deben seguir desde cada página
- Tiempo de espera
-
Valor predeterminado: 1
-
El tiempo (en segundos) que el rastreador web espera a cada página una vez que la página esté lista. Aumente este valor para las páginas con JavaScript contenido dinámico que se cargue después de la plantilla principal.
Gestione las bases de conocimiento
Tras configurar la integración del rastreador web, puede crear y gestionar bases de conocimiento a partir del contenido del sitio web rastreado.
Edite las bases de conocimiento existentes
Puede modificar sus bases de conocimiento de Web Crawler existentes:
-
En la consola Amazon Quick, selecciona Bases de conocimiento.
-
Elija la base de conocimientos de Web Crawler de la lista.
-
Selecciona el icono de tres puntos en Acciones y, a continuación, selecciona Editar base de conocimientos.
-
Actualice los ajustes de configuración según sea necesario y seleccione Guardar.
Rastreo de archivos adjuntos y archivos
Controle si el sistema procesa los archivos y adjuntos enlazados desde páginas web:
-
Habilitar el rastreo de archivos adjuntos: seleccione esta opción para rastrear e indexar los archivos y adjuntos que se encuentran en las páginas web PDFs, como documentos y archivos multimedia.
Comportamiento de rastreo y configuración de sincronización
La integración de Web Crawler sigue estas prácticas de rastreo:
Modelo de sincronización incremental: la primera sincronización realiza un rastreo completo. Las sincronizaciones posteriores solo capturan los cambios.
Reintento automático: lógica de reintento integrada para las solicitudes fallidas.
Gestión de duplicados: detección y deduplicación automáticas de. URLs
Identificación del rastreador: se identifica con la cadena de agente de usuario "aws-quick-on-behalf-of-<UUID>" en los encabezados de las solicitudes.
Descubrimiento de un mapa
Web Crawler busca automáticamente los mapas de sitio añadiendo rutas de mapa de sitio comunes a tu semilla. URLs No es necesario que proporciones el mapa del sitio por separado. URLs Están marcadas las siguientes rutas:
sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml
Por ejemplo, si tu URL inicial eshttps://example.com/docs, el rastreador la busca https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, y así sucesivamente.
nota
Web Crawler no sigue las referencias recursivas a los índices de los mapas del sitio. Solo se utilizan las que URLs aparecen directamente en un mapa del sitio descubierto. Las directivas de mapas de sitio de robots.txt no se utilizan para la detección de mapas de sitios.
Conformidad con Robots.txt
Web Crawler respeta el protocolo robots.txt y respeta las directivas y el agente de usuario. allow/disallow Esto le permite controlar la forma en que el rastreador accede a su sitio.
Cómo funciona la comprobación de robots.txt
Comprobación a nivel de host: Web Crawler lee los archivos robots.txt en el nivel de host (por ejemplo, example.com/robots.txt)
Compatibilidad con varios hosts: en el caso de los dominios con varios hosts, Web Crawler respeta las reglas robóticas de cada host por separado
Comportamiento alternativo: si Web Crawler no puede recuperar el archivo robots.txt debido a un bloqueo, a errores de análisis o a tiempos de espera, se comporta como si robots.txt no existiera. En este caso, el rastreador procede a rastrear el sitio.
Campos de robots.txt compatibles
Web Crawler reconoce estos campos de robots.txt (los nombres de los campos no distinguen entre mayúsculas y minúsculas, los valores distinguen entre mayúsculas y minúsculas):
user-agentIdentifica a qué rastreador se aplican las reglas.
allowUna ruta URL que se puede rastrear.
disallowUna ruta URL que no se puede rastrear.
crawl-delayEl tiempo (en segundos) que debe transcurrir entre las solicitudes a tu sitio web.
Soporte para metaetiquetas
Web Crawler admite metaetiquetas de robots a nivel de página que puede utilizar para controlar el uso de sus datos. Puede especificar la configuración a nivel de página incluyendo una metaetiqueta en las páginas HTML o en un encabezado HTTP.
Metaetiquetas compatibles
noindexNo indexe la página. Si no especificas esta regla, es posible que la página esté indexada y apta para aparecer en las experiencias.
nofollowNo sigas los enlaces de esta página. Si no especificas esta regla, Web Crawler puede usar los enlaces de la página para descubrir esas páginas enlazadas.
Puede combinar varios valores mediante una coma (por ejemplo, «noindex, nofollow»).
nota
Para detectar las metaetiquetas, Web Crawler debe acceder a tu página. No bloquee la página con el archivo robots.txt, ya que esto impedirá que la página se vuelva a rastrear.
Resolución de problemas
Utilice esta sección para resolver problemas habituales relacionados con la integración de Web Crawler.
Errores de autenticación
Síntomas:
Mensajes de error que indican que no se puede autenticar
Respuestas HTTP 401/403
Bucles de redirección de páginas de inicio
Errores de tiempo de espera de la sesión
Pasos de resolución:
Comprueba que se pueda acceder al sitio desde la AWS región en la que está configurada la instancia de Amazon Quick.
Compruebe que sus credenciales son correctas y no han caducado.
Compruebe la disponibilidad y la accesibilidad de los puntos finales de autenticación.
Valide XPath las configuraciones probándolas en las herramientas para desarrolladores de navegadores.
Revise los registros de red del navegador para comprender el flujo de autenticación.
Asegúrese de que la URL de la página de inicio de sesión sea correcta y accesible.
Pruebe la autenticación manualmente con las mismas credenciales.
Problemas de acceso y conectividad
Síntomas:
Tiempos de espera de conexión y errores de red
Errores de red inalcanzables
Fallos en la resolución de DNS
Pasos de resolución:
-
Compruebe la conectividad de la red con los sitios web de destino.
-
Valide la accesibilidad del sitio:
Compruebe la resolución de DNS de los dominios de destino.
Compruebe SSL/TLS la configuración y los certificados.
Si es posible, pruebe el acceso desde diferentes redes.
Resolución de los DNS
El rastreador web utiliza el DNS para convertir los nombres de host de los sitios web (por ejemplowww.example.com) en direcciones IP. De forma predeterminada, utiliza una resolución de DNS pública.
Al rastrear sitios dentro de una VPC, es posible que deba configurar un servidor DNS privado para que el rastreador pueda resolver los nombres de host de los sitios internos. Elija una de las siguientes opciones en función de la configuración de la VPC:
-
Use el servidor DNS proporcionado por la VPC: si su VPC tiene habilitados tanto los nombres de host DNS como la resolución de DNS, puede usar la resolución de DNS de la VPC predeterminada (normalmente, 10.0.0.2 o, de manera más general, la base CIDR de la VPC +2). Para obtener más información, consulte VPC.
-
Usa un servidor DNS personalizado: si tu VPC usa un solucionador de DNS personalizado, proporciona la dirección IP del servidor DNS interno de tu organización. Trabaje con el administrador de la red para obtener esta dirección.
Si no configura un servidor DNS, el rastreador solo resolverá los nombres de host registrados públicamente.
JavaScript-navegación dependiente
Síntomas:
Solo se indexa la URL inicial, no se descubren páginas adicionales
El rastreo se completa correctamente, pero solo devuelve un documento
Pasos de resolución:
-
Web Crawler ejecuta JavaScript y representa el contenido de la página, pero no simula las interacciones del usuario, como los clics, los desplazamientos o las acciones de desplazamiento del ratón. Si tu sitio carga enlaces de navegación a través de la interacción del usuario (por ejemplo, mediante controladores de clics, desplazamiento infinito o menús dinámicos), el rastreador no podrá detectar esos enlaces.
-
Inspecciona tu página en las herramientas de desarrollo del navegador para comprobar si los enlaces de navegación utilizan elementos estándar
<a href="...">. Si, en cambio, los enlaces se JavaScript conectan a través de controladores de eventos, el rastreador no los seguirá. -
Si tu sitio proporciona un mapa del sitio, Web Crawler comprueba automáticamente si hay rutas de mapa de sitios comunes en tu semilla. URLs Asegúrate de que tu mapa del sitio esté disponible en una ubicación estándar (por ejemplo
/sitemap.xml) para que el rastreador pueda encontrar más URLs sin tener que recurrir a la extracción de enlaces de la página. -
Como alternativa, proporciona todas las páginas de destino URLs directamente como semilla. URLs
-
Si el contenido se puede exportar como archivos HTML, PDF o de texto, considere la posibilidad de utilizar el conector Amazon S3 como fuente de datos.
Problemas de rastreo y contenido
Síntomas:
Contenido faltante o incompleto
Rastreos incompletos o finalización anticipada
Errores de limitación de velocidad (429 respuestas)
El contenido no se indexa correctamente
Pasos de resolución:
-
Revise las restricciones de robots.txt:
Compruebe las restricciones de rastreo en el archivo robots.txt.
Compruebe que el rastreador pueda acceder a las rutas de destino.
Asegúrese de que el cumplimiento de robots.txt no bloquee el contenido.
-
Comprueba la limitación y la regulación de la velocidad:
Supervisa los encabezados de respuesta para obtener información sobre los límites de velocidad.
Implemente los retrasos de rastreo adecuados.
-
Verifica los patrones y filtros de URL:
Pruebe los patrones de expresiones regulares para comprobar su precisión.
Comprueba el formato y la estructura de las URL.
Valide la lógica de los include/exclude patrones.
-
Revisa las restricciones de contenido:
Comprueba si hay metaetiquetas noindex en las páginas.
Verifica la compatibilidad con los tipos de contenido.
Asegúrese de que el tamaño del contenido esté dentro de los límites.
-
Actualice el tiempo de espera para que el contenido se cargue en la página antes de que el rastreador comience a rastrearlo.
Limitaciones conocidas
La integración de Web Crawler tiene las siguientes limitaciones:
Límites de URL: máximo 10 semillas URLs por conjunto de datos. No puedes proporcionar un mapa del sitio URLs en el campo URL inicial.
Profundidad de rastreo: profundidad máxima de rastreo de 10 niveles
Requisitos de seguridad: se requiere HTTPS para las configuraciones de proxy web
Cuando se utiliza el Web Crawler con una conexión de VPC, se aplican las siguientes limitaciones:
No es compatible con HTTP/3 (QUIC): no se admite HTTP/3. La mayoría de los sitios volverán a HTTP/2 automáticamente, pero no se podrá acceder a los sitios configurados únicamente para HTTP/3.
Se requiere DNS a través de TCP: la resolución de DNS debe usar TCP. Compruebe que su servidor DNS admite DNS a través de TCP antes de configurar el rastreo de VPC.
Se requieren certificados SSL de confianza pública: los sitios internos deben usar un certificado de una entidad de certificación conocida (por ejemplo, Let's Encrypt o). DigiCert Los sitios que utilizan certificados de CA privados o autofirmados no se conectarán.
IPv4 solo: solo se admiten IPv4 direcciones. Los sitios a los que se puede acceder exclusivamente desde aquí IPv6 no se pueden rastrear.