

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Rastreo de páginas web para la base de conocimiento
<a name="webcrawl-data-source-connector"></a>

El rastreador web proporcionado por Amazon Bedrock se conecta con y rastrea las URL que ha seleccionado para usarlas en su base de conocimientos de Amazon Bedrock. Puede rastrear las páginas de sitios web de acuerdo con el alcance o los límites que ha establecido para las URL que ha seleccionado. Puede rastrear las páginas del sitio web mediante la [consola de AWS administración de Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) o la [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)API (consulte los [SDK compatibles con](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) Amazon Bedrock y). AWS CLI Actualmente, solo el almacén vectorial Amazon OpenSearch Serverless está disponible para su uso con esta fuente de datos.

**nota**  
El conector del origen de datos del Rastreador web está en versión preliminar y sujeto a cambios.

Al seleccionar los sitios web que se van a rastrear, se debe respetar la [Política de uso aceptable de Amazon](https://aws.amazon.com/aup/) y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el Rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para rastrear, y que debe respetar las configuraciones de robots-txt.

El rastreador web respeta robots.txt de acuerdo con [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Hay límites en cuanto al número de elementos de contenido de una página web y a los MB por elemento de contenido que se pueden rastrear. Consulte [Cuotas de las bases de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Características admitidas](#supported-features-webcrawl-connector)
+ [Requisitos previos](#prerequisites-webcrawl-connector)
+ [Configuración de la conexión](#configuration-webcrawl-connector)

## Características admitidas
<a name="supported-features-webcrawl-connector"></a>

El rastreador web se conecta a las páginas HTML y las rastrea a partir de la URL inicial, recorriendo todos los enlaces secundarios situados bajo el mismo dominio principal y la misma ruta. Si alguna de las páginas HTML hace referencia a documentos compatibles, el rastreador web obtendrá estos documentos, independientemente de si se encuentran dentro del mismo dominio primario superior. Puede modificar el comportamiento de rastreo cambiando la configuración del rastreo. Para ello, consulte [Configuración de la conexión](#configuration-webcrawl-connector).

Se admite lo siguiente:
+ Seleccionar varias URL de origen para rastrearlas y establecer el alcance de las URL para que rastreen solo el host o también incluyan subdominios
+ Rastrear las páginas web estáticas que forman parte de las URL de origen
+ Especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador
+ Incluir o excluir determinadas URL que coincidan con un patrón de filtro
+ Respete las directivas estándar de robots.txt como “Allow” y “Disallow”.
+ Limite el alcance de las URL al rastreo y, si lo desea, excluya las URL que coincidan con un patrón de filtro.
+ Limitar la velocidad de rastreo de las URL y el número máximo de páginas que se rastrean
+ Ver el estado de las URL rastreadas en Amazon CloudWatch

## Requisitos previos
<a name="prerequisites-webcrawl-connector"></a>

**Para usar el rastreador web, asegúrese de**:
+ Comprobar que tiene autorización para rastrear las URL de origen.
+ Comprobar que la ruta a robots.txt correspondiente a las URL de origen no impida el rastreo de las URL. El rastreador web sigue los estándares de robots.txt: `disallow` de forma predeterminada si no se encuentra robots.txt en el sitio web. El rastreador web respeta robots.txt de acuerdo con [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html). También puede especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador. Para obtener más información, consulte el acceso a la URL del Rastreador web en las instrucciones de [Configuración de la conexión](#configuration-webcrawl-connector) de esta página.
+ [Active la entrega de CloudWatch registros](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-bases-logging.html) y siga los ejemplos de registros de los rastreadores web para ver el estado de su trabajo de ingesta de datos al ingerir contenido web y si determinadas URL no se pueden recuperar.

**nota**  
Al seleccionar los sitios web que se van a rastrear, se debe respetar la [Política de uso aceptable de Amazon](https://aws.amazon.com/aup/) y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para indexar.

## Configuración de la conexión
<a name="configuration-webcrawl-connector"></a>

Para obtener más información sobre el alcance de la sincronización de las URL de rastreo, inclusion/exclusion los filtros, el acceso a las URL, la sincronización incremental y su funcionamiento, selecciona lo siguiente:

### Ámbito de sincronización de las URL de rastreo
<a name="ds-sync-scope"></a>

Puede limitar el alcance de las URL a rastrear en función de la relación específica de cada URL de página con las URL semilla. Para que los rastreos sean más rápidos, puede limitar las URL a las que tengan el mismo host y la misma ruta URL inicial que la URL semilla. Para rastreos más amplios, puede elegir rastrear las URL con el mismo host o dentro de cualquier subdominio de la URL semilla.

Puede elegir entre las siguientes opciones.
+ Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo host y con la misma ruta URL inicial. Por ejemplo, con una URL inicial de «https://aws.amazon.com/bedrock/», solo se rastrearán esta ruta y las páginas web que se extiendan desde esta ruta, como «». https://aws.amazon.com/bedrock/agents/ Por ejemplo, las URL hermanas, como «https://aws.amazon.com/ec2/», no se rastrean.
+ Solo host: limita el rastreo a las páginas web que pertenecen al mismo host. Por ejemplo, si la URL inicial es https://aws.amazon.com/bedrock/ «», también se rastrearán las páginas web con https://aws.amazon.com «», como «». https://aws.amazon.com/ec2
+ Subdominios: incluyen el rastreo de cualquier página web que tenga el mismo dominio principal que la URL semilla. Por ejemplo, si la URL inicial es «https://aws.amazon.com/bedrock/», se rastreará cualquier página web que contenga «amazon.com» (subdominio), como «». https://www.amazon.com

**nota**  
Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño puede llevar mucho tiempo.  
Los [tipos de archivos compatibles](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

El Rastreador web admite sitios web estáticos.

También puede limitar la velocidad de rastreo de las URL para controlar la limitación de velocidad de rastreo. Puede definir el número de direcciones URL rastreadas por host por minuto. Además, también puede establecer el número máximo (hasta 25 000) de páginas web totales que se van a rastrear. Ten en cuenta que si el número total de páginas web de las URL de origen supera el máximo establecido, el trabajo de la fuente sync/ingestion de datos fallará.

### Inclusion/exclusion filtros
<a name="ds-inclusion-exclusion"></a>

Puede incluir o excluir determinadas URL de acuerdo con su alcance. Los [tipos de archivos compatibles](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo. Si especifica un filtro de inclusión y exclusión, y ambos coinciden con una URL, el filtro de exclusión tiene prioridad y el documento no se rastrea.

**importante**  
Se rechazan los filtros de patrones de expresiones regulares problemáticos que provocan [retrocesos catastróficos](https://docs.aws.amazon.com/codeguru/detector-library/python/catastrophic-backtracking-regex/) y búsquedas anticipadas.

Se muestra un ejemplo de un patrón de filtro de expresiones regulares para excluir las direcciones URL que terminan en “.pdf” o los archivos adjuntos de páginas web en PDF: *“.\*\\.pdf$”*.

Un ejemplo de patrón de filtro de inclusión para rastrear solo las URL de una ruta específica: *"https://www\\ .example\\. com/docs/. *\*»

### Acceso del rastreador web a URL
<a name="ds-webcrawl-identity-crawling"></a>

Puede utilizar el rastreador web para rastrear las páginas de los sitios web que está autorizado a rastrear.

Al seleccionar los sitios web que se van a rastrear, se debe respetar la [Política de uso aceptable de Amazon](https://aws.amazon.com/aup/) y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para indexar.

El rastreador web respeta robots.txt de acuerdo con [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Puede especificar que algunos bots del agente de usuario “permitan” o “no permitan” que el agente de usuario rastree las URL de origen. Puede modificar el archivo robots.txt de su sitio web para controlar la forma en que el Rastreador web rastrea las URL de origen. El rastreador buscará primero las reglas `bedrockbot-UUID ` y, después, las reglas `bedrockbot` genéricas en el archivo robots.txt.

También puedes añadir un User-Agent sufijo que se pueda utilizar para incluir tu rastreador en una lista de los sistemas de protección contra bots. Tenga en cuenta que no es necesario añadir este sufijo al archivo `robots.txt` para garantizar que nadie pueda suplantar la cadena User Agent. Para permitir que el Rastreador web rastree todo el contenido del sitio web e impedir que otros robots lo rastreen, utilice la siguiente directiva:

```
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages
```

### Sincronización incremental
<a name="ds-incremental-sync"></a>

Cada vez que se ejecuta el rastreador web, recupera el contenido de todas las URL a las que se puede acceder desde las URL de origen que coinciden con el alcance y los filtros. Para las sincronizaciones incrementales después de la primera sincronización de todo el contenido, Amazon Bedrock actualizará su base de conocimientos con contenido nuevo y modificado y eliminará el contenido antiguo que ya no esté presente. En ocasiones, es posible que el rastreador no pueda distinguir si el contenido se ha eliminado del sitio web y, en ese caso, conservará el contenido antiguo de su base de conocimientos.

Para sincronizar tu fuente de datos con tu base de conocimientos, usa la [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API o selecciona tu base de conocimientos en la consola y selecciona **Sincronizar en la sección de descripción general** de la fuente de datos.

**importante**  
Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos `bedrock:Retrieve` para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte [Permisos de la base de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Conexión de un origen de datos del Rastreador web a la base de conocimiento**

1. Siga los pasos que se indican en [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y elija **Rastreador web** como el origen de datos.

1. Proporcione un nombre y una descripción opcional para el origen de datos.

1. Escriba las **URL de origen** de las URL que desea rastrear. Puede añadir hasta nueve direcciones URL adicionales seleccionando **Agregar URL de origen**. Al proporcionar una URL de origen, confirma que tiene autorización para rastrear su dominio.

1. En la sección **Configuración avanzada**, si lo desea, puede configurar lo siguiente:
   + **Clave de KMS para el almacenamiento de datos transitorios:** — Puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la clave KMS predeterminada Clave administrada de AWS o con su propia clave KMS. Para obtener más información, consulte [Cifrado del almacenamiento de datos transitorios durante la ingesta de datos](encryption-kb.md#encryption-kb-ingestion).
   + **Política de eliminación de datos**: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

1. (Opcional) Proporcione un sufijo de agente de usuario para **bedrock-UUID-** que identifique el rastreador o el bot cuando accede a un servidor web.

1. Configure lo siguiente en la sección **Alcance de sincronización**:

   1. Seleccione un **intervalo de dominios de sitios web** para rastrear las URL de origen:
      + Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo host y con la misma ruta URL inicial. Por ejemplo, si la URL inicial es «https://aws.amazon.com/bedrock/», solo se rastreará esta ruta y las páginas web que se extiendan desde ella, como «». https://aws.amazon.com/bedrock/agents/ Por ejemplo, las URL hermanas, como «https://aws.amazon.com/ec2/», no se rastrean.
      + Solo host: limita el rastreo a las páginas web que pertenecen al mismo host. Por ejemplo, si la URL inicial es https://aws.amazon.com/bedrock/ «», también se rastrearán las páginas web con https://aws.amazon.com «», como «». https://aws.amazon.com/ec2
      + Subdominios: incluyen el rastreo de cualquier página web que tenga el mismo dominio principal que la URL semilla. Por ejemplo, si la URL inicial es «https://aws.amazon.com/bedrock/», se rastreará cualquier página web que contenga «amazon.com» (subdominio), como «». https://www.amazon.com
**nota**  
Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño puede llevar mucho tiempo.  
Los [tipos de archivos compatibles](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

   1. Introduzca la **Limitación máxima de la velocidad de rastreo**. Introduzca entre 1 y 300 URL por host y por minuto. Una velocidad de rastreo más alta aumenta la carga, pero lleva menos tiempo.

   1. Introduzca un valor en **Cantidad máxima de páginas para la sincronización de orígenes de datos** comprendido entre 1 y 25 000. Limite el número máximo de páginas web rastreadas desde las URL de origen. Si las páginas web superan este número, se producirá un error en la sincronización del origen de datos y no se ingerirá ninguna página web. 

   1. Para los patrones de **expresiones regulares de URL** (opcional), puede añadir **patrones de inclusión** o de **exclusión**. Para ello, introduzca el patrón de expresión regular en el cuadro. Puede añadir hasta 25 patrones de filtro de inclusión y 25 de exclusión seleccionando **Agregar nuevo patrón**. Los patrones de inclusión y exclusión se rastrean de acuerdo con su alcance. Si hay un conflicto, prevalece el patrón de exclusión.

1. (Opcional) En la sección **Análisis y fragmentación del contenido**, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:
   + Para obtener más información sobre las opciones de análisis, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).
   + Para obtener más información sobre las estrategias de fragmentación, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).
**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.
   + Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md).

1. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y continúe desde allí después de conectar el origen de datos.

------
#### [ API ]

Para conectar una base de conocimientos a una fuente de datos mediante WebCrawler, envíe una [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)solicitud con un [punto final de tiempo de compilación de Agents for Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt), especifique `WEB` en el `type` campo e [DataSourceConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_DataSourceConfiguration.html)inclúyalo. `webConfiguration` El siguiente ejemplo muestra la configuración del rastreador web para su base de conocimientos de Amazon Bedrock.

```
{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}
```

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo `vectorIngestionConfiguration` opcional, consulte [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md).

------