

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon Kendra 网络爬虫
<a name="data-source-web-crawler"></a>

您可以使用 Amazon Kendra Web Crawler 来抓取和索引网页。

您只能爬取公共网站和使用安全通信协议（安全超文本传输协议（HTTPS））的公司内部网站。如果您在爬取网站时收到错误，则可能是该网站被阻止爬网。要爬取内部网站，可以设置 Web 代理。Web 代理必须面向公众。您还可以使用身份验证来访问和爬取网站。

*当选择要编制索引的网站时，您必须遵守 [Amazon 可接受使用政策](https://aws.amazon.com/aup/)以及所有其他 Amazon 条款。请记住，您只能使用 Amazon Kendra Web Crawler 来索引自己的网页或您有权编制索引的网页。要了解如何阻止 Amazon Kendra Web Crawler 将您的网站编入索引，请参阅[为 Amazon Kendra Web Crawler 配置`robots.txt`文件](stop-web-crawler.md)。*

**注意**  
滥用 Amazon Kendra Web Crawler 来积极抓取你不拥有的网站或网页是不被视为**不可**接受的用法。

Amazon Kendra 有两个版本的web crawler连接器。每个版本支持的功能包括：

**Amazon Kendra Web Crawler 连接器 v1.0/API [https://docs.aws.amazon.com/kendra/latest/dg/API_WebCrawlerConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_WebCrawlerConfiguration.html)**
+ 网络代理
+ 包含/排除筛选条件

**Amazon Kendra Web Crawler 连接器 v2.0/API [https://docs.aws.amazon.com/kendra/latest/dg/API_TemplateConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_TemplateConfiguration.html)**
+ 字段映射
+ 包含/排除筛选条件
+ 完整和增量内容同步
+ 网络代理
+ 网站的基本身份验证、NTLM/Kerberos 身份验证、SAML 身份验证和表单身份验证
+ 虚拟私有云（VPC）

**重要**  
不支持 Web Crawler v2.0 连接器的创建。 CloudFormation如果需要 CloudFormation 支持，请使用 Web Crawler v1.0 连接器。

要对 Amazon Kendra 网络爬虫数据源连接器进行故障排除，请参阅[数据来源故障排除](troubleshooting-data-sources.md)。

**Topics**
+ [Amazon Kendra 网络爬虫连接器 v1.0](data-source-v1-web-crawler.md)
+ [Amazon Kendra 网络爬虫连接器 v2.0](data-source-v2-web-crawler.md)
+ [为 Amazon Kendra Web Crawler 配置`robots.txt`文件](stop-web-crawler.md)