기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
웹 크롤러 통합
Amazon Quick의 웹 크롤러 통합을 사용하면 웹 페이지를 크롤링하고 인덱싱하여 웹 사이트 콘텐츠에서 지식 기반을 생성할 수 있습니다. 이 통합은 다양한 인증 옵션으로 데이터 수집 기능을 지원합니다.
웹 크롤러 기능
웹 크롤러 사용자는 웹 사이트 및 웹 페이지에 저장된 콘텐츠에 대해 질문할 수 있습니다. 예를 들어 사용자는 여러 웹 페이지에서 설명서 사이트, 지식 기반 또는 특정 정보를 검색할 수 있습니다.
통합을 통해 사용자는 위치나 유형에 관계없이 웹 콘텐츠에 액세스하고 이해할 수 있습니다. 보다 효율적인 정보 검색을 위해 게시 날짜, 수정 기록, 페이지 소유권과 같은 컨텍스트 세부 정보를 제공합니다.
참고
웹 크롤러 통합은 데이터 수집만 지원합니다. 웹 사이트 또는 웹 서비스를 관리하기 위한 작업 기능은 제공하지 않습니다.
사전 조건
웹 크롤러 통합을 설정하기 전에 다음이 있는지 확인합니다.
-
크롤링 및 인덱싱할 웹 사이트 URLs.
-
Amazon Quick Enterprise 구독.
-
방화벽 뒤에 있지 않고 연결하는 데 특수 브라우저 플러그인이 필요하지 않은 웹 사이트입니다.
웹 사이트 액세스 및 인증 준비
Amazon Quick에서 통합을 설정하기 전에 웹 사이트 액세스 자격 증명을 준비합니다. 웹 크롤러 통합은 다양한 인증 방법을 지원합니다.
- 인증 없음
-
인증이 필요하지 않은 웹 사이트를 크롤링하는 데 사용합니다.
- 기본 인증
-
보안 웹 사이트에 대한 표준 HTTP 기본 인증입니다. 보호된 사이트를 방문하면 브라우저에 자격 증명을 묻는 대화 상자가 표시됩니다.
필수 자격 증명:
-
로그인 페이지 URL - 로그인 페이지의 URL
사용자 이름 - 기본 인증 사용자 이름
암호 - 기본 인증 암호
-
- 양식 인증
-
HTML 양식 기반 로그인 페이지를 사용하는 웹 사이트의 경우. 로그인 페이지에서 양식 필드를 식별하기 위해 XPath 표현식을 지정합니다.
XPath(XML 경로 언어)는 HTML 또는 XML 문서에서 요소를 탐색하기 위한 쿼리 언어입니다. 웹 페이지 요소의 XPath를 찾으려면 브라우저에서 요소를 마우스 오른쪽 버튼으로 클릭하고 검사를 선택합니다. 개발자 도구에서 강조 표시된 HTML 코드를 마우스 오른쪽 버튼으로 클릭하고 복사를 선택한 다음 XPath 복사를 선택합니다.
필수 정보:
로그인 페이지 URL - 로그인 양식의 URL(예:
https://example.com/login)사용자 이름 - 로그인 사용자 이름
암호 - 로그인 암호
사용자 이름 필드 XPath - 사용자 이름 입력 필드에 대한 XPath(예:
//input[@id='username'])-
사용자 이름 버튼 XPath(선택 사항) - 사용자 이름에 대한 XPath 버튼 필드(예:
//input[@id='username_button']) 암호 필드 XPath - 암호 입력 필드에 대한 XPath(예:
//input[@id='password'])암호 버튼 XPath - 암호에 대한 XPath 버튼(예:
//button[@type='password'])
- SAML 인증
-
SAML 기반 SSO(Single Sign-On) 인증을 사용하는 웹 사이트의 경우.
SAML(Security Assertion Markup Language) 인증은 SSO를 활성화하는 페더레이션 ID 표준입니다. 사용자는 각 애플리케이션에 자격 증명을 직접 입력하는 대신 중앙 집중식 자격 증명 공급자(예: Microsoft Azure AD 또는 Okta)를 통해 인증합니다. 자격 증명 공급자는 보안 토큰을 애플리케이션에 다시 전달하여 액세스 권한을 부여합니다.
필수 정보:
로그인 페이지 URL - SAML 로그인 페이지의 URL
사용자 이름 - SAML 사용자 이름
암호 - SAML 암호
-
사용자 이름 필드 XPath - 사용자 이름 입력 필드에 대한 XPath(예:
//input[@id='username']) -
사용자 이름 버튼 XPath(선택 사항) - 사용자 이름에 대한 XPath 버튼 필드(예:
//input[@id='username_button']) -
암호 필드 XPath - 암호 입력 필드에 대한 XPath(예:
//input[@id='password']) -
암호 버튼 XPath - 암호에 대한 XPath 버튼(예:
//button[@type='password'])
XPath 구성 예제
다음 XPath 예제를 사용하여 양식 및 SAML 인증을 구성합니다.
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
웹 크롤러 통합 설정
웹 사이트 액세스 요구 사항을 준비한 후 Amazon Quick에서 웹 크롤러 통합을 생성합니다.
-
Amazon Quick 콘솔에서 통합을 선택합니다.
-
통합 옵션에서 웹 크롤러를 선택하고 추가 버튼(더하기 "+" 버튼)을 클릭합니다.
-
웹 크롤러에서 데이터 액세스를 선택합니다. 웹 크롤러 통합은 데이터 액세스만 지원합니다. 웹 크롤링에는 작업 실행을 사용할 수 없습니다.
-
통합 세부 정보 및 인증 방법을 구성한 다음 필요에 따라 지식 기반을 생성합니다.
-
웹 크롤러 통합의 인증 유형을 선택합니다.
-
선택한 인증 방법에 따라 필요한 세부 정보를 입력합니다.
-
(선택 사항) 프라이빗 네트워크에서 호스팅되는 사이트를 크롤링하려면 VPC 연결을 선택합니다. 여기에서 VPC 연결을 선택하려면 먼저 관리자 설정에서 VPC 연결을 구성해야 합니다. 자세한 내용은 Amazon Quick과 함께 사용할 VPC 설정 단원을 참조하십시오.
참고
통합이 생성된 후에는 VPC 연결을 변경할 수 없습니다. 다른 VPC 연결을 사용하려면 새 통합을 생성합니다.
-
Create and continue를 선택합니다.
-
지식 기반의 이름과 설명을 입력합니다.
-
크롤링하려는 콘텐츠 URLs을 추가합니다.
-
생성(Create)을 선택합니다.
-
생성을 선택하면 데이터 동기화가 자동으로 시작됩니다.
크롤링 구성
크롤링할 웹 사이트 및 페이지와 콘텐츠를 필터링하는 방법을 구성할 수 있습니다.
URLs 및 콘텐츠 소스 구성
크롤링할 웹 사이트 및 페이지를 구성합니다.
직접 URLs
크롤링할 개별 URLs 지정합니다.
https://example.com/docs https://example.com/blog https://example.com/support
제한: 데이터 세트당 최대 10URLs
콘텐츠 필터 및 크롤링 설정
범위 설정 크롤링
이러한 설정을 보려면 먼저 지식 기반을 설정한 다음 고급 설정 옵션을 검사해야 합니다.
- 크롤링 깊이
-
범위: 0~10(기본값: 1)
0 = 지정된 URLs만 크롤링
1 = 링크된 페이지를 한 수준 깊이 포함
값이 높을수록 사이트 심층 링크를 따릅니다.
- 페이지당 최대 링크 수
-
기본값: 1000
최댓값: 1,000
각 페이지에서 따라야 할 링크 수를 제어합니다.
- 대기 시간
-
기본값: 1
-
페이지가 준비 상태에 도달한 후 웹 크롤러가 각 페이지를 기다리는 시간(초)입니다. 기본 템플릿 뒤에 로드되는 동적 JavaScript 콘텐츠가 있는 페이지의 경우이 값을 늘립니다.
지식 기반 관리
웹 크롤러 통합을 설정한 후 크롤링된 웹 사이트 콘텐츠에서 지식 기반을 생성하고 관리할 수 있습니다.
기존 지식 기반 편집
기존 웹 크롤러 지식 기반을 수정할 수 있습니다.
-
Amazon Quick 콘솔에서 지식 기반을 선택합니다.
-
목록에서 웹 크롤러 지식 기반을 선택합니다.
-
작업에서 점 3개 아이콘을 선택한 다음 지식 기반 편집을 선택합니다.
-
필요에 따라 구성 설정을 업데이트하고 저장을 선택합니다.
첨부 파일 및 파일 크롤링
시스템이 웹 페이지에서 연결된 파일 및 첨부 파일을 처리하는지 여부를 제어합니다.
-
파일 첨부 파일 크롤링 활성화 - PDFs, 문서 및 미디어 파일과 같은 웹 페이지에 있는 파일 및 첨부 파일을 크롤링하고 인덱싱하려면이 옵션을 선택합니다.
크롤링 동작 및 동기화 구성
웹 크롤러 통합은 다음 크롤링 관행을 따릅니다.
증분 동기화 모델: 첫 번째 동기화는 전체 크롤링을 수행합니다. 후속 동기화는 변경 사항만 캡처합니다.
자동 재시도: 실패한 요청에 대한 기본 제공 재시도 로직입니다.
중복 처리: URLs.
크롤러 식별: 요청 헤더에서 사용자 에이전트 문자열 "aws-quick-on-behalf-of-<UUID>"로 자신을 식별합니다.
사이트맵 검색
웹 크롤러는 시드 URLs에 공통 사이트맵 경로를 추가하여 사이트맵을 자동으로 확인합니다. 사이트맵 URLs 별도로 제공할 필요가 없습니다. 다음 경로가 확인됩니다.
sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml
예를 들어 시드 URL이 https://example.com/docs인 경우 크롤러는 https://example.com/docs/sitemap.xml, https://example.com/docs/sitemap_index.xml등을 확인합니다.
참고
웹 크롤러는 재귀 사이트맵 인덱스 참조를 따르지 않습니다. 검색된 사이트맵에 직접 나열된 URLs만 사용됩니다. robots.txt의 사이트맵 지시문은 사이트맵 검색에 사용되지 않습니다.
Robots.txt 규정 준수
웹 크롤러는 robots.txt 프로토콜을 존중하고 사용자 에이전트 및 허용/허용 명령을 준수합니다. 이렇게 하면 크롤러가 사이트에 액세스하는 방식을 제어할 수 있습니다.
robots.txt 검사 작동 방식
호스트 수준 확인: 웹 크롤러가 호스트 수준에서 robots.txt 파일을 읽습니다(예: example.com/robots.txt).
다중 호스트 지원: 여러 호스트가 있는 도메인의 경우 Web Crawler는 각 호스트에 대한 로봇 규칙을 개별적으로 준수합니다.
폴백 동작: 차단, 구문 분석 오류 또는 제한 시간으로 인해 웹 크롤러가 robots.txt를 가져올 수 없는 경우 robots.txt가 없는 것처럼 동작합니다. 이 경우 크롤러는 사이트를 크롤링합니다.
지원되는 robots.txt 필드
웹 크롤러는 이러한 robots.txt 필드를 인식합니다(필드 이름은 대소문자를 구분하지 않고 값은 대소문자를 구분함).
user-agent규칙이 적용되는 크롤러를 식별합니다.
allow크롤링할 수 있는 URL 경로입니다.
disallow크롤링할 수 없는 URL 경로입니다.
crawl-delay웹 사이트에 대한 요청 사이에 대기하는 시간(초)입니다.
메타 태그 지원
웹 크롤러는 데이터 사용 방식을 제어하는 데 사용할 수 있는 페이지 수준 로봇 메타 태그를 지원합니다. HTML 페이지 또는 HTTP 헤더에 메타 태그를 포함하여 페이지 수준 설정을 지정할 수 있습니다.
지원되는 메타 태그
noindex페이지를 인덱싱하지 마십시오. 이 규칙을 지정하지 않으면 페이지가 인덱싱되어 경험에 나타날 수 있습니다.
nofollow이 페이지의 링크를 따르지 마십시오. 이 규칙을 지정하지 않으면 웹 크롤러가 페이지의 링크를 사용하여 연결된 페이지를 검색할 수 있습니다.
쉼표를 사용하여 여러 값을 결합할 수 있습니다(예: "noindex, noFollow").
참고
메타 태그를 감지하려면 웹 크롤러가 페이지에 액세스해야 합니다. robots.txt로 페이지를 차단하지 마십시오. 이렇게 하면 페이지가 다시 크롤링되지 않습니다.
문제 해결
이 섹션을 사용하여 웹 크롤러 통합과 관련된 일반적인 문제를 해결합니다.
인증 실패 횟수
증상:
"인증할 수 없음" 오류 메시지
401/403 HTTP 응답
로그인 페이지 리디렉션 루프
세션 제한 시간 오류
해결 단계:
Amazon Quick 인스턴스가 설정된 AWS 리전에서 사이트에 연결할 수 있는지 확인합니다.
자격 증명이 올바르고 만료되지 않았는지 확인합니다.
인증 엔드포인트 가용성 및 접근성을 확인합니다.
브라우저 개발자 도구에서 XPath 구성을 테스트하여 XPath 구성을 검증합니다.
브라우저 네트워크 로그를 검토하여 인증 흐름을 이해합니다.
로그인 페이지 URL이 올바르고 액세스 가능한지 확인합니다.
동일한 자격 증명을 사용하여 인증을 수동으로 테스트합니다.
액세스 및 연결 문제
증상:
연결 제한 시간 및 네트워크 오류
네트워크에 연결할 수 없는 오류
DNS 확인 실패
해결 단계:
-
대상 웹 사이트에 대한 네트워크 연결을 확인합니다.
-
사이트 접근성 검증:
대상 도메인의 DNS 확인을 확인합니다.
SSL/TLS 구성 및 인증서를 확인합니다.
가능하면 다른 네트워크에서 액세스를 테스트합니다.
DNS 확인
웹 크롤러는 DNS를 사용하여 웹 사이트 호스트 이름(예: www.example.com)을 IP 주소로 확인합니다. 기본적으로 퍼블릭 DNS 확인을 사용합니다.
VPC 내에서 사이트를 크롤링할 때 크롤러가 내부 사이트의 호스트 이름을 확인할 수 있도록 프라이빗 DNS 서버를 구성해야 할 수 있습니다. VPC 구성에 따라 다음 옵션 중 하나를 선택합니다.
-
VPC 제공 DNS 서버 사용 - VPC에 DNS 호스트 이름과 DNS 확인이 모두 활성화된 경우 기본 VPC DNS 해석기(일반적으로 10.0.0.2 또는 더 일반적으로 VPC CIDR base+2)를 사용할 수 있습니다. 자세한 내용은 VPC 단원을 참조하십시오.
-
사용자 지정 DNS 서버 사용 - VPC가 사용자 지정 DNS 해석기를 사용하는 경우 조직의 내부 DNS 서버의 IP 주소를 제공합니다. 네트워크 관리자와 협력하여이 주소를 가져옵니다.
DNS 서버를 구성하지 않으면 크롤러는 공개적으로 등록된 호스트 이름만 확인합니다.
JavaScript 종속 탐색
증상:
시드 URL만 인덱싱되고 추가 페이지는 검색되지 않습니다.
크롤링이 성공적으로 완료되었지만 하나의 문서만 반환함
해결 단계:
-
웹 크롤러는 JavaScript를 실행하고 페이지 콘텐츠를 렌더링하지만 클릭, 스크롤 또는 가리키기 작업과 같은 사용자 상호 작용을 시뮬레이션하지 않습니다. 사이트가 사용자 상호 작용을 통해 탐색 링크를 로드하는 경우(예: 클릭 핸들러, 무한 스크롤 또는 동적 메뉴) 크롤러는 이러한 링크를 검색할 수 없습니다.
-
브라우저 개발자 도구에서 페이지를 검사하여 탐색 링크가 표준
<a href="...">요소를 사용하는지 확인합니다. 대신 JavaScript 이벤트 핸들러를 통해 링크가 연결된 경우 크롤러는 링크를 따르지 않습니다. -
사이트가 사이트맵을 제공하는 경우 웹 크롤러는 시드 URLs에서 일반적인 사이트맵 경로를 자동으로 확인합니다. 크롤러가 페이지 내 링크 추출에 의존하지 않고 추가 URLs을 검색할 수 있도록 사이트맵을 표준 위치(예:
/sitemap.xml)에서 사용할 수 있는지 확인합니다. -
또는 모든 대상 페이지 URLs 시드 URLs로 직접 제공합니다.
-
콘텐츠를 HTML, PDF 또는 텍스트 파일로 내보낼 수 있는 경우 Amazon S3 커넥터를 대신 데이터 소스로 사용하는 것이 좋습니다.
크롤링 및 콘텐츠 문제
증상:
누락되거나 불완전한 콘텐츠
불완전한 크롤링 또는 조기 종료
속도 제한 오류(429 응답)
콘텐츠가 제대로 인덱싱되지 않음
해결 단계:
-
robots.txt 제한 사항 검토:
robots.txt 파일에서 크롤링 제한을 확인합니다.
크롤러가 대상 경로에 액세스할 수 있는지 확인합니다.
robots.txt 규정 준수가 콘텐츠를 차단하지 않는지 확인합니다.
-
속도 제한 및 제한을 확인합니다.
응답 헤더에서 속도 제한 정보를 모니터링합니다.
적절한 크롤링 지연을 구현합니다.
-
URL 패턴 및 필터를 확인합니다.
정규식 패턴의 정확도를 테스트합니다.
URL 형식 및 구조를 확인합니다.
패턴 로직 포함/제외를 검증합니다.
-
콘텐츠 제한을 검토합니다.
페이지에서 noindex 메타 태그를 확인합니다.
콘텐츠 유형 지원을 확인합니다.
콘텐츠 크기가 한도 내에 있는지 확인합니다.
-
크롤러가 크롤링을 시작하기 전에 페이지에 콘텐츠가 로드되도록 대기 시간을 업데이트합니다.
알려진 제한 사항
웹 크롤러 통합에는 다음과 같은 제한 사항이 있습니다.
URL 제한: 데이터 세트당 최대 10개의 시드 URLs. 시드 URLs 필드에는 사이트맵 URL을 제공할 수 없습니다.
크롤링 깊이: 레벨 10의 최대 크롤링 깊이
보안 요구 사항: 웹 프록시 구성에 필요한 HTTPS
VPC 연결과 함께 웹 크롤러를 사용할 때 다음과 같은 제한 사항이 적용됩니다.
HTTP/3(QUIC) 지원 없음: HTTP/3은 지원되지 않습니다. 대부분의 사이트는 자동으로 HTTP/2로 폴백되지만 HTTP/3용으로만 구성된 사이트는 액세스할 수 없습니다.
TCP를 통한 DNS 필요: DNS 확인은 TCP를 사용해야 합니다. VPC 크롤링을 구성하기 전에 DNS 서버가 TCP를 통한 DNS를 지원하는지 확인합니다.
공개적으로 신뢰할 수 있는 SSL 인증서 필요: 내부 사이트는 잘 알려진 인증 기관(예: Let's Encrypt 또는 DigiCert)의 인증서를 사용해야 합니다. 자체 서명 또는 프라이빗 CA 인증서를 사용하는 사이트는 연결되지 않습니다.
IPv4 전용: IPv4 주소만 지원됩니다. IPv6를 통해서만 액세스할 수 있는 사이트는 크롤링할 수 없습니다.