기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Sequence-to-Sequence 하이퍼파라미터
<a name="seq-2-seq-hyperparameters"></a>

다음 표에는 Amazon SageMaker AI Sequence-Sequence(seq2seq) 알고리즘으로 훈련할 때 설정할 수 있는 하이퍼파라미터가 나열되어 있습니다.


| 파라미터 이름 | 설명 | 
| --- | --- | 
| batch\_size | 경사 하강에 대한 미니 배치 크기.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 64 | 
| beam\_size | 빔 검색에 대한 빔의 길이. 컴퓨팅 `bleu`에 대한 훈련 중 사용되고, 추론 중 사용됩니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 5 | 
| bleu\_sample\_size | 검증 데이터세트에서 선택하여 훈련 도중 `bleu` 점수를 디코딩 및 컴퓨팅하는 인스턴스의 수. -1로 설정하면 전체 검증 세트를 사용합니다(`bleu`가 `optimized_metric`으로 선택된 경우).<br />**선택 사항**<br />유효한 값: 정수<br />기본값: 0 | 
| bucket\_width | 최대 (`max_seq_len_source`, `max_seq_len_target`)개의 (소스,대상) 버킷을 반환합니다. 데이터에서 길이가 긴 측은 `bucket_width` 단계를 사용하는 반면 짧은 측은 평균 대상/소스 길이 비율로 축소된 단계를 사용합니다. 한 측에서 다른 측보다 먼저 최대 길이에 도달한 경우 해당 측의 추가 버킷 너비는 `max_len`으로 고정됩니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 10 | 
| bucketing\_enabled | `false`로 설정되면 버킷을 비활성화하고 최대 길이로 펼쳐집니다.<br />**선택 사항**<br />유효한 값: `true` 또는 `false`<br />기본값: `true` | 
| checkpoint\_frequency\_num\_batches | x회의 배치마다 체크포인트 및 검증. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘으로 전달되어 최적의 모델을 초기에 중지하고 검색할 수 있습니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 1000 | 
| checkpoint\_threshold | 훈련 중지 전에 검증 데이터세트의 `optimized_metric`이 개선되지 않도록 하는 체크포인트 모델의 최대 수. 이 체크포인트 하이퍼파라미터는 SageMaker AI의 seq2seq 알고리즘으로 전달되어 최적의 모델을 초기에 중지하고 검색할 수 있습니다. 알고리즘의 체크포인트는 알고리즘의 훈련 컨테이너에서 로컬로 실행되며 SageMaker AI 체크포인트와 호환되지 않습니다. 알고리즘은 체크포인트를 로컬 경로에 일시적으로 저장하고 훈련 작업이 중지된 후 최상의 모델 아티팩트를 S3의 모델 출력 경로에 저장합니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 3 | 
| clip\_gradient | 이보다 더 큰 절대 하강 값을 고정합니다. 음수로 설정하면 비활성화합니다.<br />**선택 사항**<br />유효한 값: 부동 소수점<br />기본값: 1 | 
| cnn\_activation\_type | 사용할 `cnn` 활성화 유형.<br />**선택 사항**<br />유효한 값: 문자열. `glu`, `relu`, `softrelu`, `sigmoid` 또는 `tanh` 중 하나입니다.<br />기본값: `glu` | 
| cnn\_hidden\_dropout | 컨볼루션 계층 사이 드롭아웃에 대한 드롭아웃 가능성.<br />**선택 사항**<br />유효한 값: 부동 소수점. 범위: [0,1].<br />기본값: 0 | 
| cnn\_kernel\_width\_decoder | `cnn` 디코더에 대한 커널 너비.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 5 | 
| cnn\_kernel\_width\_encoder | `cnn` 인코더에 대한 커널 너비.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 3 | 
| cnn\_num\_hidden | 인코더 및 디코더에 대한 `cnn` 숨겨진 유닛 수.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 512 | 
| decoder\_type | 디코더 유형.<br />**선택 사항**<br />유효한 값: 문자열. `rnn` 또는 `cnn`입니다.<br />기본값: *rnn* | 
| embed\_dropout\_source | 소스 측 임베딩에 대한 드롭아웃 가능성.<br />**선택 사항**<br />유효한 값: 부동 소수점. 범위: [0,1].<br />기본값: 0 | 
| embed\_dropout\_target | 대상 측 임베딩에 대한 드롭아웃 가능성.<br />**선택 사항**<br />유효한 값: 부동 소수점. 범위: [0,1].<br />기본값: 0 | 
| encoder\_type | 인코더 유형. `rnn` 아키텍처는 Bahdanau 등의 어텐션 메커니즘을 기반으로 하며, *cnn* 아키텍처는 Gehring 등의 메커니즘을 기반으로 합니다.<br />**선택 사항**<br />유효한 값: 문자열. `rnn` 또는 `cnn`입니다.<br />기본값: `rnn` | 
| fixed\_rate\_lr\_half\_life | `fixed_rate_`\* 스케줄러에 대한 체크포인트 수의 측면에서 학습률의 반주기.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 10 | 
| learning\_rate | 초기 학습률.<br />**선택 사항**<br />유효한 값: 부동 소수점<br />기본값: 0.0003 | 
| loss\_type | 훈련에 대한 손실 함수.<br />**선택 사항**<br />유효한 값: 문자열. `cross-entropy` <br />기본값: `cross-entropy` | 
| lr\_scheduler\_type | 학습률 스케줄러 유형. `plateau_reduce`는 `validation_accuracy`에 대한 `optimized_metric`이 변화가 없을 때마다 학습률일 감소함을 의미합니다. `inv_t`는 반한시 감소입니다. `learning_rate`/(1\+`decay_rate`\*t)<br />**선택 사항**<br />유효한 값: 문자열. `plateau_reduce`, `fixed_rate_inv_t` 또는 `fixed_rate_inv_sqrt_t`.<br />기본값: `plateau_reduce` | 
| max\_num\_batches | 처리할 업데이트/배치의 최대 수. 무제한은 -1로 설정합니다.<br />**선택 사항**<br />유효한 값: 정수<br />기본값: -1 | 
| max\_num\_epochs | 적합이 중지되기 전에 훈련 데이터를 통해 전달할 epoch의 최대 수. 검증 정확도가 개선되지 않고 이 파라미터가 통과된 경우에도 epoch의 수까지 훈련은 계속됩니다. 통과되지 않은 경우 무시됩니다.<br />**선택 사항**<br />유효한 값: max\_num\_epochs보다 작거나 같은 양의 정수<br />기본값: none | 
| max\_seq\_len\_source | 소스 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본 값: 100 | 
| max\_seq\_len\_target | 대상 시퀀스의 최대 길이. 이 길이보다 더 긴 시퀀스의 경우 이 길이로 잘립니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본 값: 100 | 
| min\_num\_epochs | `early_stopping` 조건을 통해 중지되기 전 훈련에서 실행해야 할 최소 epoch 수.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 0 | 
| momentum | `sgd`에 대해 사용되는 모멘텀 상수. `adam` 또는 `rmsprop`를 사용하는 경우 이 파라미터를 전달하지 마세요.<br />**선택 사항**<br />유효한 값: 부동 소수점<br />기본값: none | 
| num\_embed\_source | 소스 토큰에 대한 임베딩 크기.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 512 | 
| num\_embed\_target | 대상 토큰에 대한 임베딩 크기.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 512 | 
| num\_layers\_decoder | 디코더 *rnn* 또는 *cnn*에 대한 계층 수.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 1 | 
| num\_layers\_encoder | 인코더 `rnn` 또는 `cnn`에 대한 계층 수.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 1 | 
| optimized\_metric | 조기 중지에 최적화된 지표.<br />**선택 사항**<br />유효한 값: 문자열. `perplexity`, `accuracy` 또는 `bleu`.<br />기본값: `perplexity` | 
| optimizer\_type | 옵티마이저 선택.<br />**선택 사항**<br />유효한 값: 문자열. `adam`, `sgd` 또는 `rmsprop`.<br />기본값: `adam` | 
| plateau\_reduce\_lr\_factor | 학습률을 곱하는 팩터(`plateau_reduce`의 경우).<br />**선택 사항**<br />유효한 값: 부동 소수점<br />기본 값: 0.5 | 
| plateau\_reduce\_lr\_threshold | `plateau_reduce` 스케줄러의 경우 `optimized_metric`이 체크포인트에 대해 개선되지 않은 경우 감소 팩터로 학습률을 곱합니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 3 | 
| rnn\_attention\_in\_upper\_layers | 어텐션을  Google NMT paper와 같은 *rnn*의 상위 계층으로 전달합니다. 2개 이상의 계층이 사용되는 경우에만 해당됩니다.<br />**선택 사항**<br />유효한 값: 부울(`true` 또는 `false`)<br />기본값: `true` | 
| rnn\_attention\_num\_hidden | 어텐션 계층에 대한 숨겨진 유닛 수(기본값: `rnn_num_hidden`)<br />**선택 사항**<br />유효한 값: 양수<br />기본값: `rnn_num_hidden` | 
| rnn\_attention\_type | 인코더의 어텐션 모델. Luong et al. 백서에 따르면 `mlp`는 concat를, bilinear는 general을 가리킵니다.<br />**선택 사항**<br />유효한 값: 문자열. `dot`, `fixed`, `mlp` 또는 `bilinear` 중 하나<br />기본값: `mlp` | 
| rnn\_cell\_type | 특정 유형의 `rnn` 아키텍처<br />**선택 사항**<br />유효한 값: 문자열. `lstm` 또는 `gru`입니다.<br />기본값: `lstm` | 
| rnn\_decoder\_state\_init | 인코더로부터 `rnn` 디코더 상태를 초기화하는 방법<br />**선택 사항**<br />유효한 값: 문자열. `last`, `avg` 또는 `zero`.<br />기본값: `last` | 
| rnn\_first\_residual\_layer | 잔류 연결을 보유하는 첫 번째 *rnn* 계층으로, 인코더 또는 디코더의 계층 수가 2개 이상인 경우에만 해당됩니다.<br />**선택 사항**<br />유효한 값: 양수<br />기본값: 2 | 
| rnn\_num\_hidden | 인코더 및 디코더에 대한 *rnn* 숨겨진 유닛 수. 이는 2의 배수여야 합니다. 알고리즘이 기본적으로 양방향 Long Term Short Term Memory(LSTM)를 사용하기 때문입니다.<br />**선택 사항**<br />유효한 값: 양의 짝수.<br />기본값: 1024 | 
| rnn\_residual\_connections | 누적된 *rnn*에 잔류 연결을 추가합니다. 계층의 수는 2개 이상이어야 합니다.<br />**선택 사항**<br />유효한 값: 부울(`true` 또는 `false`)<br />기본값: `false` | 
| rnn\_decoder\_hidden\_dropout | 컨텍스트를 디코더의 *rnn* 숨겨진 상태와 결합한 숨겨진 상태에 대한 드롭아웃 가능성.<br />**선택 사항**<br />유효한 값: 부동 소수점. 범위: [0,1].<br />기본값: 0 | 
| training\_metric | 평가 데이터에 대한 훈련 추적 지표.<br />**선택 사항**<br />유효한 값: 문자열. `perplexity` 또는 `accuracy`입니다.<br />기본값: `perplexity` | 
| weight\_decay | 가중치 감퇴 상수.<br />**선택 사항**<br />유효한 값: 부동 소수점<br />기본값: 0 | 
| weight\_init\_scale | 가중치 초기화 규모(`uniform` 및 `xavier` 초기화의 경우).<br />**선택 사항**<br />유효한 값: 부동 소수점<br />기본값: 2.34 | 
| weight\_init\_type | 가중치 초기화 유형.<br />**선택 사항**<br />유효한 값: 문자열. `uniform` 또는 `xavier`입니다.<br />기본값: `xavier` | 
| xavier\_factor\_type | Xavier 팩터 유형.<br />**선택 사항**<br />유효한 값: 문자열. `in`, `out` 또는 `avg`.<br />기본값: `in` |