

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Sequence-to-Sequence Hiperparâmetros
<a name="seq-2-seq-hyperparameters"></a>

A tabela a seguir lista os hiperparâmetros que você pode definir ao treinar com o algoritmo Amazon SageMaker AI Sequence-to-Sequence (seq2seq).


| Nome do parâmetro | Description | 
| --- | --- | 
| batch\_size | Tamanho de minilote para a descida do gradiente.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 64 | 
| beam\_size | Comprimento do feixe de pesquisa de feixe. Usado durante o treinamento para calcular `bleu` e usado durante a inferência.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 5 | 
| bleu\_sample\_size | Número de instâncias a escolher do conjunto de dados de validação para decodificar e calcular a pontuação `bleu` durante o treinamento. Defina como -1 para usar o conjunto de validação completo (se `bleu` for escolhido como `optimized_metric`).<br />**Opcional**<br />Valores válidos: inteiro<br />Valor padrão: 0 | 
| bucket\_width | Retorna os buckets (de origem e destino) até o (`max_seq_len_source`, `max_seq_len_target`). O lado mais longo dos dados usa etapas de, `bucket_width` enquanto o lado mais curto usa etapas reduzidas pela proporção média de target/source comprimento. Se um dos lados atingir seu comprimento máximo antes do outro, a largura dos buckets adicionais do lado em questão será fixada em `max_len`.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 10 | 
| bucketing\_enabled | Defina como `false` para desabilitar o armazenamento em buckets e desenrolar até o comprimento máximo.<br />**Opcional**<br />Valores válidos: `true` ou `false`<br />Valor padrão: `true` | 
| checkpoint\_frequency\_num\_batches | Ponto de verificação e avaliação a cada x lotes. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq da SageMaker IA para interromper precocemente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação de SageMaker IA. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 1000 | 
| checkpoint\_threshold | O número máximo de pontos de verificação permitido no modelo para que não haja aumento de `optimized_metric` no conjunto de dados de validação antes de o treinamento ser interrompido. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq da SageMaker IA para interromper precocemente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação de SageMaker IA. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 3 | 
| clip\_gradient | Corta os valores de gradiente absoluto maiores que o especificado aqui. Defina como valor negativo para desativar.<br />**Opcional**<br />Valores válidos: flutuante<br />Valor padrão: 1 | 
| cnn\_activation\_type | O tipo de ativação `cnn` a ser usado.<br />**Opcional**<br />Valores válidos: string. Um destes `glu`, `relu`, `softrelu`, `sigmoid` ou `tanh`.<br />Valor padrão: `glu` | 
| cnn\_hidden\_dropout | Probabilidade de dropout entre as camadas convolucionais.<br />**Opcional**<br />Valores válidos: flutuante. Intervalo em [0,1].<br />Valor padrão: 0 | 
| cnn\_kernel\_width\_decoder | Largura do kernel para o decodificador `cnn`.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 5 | 
| cnn\_kernel\_width\_encoder | Largura do kernel para o codificador `cnn`.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 3 | 
| cnn\_num\_hidden | O número de unidades `cnn` ocultas para o codificador e o decodificador.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 512 | 
| decoder\_type | Tipo de decodificador.<br />**Opcional**<br />Valores válidos: string. `rnn` ou `cnn`.<br />Valor padrão: *rnn* | 
| embed\_dropout\_source | Probabilidade de dropout para as incorporações na origem.<br />**Opcional**<br />Valores válidos: flutuante. Intervalo em [0,1].<br />Valor padrão: 0 | 
| embed\_dropout\_target | Probabilidade de dropout para as incorporações no destino.<br />**Opcional**<br />Valores válidos: flutuante. Intervalo em [0,1].<br />Valor padrão: 0 | 
| encoder\_type | Tipo de codificador. A arquitetura `rnn` baseia-se no mecanismo de atenção de Bahdanau e outros cientistas de dados, enquanto a arquitetura *cnn*, no de Gehring e outros cientistas.<br />**Opcional**<br />Valores válidos: string. `rnn` ou `cnn`.<br />Valor padrão: `rnn` | 
| fixed\_rate\_lr\_half\_life | Meia-vida da taxa de aprendizado em termos de número de pontos de verificação para programadores `fixed_rate_`\*.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 10 | 
| learning\_rate | A taxa de aprendizado inicial.<br />**Opcional**<br />Valores válidos: flutuante<br />Valor padrão: 0.0003 | 
| loss\_type | Função de perda para treinamento.<br />**Opcional**<br />Valores válidos: string. `cross-entropy`<br />Valor padrão: `cross-entropy` | 
| lr\_scheduler\_type | Tipo de agendador de taxa de aprendizado. `plateau_reduce` significa reduzir a taxa de aprendizado sempre que `optimized_metric` em `validation_accuracy` atingir um platô. `inv_t` é a degradação de tempo inversa. `learning_rate`/(1\+`decay_rate`\*t)<br />**Opcional**<br />Valores válidos: string. `plateau_reduce`, `fixed_rate_inv_t` ou `fixed_rate_inv_sqrt_t`.<br />Valor padrão: `plateau_reduce` | 
| max\_num\_batches | Número máximo de updates/batches para processar. -1 para infinito.<br />**Opcional**<br />Valores válidos: inteiro<br />Valor padrão: -1 | 
| max\_num\_epochs | O número máximo de epochs a passar pelos dados de treinamento antes que o ajuste seja interrompido. O treinamento continua até atingir esse número de epochs, mesmo se a precisão da validação não estiver melhorando com esse parâmetro passado. Ignorado se não for passado.<br />**Opcional**<br />Valores válidos: inteiro positivo e menor que ou igual a max\_num\_epochs.<br />Valor padrão: nenhum | 
| max\_seq\_len\_source | Comprimento máximo da sequência de origem. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 100 | 
| max\_seq\_len\_target | Comprimento máximo da sequência de destino. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 100 | 
| min\_num\_epochs | Número mínimo de epochs que o treinamento deve executar antes de ser interrompido por condições `early_stopping`.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 0 | 
| momentum | Constante de dinâmica usada para `sgd`. Não passe esse parâmetro se estiver usando `adam` ou `rmsprop`.<br />**Opcional**<br />Valores válidos: flutuante<br />Valor padrão: nenhum | 
| num\_embed\_source | Tamanho da incorporação para tokens de origem.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 512 | 
| num\_embed\_target | Tamanho da incorporação para tokens de destino.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 512 | 
| num\_layers\_decoder | Número de camadas do decodificador *rnn* ou *cnn*.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 1 | 
| num\_layers\_encoder | Número de camadas para o codificador `rnn` ou `cnn`.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 1 | 
| optimized\_metric | Métricas a otimizar com a interrupção precoce.<br />**Opcional**<br />Valores válidos: string. `perplexity`, `accuracy` ou `bleu`.<br />Valor padrão: `perplexity` | 
| optimizer\_type | Otimizador a ser escolhido.<br />**Opcional**<br />Valores válidos: string. `adam`, `sgd` ou `rmsprop`.<br />Valor padrão: `adam` | 
| plateau\_reduce\_lr\_factor | Fator de multiplicação da taxa de aprendizado (para `plateau_reduce`).<br />**Opcional**<br />Valores válidos: flutuante<br />Valor padrão: 0.5 | 
| plateau\_reduce\_lr\_threshold | Para o programador `plateau_reduce`, multiplique a taxa de aprendizado com fator de redução se `optimized_metric` não melhorar para essa quantidade de pontos de verificação.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 3 | 
| rnn\_attention\_in\_upper\_layers | Passa a atenção para as camadas superiores da *rnn*, como no whitepaper sobre NMT do Google. Aplicável somente no uso de mais de uma camada.<br />**Opcional**<br />Valores válidos: booliano (`true` ou `false`)<br />Valor padrão: `true` | 
| rnn\_attention\_num\_hidden | Número de unidades ocultas para camadas de atenção. O padrão é `rnn_num_hidden`.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: `rnn_num_hidden` | 
| rnn\_attention\_type | Modelo de atenção para codificadores. `mlp` refere-se a concat e bilinear refere-se ao geral de Luong et al. paper.<br />**Opcional**<br />Valores válidos: string. Um destes: `dot`, `fixed`, `mlp` ou `bilinear`.<br />Valor padrão: `mlp` | 
| rnn\_cell\_type | Tipo específico de arquitetura `rnn`.<br />**Opcional**<br />Valores válidos: string. `lstm` ou `gru`.<br />Valor padrão: `lstm` | 
| rnn\_decoder\_state\_init | Como os estados do decodificador `rnn` devem ser inicializados nos codificadores.<br />**Opcional**<br />Valores válidos: string. `last`, `avg` ou `zero`.<br />Valor padrão: `last` | 
| rnn\_first\_residual\_layer | A primeira camada *rnn* a ter uma conexão residual; aplicável apenas se o número de camadas no codificador ou decodificador for maior que 1.<br />**Opcional**<br />Valores válidos: inteiro positivo<br />Valor padrão: 2 | 
| rnn\_num\_hidden | O número de unidades *rnn* ocultas para o codificador e o decodificador. O valor deve ser um múltiplo de 2 porque o algoritmo usa LSTM (Bi-directional Long Term Short Term Memory) por padrão.<br />**Opcional**<br />Valores válidos: inteiro positivo par<br />Valor padrão: 1024 | 
| rnn\_residual\_connections | Conexão residual a ser adicionada à *rnn* empilhada. O número de camadas deve ser maior que 1.<br />**Opcional**<br />Valores válidos: booliano (`true` ou `false`)<br />Valor padrão: `false` | 
| rnn\_decoder\_hidden\_dropout | Probabilidade de abandono para estado oculto que combina o contexto com o estado oculto da *rnn* no decodificador.<br />**Opcional**<br />Valores válidos: flutuante. Intervalo em [0,1].<br />Valor padrão: 0 | 
| training\_metric | Métricas a acompanhar no treinamento de dados de validação.<br />**Opcional**<br />Valores válidos: string. `perplexity` ou `accuracy`.<br />Valor padrão: `perplexity` | 
| weight\_decay | Constante da degradação de peso.<br />**Opcional**<br />Valores válidos: flutuante<br />Valor padrão: 0 | 
| weight\_init\_scale | Escala da inicialização de peso (para as inicializações `uniform` e `xavier`). <br />**Opcional**<br />Valores válidos: flutuante<br />Valor padrão: 2.34 | 
| weight\_init\_type | Tipo de inicialização de peso. <br />**Opcional**<br />Valores válidos: string. `uniform` ou `xavier`.<br />Valor padrão: `xavier` | 
| xavier\_factor\_type | Tipo de fator Xavier.<br />**Opcional**<br />Valores válidos: string. `in`, `out` ou `avg`.<br />Valor padrão: `in` | 