

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Como funciona a Automação de Dados do Bedrock
<a name="bda-how-it-works"></a>

A Automação de Dados do Bedrock (BDA) permite que você configure a saída com base nas suas necessidades de processamento para um tipo de dados específico: documentos, imagens, vídeo ou áudio. A BDA pode gerar saída padrão ou saída personalizada. Abaixo são apresentados alguns conceitos importantes para entender como a BDA funciona. Se você for iniciante, comece com as informações sobre a saída padrão.
+ Saída padrão: enviar um arquivo à BDA sem nenhuma outra informação exibe a saída padrão, que consiste em informações normalmente necessárias com base no tipo de dados. Os exemplos incluem transcrições de áudio, resumos de cenas para vídeo e resumos de documentos. Essas saídas podem ser ajustadas ao seu caso de uso usando projetos para modificá-las. Para obter mais informações, consulte [Saída padrão na Automação de Dados do Bedrock](bda-standard-output.md).
+ Saída personalizada: somente para documentos, áudio e imagens. Escolha a saída personalizada para definir exatamente quais informações você deseja extrair usando um esquema. Um esquema consiste em uma lista dos campos esperados que você deseja recuperar de um arquivo. Cada campo representa uma informação que precisa ser extraída para atender ao seu caso de uso específico. Você pode criar seus próprios esquemas ou selecionar esquemas predefinidos no catálogo de esquemas da BDA. Para obter mais informações, consulte [Saída e esquemas personalizados](bda-custom-output-idp.md).
+ Projetos: um projeto é um recurso da BDA que permite modificar e organizar as configurações de saída. Cada projeto pode conter configurações de saída padrão para documentos, imagens, vídeo e áudio, bem como esquemas de saída personalizada para documentos, áudio e imagens. Os projetos são referidos na chamada de API `InvokeDataAutomationAsync` para instruir a BDA sobre como processar os arquivos. Para ter mais informações sobre projetos e os respectivos casos de uso, consulte [Projetos da Automação de Dados do Bedrock](bda-projects.md).

# Projetos da Automação de Dados do Bedrock
<a name="bda-projects"></a>

Uma forma de processar arquivos usando a Automação de Dados do Amazon Bedrock (BDA) é criar um projeto. Um projeto é um agrupamento de configurações de saída padrão personalizadas. Nos projetos, as saídas padrão são necessárias, mas as saídas personalizadas são opcionais. Quando você chama a API `InvokeDataAutomationAsync` com um ARN de projeto, o arquivo é processado automaticamente usando as configurações definidas nesse projeto. A saída é então gerada com base na configuração do projeto.

Um projeto pode receber uma etapa, `LIVE` ou `DEVELOPMENT`. Cada estágio é uma versão única e mutável do projeto. Isso significa que é possível editar ou testar por meio do estágio `DEVELOPMENT` e processar as solicitações dos clientes usando o estágio `LIVE`. Os projetos `DEVELOPMENT` não podem ser acessados no console e devem ser alterados e invocados por meio da API.

Um projeto permite que você use um único recurso para vários tipos de arquivo. Por exemplo, um arquivo de áudio enviado à BDA usando o nome de projeto ABC será processado usando a configuração de saída padrão de áudio do projeto ABC. Um documento enviado à BDA usando o nome de projeto ABC será processado usando a configuração de saída padrão do documento do projeto ABC.

Os projetos oferecem maior flexibilidade ao configurar saídas padrão. Cada saída padrão tem seu próprio conjunto de opções configuráveis, como transcrições ou resumos, e os projetos permitem que você altere essas opções para que atendam melhor ao seu caso de uso. Para definir uma saída personalizada, também é possível configurar um projeto com esquemas para documentos, áudio e imagens. Um projeto configurado para gerar uma saída personalizada também gerará uma saída padrão automaticamente.

As seções a seguir apresentarão alguns exemplos de uso de projeto.

## Usar projetos com saída padrão
<a name="bda-standard-example"></a>

Vamos considerar um caso de uso no qual você só queira extrair resumos de transcrições dos arquivos completos de áudio e vídeo. Por padrão, ao enviar arquivos de áudio e vídeo à BDA, você recebe os resumos da transcrição com as transcrições completas, resumos em nível de cena, texto detectado e outras informações. Nesse caso de uso, você provavelmente não quer gastar tempo nem recursos extras para coletar informações desnecessárias. Para esse caso de uso, você pode configurar um projeto de saída padrão para habilitar somente o recurso de resumo para arquivos de áudio e vídeo.

Para fazer isso usando a API ou o console, crie um projeto e modifique as configurações de saída padrão para áudio e vídeo. Para vídeo, habilite **Resumo de vídeo completo**, mas observe que outras extrações (p. ex., transcrição de áudio completo, resumos de cenas, moderação de conteúdo etc.) estejam desabilitadas. Repita essa configuração para áudio. Depois de configurar o projeto para gerar somente resumos, salve-o e anote o nome do recurso da Amazon (ARN) do projeto. Esse ARN pode ser usado para a operação `InvokeDataAutomationAsync` para processar os arquivos em grande escala. Ao transmitir um arquivo de áudio ou vídeo à BDA e especificar o ARN desse projeto, você receberá uma saída somente dos resumos de cada um dos arquivos. Observe que, neste exemplo, não foi realizada nenhuma configuração para documentos ou imagens. Isso significa que, se você transmitir uma imagem ou documento à BDA usando o ARN desse projeto, receberá a saída padrão para esses arquivos.

## Usar projetos com saída personalizada e saída padrão
<a name="bda-mixed-example"></a>

Para esse caso de uso, vamos supor que você queira gerar resumos de saída padrão para documentos e arquivos de áudio e também extrair campos personalizados dos documentos. Depois de criar um projeto, configure a saída padrão para áudio para habilitar o **Resumo de áudio completo** e garanta que as outras extrações não estejam habilitadas. Repita essa configuração de saída padrão para documentos. Em seguida, você pode configurar a saída personalizada para documentos adicionando um esquema novo ou preexistente do catálogo global da BDA. Os documentos transmitidos à BDA usando o ARN desse projeto gerarão a saída padrão, resumos do documento completo e a saída do esquema para os campos personalizados definidos. Os arquivos de áudio transmitidos à BDA usando o ARN desse projeto gerarão resumos completos.

Ao processar documentos, talvez você queira usar vários esquemas para diferentes tipos de documento que são transmitidos ao projeto. Um projeto pode ter até quarenta esquemas de documentos anexados. A BDA combina automaticamente os documentos com o esquema apropriado que está configurado em seu projeto e gera resultados personalizados usando esse esquema. Além disso, você pode transmitir documentos em massa. Se você transmitir um arquivo que contém vários documentos, poderá optar por dividir o documento ao criar seu projeto. Se você optar por fazer isso, a BDA digitalizará o arquivo e o dividirá em documentos individuais com base no contexto. Esses documentos individuais são então compatibilizados com o esquema correto para processamento.

No momento, as imagens permitem apenas uma definição de esquema por projeto. Os tipos de arquivo de imagem JPG e PNG podem ser tratados como imagens ou documentos digitalizados com base no respectivo conteúdo. Recomendamos que você crie um esquema personalizado para imagens ao processar a saída personalizada para documentos. Desse modo, a BDA fornecerá a saída desejada para arquivos de imagem que contenham texto.

Os arquivos de áudio também permitem apenas a uma definição de esquema por projeto.

# Dividir documentos ao usar projetos
<a name="bda-document-splitting"></a>

Amazon Bedrock A automação de dados (BDA) suporta a divisão de documentos ao usar a API. Amazon Bedrock Quando habilitada, a divisão permite que a BDA utilize um PDF que contenha vários documentos lógicos e o divida em documentos separados para processamento. 

Após a conclusão da divisão, cada segmento do documento dividido será processado de forma independente. Isso significa que um documento de entrada pode conter diferentes tipos de documento. Por exemplo, se você tivesse um PDF contendo três extratos bancários e um W2, a divisão tentaria dividi-lo em quatro documentos separados, os quais seriam processados individualmente.

A divisão automática da BDA permite arquivos com até 3 mil páginas e documentos individuais de até 20 páginas cada.

A opção de dividir documentos está desativada por padrão, mas pode ser ativada ao usar a API. Veja abaixo um exemplo de como criar um projeto com o divisor habilitado. As reticências representam esquemas adicionais fornecidas ao projeto.

```
   response = client.create_data_automation_project(
    projectName=project_name,
    projectDescription="Provide a project description",
    projectStage='LIVE',
    standardOutputConfiguration=output_config,
    customOutputConfiguration={
    'blueprints': [
        {
        'blueprintArn': Blueprint ARN,
        'blueprintStage': 'LIVE'
        },
        ...
        ]
        },
         overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}}
)
```

A parte que permite o processo de divisão é a linha overrideConfiguration. Essa linha configura o divisor e permite que você transmita vários documentos no mesmo arquivo.

Os documentos são divididos pelos respectivos limites semânticos. 

A divisão de documentos ocorre independentemente da aplicação de esquemas, e os documentos divididos serão combinados com o esquema mais próximo. Para ter mais informações sobre como a BDA combina esquemas, consulte [Noções básicas sobre a correspondência de esquema](#bda-blueprint-matching).

## Noções básicas sobre a correspondência de esquema
<a name="bda-blueprint-matching"></a>

A correspondência de esquema baseia-se nos seguintes elementos:
+  Nome do esquema 
+  Descrição do esquema 
+  Campos do esquema 

Ao processar documentos, você pode fornecer vários esquemas para verificar a correspondência. Isso permite processar diferentes tipos de documento com esquemas apropriados. Você pode fornecer vários planos IDs ao invocar a API de automação de dados, e o BDA tentará combinar cada documento com o esquema mais adequado. Isso permite processar tipos de documento mistos em um único lote. Isso é útil quando se espera que os documentos sejam de tipos diferentes (p. ex., extratos bancários, faturas e passaportes).

Se você precisar de esquemas separados porque os formatos dos documentos são muito diferentes ou exigem prompts especializados, criar um esquema por tipo de documento pode ajudar a compatibilizar. Para ter mais informações sobre como criar esquemas úteis, consulte [Práticas recomendadas para criar esquemas](#bda-blueprint-best-practices).

## Práticas recomendadas para criar esquemas
<a name="bda-blueprint-best-practices"></a>

 Siga as práticas recomendadas abaixo para aproveitar ao máximo seus esquemas: 
+ Atribua nomes e descrições explícitos e detalhados aos projetos para ajudar na correspondência. 
+ Forneça vários projetos relevantes para que a BDA selecione a melhor combinação. Crie esquemas separados para formatos de documento significativamente diferentes. 
+ Considere criar esquemas especializados para cada vendor/document fonte, se você precisar de máxima precisão
+ Não inclua dois esquemas do mesmo tipo em um projeto (p. ex., dois esquemas de W2). Como as informações do documento em si e do esquema são usadas para processar documentos, incluir vários esquemas do mesmo tipo em um projeto prejudicará o desempenho. 

Ao utilizar a divisão de documentos e a correspondência entre vários esquemas, a BDA consegue lidar com conjuntos de documentos variados de forma mais flexível, aplicando a lógica de extração mais apropriada a cada documento.

# Desabilitar modalidades e tipos de arquivo de roteamento
<a name="bda-routing-enablement"></a>

Por padrão, os projetos na BDA processam tipos de arquivo compatíveis, classificando-os em diferentes modalidades semânticas. Ao criar ou editar seu projeto, você pode modificar quais modalidades serão processadas e quais tipos de arquivo serão enviados a quais modalidades. Nesta seção, abordaremos a habilitação e desabilitação de diferentes modalidades, o roteamento de arquivos para modalidades específicas e o procedimento de roteamento padrão para a BDA.

## Desabilitar o processamento de modalidades
<a name="bda-modality-enablement"></a>

Ao criar um projeto, talvez você tenha em mente um caso de uso que não inclua o processamento de todos os tipos de arquivo. Por exemplo, talvez você queira processar somente documentos e arquivos de áudio. Se for esse o caso, você não quer que o BDA envie um JPEG para ser processado como uma imagem ou um MP4 para ser processado como um vídeo. A habilitação da modalidade permite que você desative determinadas modalidades em um projeto, selecionando as respostas do processamento da BDA.

**Desabilitar modalidades com o console da BDA**  
Ao usar o console da BDA, a habilitação da modalidade é feita por uma lista de verificação, na qual você pode simplesmente selecionar ou desmarcar cada modalidade ao editar ou criar seu projeto. Essas opções estão localizadas na guia “Configurações avançadas”. Pelo menos uma modalidade deve ser selecionada para um projeto.

![\[Modality enablement options with checkboxes for document, image, video, and audio.\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/images/bda/modalityenableconsole.png)


**Desabilitar modalidades com a API da BDA**  
Ao usar a API da BDA, a habilitação da modalidade é feita pelo elemento de solicitação `overrideConfiguration`, localizado na operação `CreateDataAutomation`. Cada modalidade tem uma seção associada em que você pode declarar a modalidade `ENABLED` ou `DISABLED`. Abaixo é apresentado um exemplo do elemento `overrideConfiguration` somente com as modalidades de documento e áudio habilitadas. O sinalizador `modalityProcessing` assume como padrão `ENABLED`.

```
"overrideConfiguration" : {
    "document": {
        "splitter": {
            "state": ENABLED
        },
        "modalityProcessing": {
            "state": ENABLED
        },
    },
    "image": {
        "modalityProcessing": {
            "state": DISABLED
        }
    },
    "video": {
        "modalityProcessing": {
            "state": DISABLED 
        }
    },
    "audio": {
        "modalityProcessing": {
            "state": ENABLED
        }
    },
    ...
}
```

As reticências no final desta seção indicam a remoção do elemento `modalityRouting`, que discutiremos mais na próxima seção.

## Rotear arquivos para determinados tipos de processamento
<a name="bda-modality-routing"></a>

Certos tipos de arquivo podem ser roteados para diferentes modalidades, com base em vários fatores. Com o roteamento por modalidade, você pode definir determinados tipos de arquivo para rotear manualmente para determinado processamento de modalidade. JPEGs e PNGs pode ser roteado para processamento de documentos ou imagens. MP4s e MOVs pode ser roteado para processamento de vídeo ou áudio.

**Rotear por meio do console da BDA**  
Enquanto estiver na guia “Configurações avançadas” ao criar ou editar um esquema, você pode optar por adicionar um novo roteamento de modalidade manual. Isso permite selecionar um dos quatro tipos de arquivo disponíveis e, em seguida, para qual modalidade de processamento eles serão roteados. Abaixo é apresentada uma captura de tela do console, com um roteamento de modalidade manual que envia arquivos PNG à modalidade de processamento de documentos.

**nota**  
As configurações dos arquivos JPEG se aplicam aos arquivos “.jpeg” e “.jpg”. As MP4 configurações se aplicam aos dois arquivos “.mp4" “.m4v”.

![\[Uma imagem do Console da AWS mostrando dois menus suspensos rotulados como tipo de arquivo e destino da modalidade, selecionados como “PNG” e “Document”.\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/images/bda/manualrouting.png)


**Rotear por meio da API da BDA**  
De modo semelhante à habilitação de modalidade, o roteamento de modalidade é tratado por meio do elemento de solicitação `overrideConfiguration`. Abaixo é apresentado um exemplo da parte `modalityRouting` de `overrideConfiguration`. Este exemplo pressupõe que todas as modalidades estão habilitadas e roteia arquivos JPEG e PNG para a modalidade de documento MP4 e arquivos MOV para a modalidade de áudio.

```
...
   "modalityRouting": {
        "jpeg": DOCUMENT, 
        "png": DOCUMENT,  
        "mp4": AUDIO,     
        "mov": AUDIO      
    }
}
```

As reticências no início do exemplo indicam a remoção do restante de `overrideConfiguration`, o que é discutido mais detalhadamente na seção sobre habilitação de modalidades e a funcionalidade de divisor de documentos.

## Roteamento padrão para a API InvokeDataAutomationAsync
<a name="bda-standard-routing-async"></a>

Se você não configurar seus próprios procedimentos de roteamento, a BDA usará um conjunto padrão de procedimentos com base no tipo de arquivo para determinar para qual modalidade a BDA será roteada. Os procedimentos padrão estão listados na tabela abaixo.

PNGs e JPEGs liste o Classificador Semântico como um comportamento padrão. Isso significa que a BDA usará modelos internos para analisar os indicadores, para ver se um arquivo enviado é ou não uma imagem ou um documento, e executará o roteamento automaticamente.


| Tipos de arquivo | Comportamento do roteamento padrão | 
| --- | --- | 
|  PNG  |  Classificador semântico (imagem ou documento)  | 
|  JPEG  |  Classificador semântico (imagem ou documento)  | 
|  PDF, TIFF  |  Documento  | 
|  MP4, MOV  |  Vídeo  | 
|  ARM, FLAC, M4A, OGG, WEBM MP3, WAV  |  Áudio  | 

## Roteamento padrão para a API InvokeDataAutomation
<a name="bda-standard-routing-sync"></a>

A [InvokeDataAutomation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomation.html)API também analisará os indicadores de se um arquivo PNG ou JPEG enviado é uma imagem ou um documento usando modelos internos e executará o roteamento automaticamente. Os procedimentos padrão estão listados na tabela abaixo.

PNGs e JPEGs liste o Classificador Semântico como um comportamento padrão. Isso significa que a BDA usará modelos internos para analisar os indicadores, para ver se um arquivo enviado é ou não uma imagem ou um documento, e executará o roteamento automaticamente. Os arquivos PDF e TIFF serão encaminhados para a modalidade Documentos para processamento. InvokeDataAutomation Atualmente, a API não oferece suporte a arquivos de áudio e vídeo.


| Tipos de arquivo | Comportamento do roteamento padrão | 
| --- | --- | 
|  PNG  |  Classificador semântico (imagem ou documento)  | 
|  JPEG  |  Classificador semântico (imagem ou documento)  | 
|  PDF, TIFF  |  Documento  | 