

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Arquivos de anotação em PDF
<a name="cer-annotation-manifest"></a>

Para anotações em PDF, você usa o SageMaker AI Ground Truth para criar um conjunto de dados rotulado em um arquivo de manifesto aumentado. O Ground Truth é um serviço de rotulagem de dados que ajuda você (ou uma força de trabalho que você emprega) a criar conjuntos de dados de treinamento para modelos de machine learning. O Amazon Comprehend aceita arquivos de manifesto aumentados como dados de treinamento para modelos personalizados. Você pode fornecer esses arquivos ao criar um reconhecedor de entidades personalizado usando o console [CreateEntityRecognizer](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateEntityRecognizer.html)do Amazon Comprehend ou a ação da API. 

Você pode usar o tipo de tarefa integrada Ground Truth, o Reconhecimento de entidade nomeada, para criar um trabalho de rotulagem para que os trabalhadores identifiquem entidades no texto. Para saber mais, consulte [Reconhecimento de entidades nomeadas](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-named-entity-recg.html#sms-creating-ner-console) no *Amazon SageMaker AI Developer Guide*. Para saber mais sobre o Amazon SageMaker Ground Truth, consulte [Usar o Amazon SageMaker AI Ground Truth para rotular dados](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html).

**nota**  
Usando o Ground Truth, você pode definir rótulos sobrepostos (texto que você associa a mais de um rótulo). No entanto, o reconhecimento de entidades do Amazon Comprehend não suporta rótulos sobrepostos.

Os arquivos de manifesto aumentado estão no formato de linhas JSON. Nesses arquivos, cada linha é um objeto JSON completo que contém um documento de treinamento e seus rótulos associados. O exemplo a seguir é um arquivo de manifesto aumentado que treina um reconhecedor de entidades para detectar as profissões de indivíduos mencionados no texto:

```
{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}}
{"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}}
{"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}
```

Cada linha nesse arquivo de linhas JSON é um objeto JSON completo, no qual os atributos incluem o texto do documento, as anotações e outros metadados do Ground Truth. O exemplo a seguir é um único objeto JSON no arquivo de manifesto aumentado, mas está formatado para facilitar a leitura: 

```
{
  "source": "Diego Ramirez is an engineer in the high tech industry.",
  "NamedEntityRecognitionDemo": {
    "annotations": {
      "entities": [
        {
          "endOffset": 13,
          "startOffset": 0,
          "label": "ENGINEER"
        }
      ],
      "labels": [
        {
          "label": "ENGINEER"
        }
      ]
    }
  },
  "NamedEntityRecognitionDemo-metadata": {
    "entities": [
      {
        "confidence": 0.92
      }
    ],
    "job-name": "labeling-job/namedentityrecognitiondemo",
    "type": "groundtruth/text-span",
    "creation-date": "2020-05-14T21:45:27.175903",
    "human-annotated": "yes"
  }
}
```

Neste exemplo, o atributo `source` fornece o texto do documento de treinamento, e o atributo `NamedEntityRecognitionDemo` fornece as anotações para as entidades no texto. O nome do atributo `NamedEntityRecognitionDemo` é arbitrário e você fornece um nome de sua escolha ao definir o trabalho de rotulagem no Ground Truth.

Neste exemplo, o atributo `NamedEntityRecognitionDemo` é o *nome de atributo de rótulo*, que é o atributo que fornece os rótulos que um funcionário do Ground Truth atribui aos dados de treinamento. Ao fornecer seus dados de treinamento ao Amazon Comprehend, você deve especificar um ou mais nomes de atributos de rótulo. O número de nomes de atributos que você especifica dependerá de o arquivo de manifesto aumentado ser a saída de um único trabalho de rotulagem ou de um trabalho de rotulagem em cadeia.

Se o arquivo for a saída de um único trabalho de rotulagem, especifique o nome de atributo de rótulo único que foi usado quando o trabalho foi criado no Ground Truth. 

Se seu arquivo for a saída de um trabalho de rotulagem em cadeia, especifique o nome de atributo de rótulo etiqueta para um ou mais trabalhos na cadeia. Cada nome de atributo de rótulo fornece as anotações de uma tarefa individual. Você pode especificar até 5 desses atributos para arquivos de manifesto aumentado que são produzidos por trabalhos de rotulagem em cadeia. 

Em um arquivo de manifesto aumentado, o nome de atributo de rótulo geralmente segue a chave `source`. Se o arquivo for a saída de um trabalho em cadeia, haverá vários nomes de atributos de rótulo. Ao fornecer seus dados de treinamento ao Amazon Comprehend, forneça somente os atributos que contenham anotações relevantes para o seu modelo. Não especifique os atributos que terminem com “-metadata”.

Para obter mais informações sobre trabalhos de etiquetagem em cadeia e para obter exemplos dos resultados que eles produzem, consulte [Encadeamento de trabalhos de etiquetagem](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) no Amazon SageMaker AI Developer Guide.