

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为 HealthOmics 注释存储创建导入任务
<a name="annotation-store-import-jobs"></a>

**重要**  
AWS HealthOmics 变体存储和注释存储不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [AWS HealthOmics 变体存储和注释存储库可用性变更](variant-store-availability-change.md)。

**Topics**
+ [使用 API 创建注释导入任务](#create-annotation-import-api)
+ [TSV 和 VCF 格式的其他参数](#annotation-import-tsv-vcf)
+ [创建 TSV 格式的注释存储库](#annotation-import-tsv-vcftsv-annotation-store-examples-tsv)
+ [启动 VCF 格式化的导入作业](#vcf-annotation-store-examples)

## 使用 API 创建注释导入任务
<a name="create-annotation-import-api"></a>

以下示例说明如何使用启动注释导入作业。 AWS CLI 

```
aws omics start-annotation-import-job \
           --destination-name myannostore \
           --version-name myannostore \
           --role-arn arn:aws:iam::123456789012:role/roleName \
           --items source=s3://my-omics-bucket/sample.vcf.gz
           --annotation-fields '{"VEP": "CSQ"}'
```

如果包含注释**字段，则在 2023 年 5 月 15 日之前创建的注释**存储库会返回一条错误消息。它们不会返回与注释存储导入任务相关的任何 API 操作的输出。

然后，您可以使用 **get-annotation-import-job**API 操作和`job ID`参数来了解有关注释导入任务的更多详细信息。

```
aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8         
```

您会收到以下响应，包括注释字段。

```
{
          "creationTime": "2023-04-11T19:09:25.049767+00:00",
          "destinationName": "parsingannotationstore",
          "versionName": "parsingannotationstore",
          "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
          "items": [
              {
                  "jobStatus": "COMPLETED",
                  "source": "s3://my-omics-bucket/sample.vep.vcf"
              }
          ],
          "roleArn": "arn:aws:iam::55555555555:role/roleName",
          "runLeftNormalization": false,
          "status": "COMPLETED",
          "updateTime": "2023-04-11T19:13:09.110130+00:00",
          "annotationFields" : {"VEP": "CSQ"}
       }
```

要查看所有注释存储导入任务，请使用**list-annotation-import-jobs**。

```
aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8          
```

响应包括您的注释存储导入任务的详细信息和状态。

```
{
          "annotationImportJobs": [
          {
              "creationTime": "2023-04-11T19:09:25.049767+00:00",
              "destinationName": "parsingannotationstore",
              "versionName": "parsingannotationstore",
              "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
              "roleArn": "arn:aws:iam::55555555555:role/roleName",
              "runLeftNormalization": false,
              "status": "COMPLETED",
              "updateTime": "2023-04-11T19:13:09.110130+00:00",
              "annotationFields" : {"VEP": "CSQ"}
          }
          ]
      }
```

## TSV 和 VCF 格式的其他参数
<a name="annotation-import-tsv-vcf"></a>

对于 TSV 和 VCF 格式，还有其他参数可以告知 API 如何解析您的输入。

**重要**  
 使用查询引擎导出的 CSV 注释数据会直接返回数据集导入的信息。如果导入的数据包含公式或命令，则该文件可能会被注入 CSV。因此，使用查询引擎导出的文件可能会提示安全警告。为避免恶意活动，请在读取导出文件时关闭链接和宏。

TSV 解析器还执行基本的生物信息学操作，例如基因组学坐标的左归一化和标准化，如下表所示。


| 格式类型 | 说明 | 
| --- | --- | 
| 通用 | 通用文本文件。没有基因组信息。 | 
| CHR\$1POS | 起始位置-1，添加结束位置，与POS。 | 
| CHR\$1POS\$1REF\$1ALT | 包含 contig、1-base 位置、ref 和 alt 等位基因信息。 | 
| CHR\$1START\$1END\$1REF\$1ALT\$1ONE\$1BASE | 包含连续、开始、结束、参考和替代等位基因信息。坐标以 1 为基准。 | 
| CHR\$1START\$1END\$1ZERO\$1BASE | 包含连续位置、起始位置和结束位置。坐标以 0 为基准。 | 
| CHR\$1START\$1END\$1ONE\$1BASE | 包含连续位置、起始位置和结束位置。坐标以 1 为基准。 | 
| CHR\$1START\$1END\$1REF\$1ALT\$1ZERO\$1BASE | 包含连续、开始、结束、参考和替代等位基因信息。坐标以 0 为基准。 | 

TSV 导入注解存储请求类似于以下示例。

```
aws omics start-annotation-import-job \
--destination-name tsv_anno_example \
--role-arn arn:aws:iam::555555555555:role/demoRole \
--items source=s3://demodata/genomic_data.bed.gz \
--format-options '{ "tsvOptions": {
        "readOptions": {
            "header": false,
            "sep": "\t"
        }
    }
}'
```

## 创建 TSV 格式的注释存储库
<a name="annotation-import-tsv-vcftsv-annotation-store-examples-tsv"></a>

以下示例使用包含标题、行和注释的选项卡限制文件创建注释存储。坐标是`CHR_START_END_ONE_BASED`，它包含 [OMIM 的人类 HG19 基因图谱概要中的基因图谱](https://www.omim.org/downloads)。

```
aws omics create-annotation-store --name mimgenemap \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='{
    annotationType=CHR_START_END_ONE_BASE,  
    formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end},
    schema=[
      {chromosome=STRING}, 
      {genomic_position_start=LONG}, 
      {genomic_position_end=LONG}, 
      {cyto_location=STRING}, 
      {computed_cyto_location=STRING}, 
      {mim_number=STRING}, 
      {gene_symbols=STRING}, 
      {gene_name=STRING}, 
      {approved_gene_name=STRING}, 
      {entrez_gene_id=STRING}, 
      {ensembl_gene_id=STRING}, 
      {comments=STRING}, 
      {phenotypes=STRING}, 
      {mouse_gene_symbol=STRING}]}'
```

您可以导入带或不带标题的文件。要在 CLI 请求中指明这一点`header=false`，请使用，如以下导入任务示例所示。

```
aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \
   --destination-name output-bucket \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
```

以下示例为 bed 文件创建注释存储。bed 文件是一个简单的制表符分隔文件。在此示例中，列为染色体、起点、结束和区域名称。坐标从零开始，并且数据没有标题。

```
aws omics create-annotation-store \
   --name cexbed --store-format TSV \
   --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
   --store-options=tsvStoreOptions='{
   annotationType=CHR_START_END_ZERO_BASE,  
   formatToHeader={CHR=chromosome, START=start, END=end}, 
   schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'
```

然后，您可以使用以下 CLI 命令将 bed 文件导入注释存储区。

```
aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ 
   --destination-name cexbed \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
```

以下示例为以制表符分隔的文件创建注释存储，该文件包含 VCF 文件的前几列，后面是带有注释信息的列。它包含基因组位置，以及有关染色体、起点、参考和备用等位基因的信息，并包含标题。

```
aws omics create-annotation-store --name gnomadchrx --store-format TSV \
--reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
--store-options=tsvStoreOptions='{
    annotationType=CHR_POS_REF_ALT, 
    formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, 
    schema=[
        {chromosome=STRING}, 
        {start=LONG}, 
        {ref=STRING}, 
        {alt=STRING}, 
        {filters=STRING}, 
        {ac_hom=STRING}, 
        {ac_het=STRING},
        {af_hom=STRING}, 
        {af_het=STRING}, 
        {an=STRING}, 
        {max_observed_heteroplasmy=STRING}]}'
```

然后，您可以使用以下 CLI 命令将文件导入注释存储区。

```
aws omics start-annotation-import-job \
  --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \
   --destination-name gnomadchrx \
   --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'
```

以下示例显示了客户如何为 mim2gene 文件创建注释存储库。mim2gene 文件提供了 OMIM 中的基因与其他基因标识符之间的链接。它是用制表符分隔的，包含注释。

```
aws omics create-annotation-store \
  --name mim2gene \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='
    {annotationType=GENERIC,      
    formatToHeader={}, 
    schema=[
        {mim_gene_id=STRING}, 
        {mim_type=STRING}, 
        {entrez_id=STRING}, 
        {hgnc=STRING}, 
        {ensembl=STRING}]}'
```

然后，您可以按如下方式将数据导入您的商店。

```
aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \
   --destination-name mim2gene \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
```

## 启动 VCF 格式化的导入作业
<a name="vcf-annotation-store-examples"></a>

对于 VCF 文件，还有另外两个输入`ignoreQualField`和`ignoreFilterField`，它们会忽略或包含这些参数，如图所示。

```
aws omics start-annotation-import-job --destination-name annotation_example\
  --role-arn arn:aws:iam::555555555555:role/demoRole \
  --items source=s3://demodata/example.garvan.vcf \
  --format-options '{ "vcfOptions": {
    "ignoreQualField": false,
    "ignoreFilterField": false         
    }
   }'
```

您也可以取消注释存储库的导入，如图所示。如果取消成功，则您不会收到此 AWS CLI 呼叫的回复。但是，如果找不到导入任务 ID 或导入任务已完成，则会收到一条错误消息。

```
aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
```

**注意**  
您的元数据导入**get-annotation-import-job**、**get-variant-import-job**list-annotation-import-jobs****、和**list-variant-import-jobs**的任务历史记录将在两年后自动删除。导入的变体和注释数据不会自动删除，而是保留在您的数据存储中。