

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 為 HealthOmics 註釋存放區建立匯入任務
<a name="annotation-store-import-jobs"></a>

**重要**  
AWS HealthOmics 變體存放區和註釋存放區不再開放給新客戶。現有客戶可以繼續正常使用該服務。如需詳細資訊，請參閱[AWS HealthOmics 變體存放區和註釋存放區可用性變更](variant-store-availability-change.md)。

**Topics**
+ [使用 API 建立註釋匯入任務](#create-annotation-import-api)
+ [TSV 和 VCF 格式的其他參數](#annotation-import-tsv-vcf)
+ [建立 TSV 格式的註釋存放區](#annotation-import-tsv-vcftsv-annotation-store-examples-tsv)
+ [啟動 VCF 格式的匯入任務](#vcf-annotation-store-examples)

## 使用 API 建立註釋匯入任務
<a name="create-annotation-import-api"></a>

下列範例示範如何使用 AWS CLI 啟動註釋匯入任務。

```
aws omics start-annotation-import-job \
           --destination-name myannostore \
           --version-name myannostore \
           --role-arn arn:aws:iam::123456789012:role/roleName \
           --items source=s3://my-omics-bucket/sample.vcf.gz
           --annotation-fields '{"VEP": "CSQ"}'
```

如果包含註釋**欄位，則在 2023 年 5 月 15 日之前建立的註釋**存放區會傳回錯誤訊息。它們不會針對涉及註釋存放區匯入任務的任何 API 操作傳回輸出。

然後，您可以使用 **get-annotation-import-job** API 操作和 `job ID` 參數來進一步了解註釋匯入任務的詳細資訊。

```
aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8         
```

您會收到下列回應，包括註釋欄位。

```
{
          "creationTime": "2023-04-11T19:09:25.049767+00:00",
          "destinationName": "parsingannotationstore",
          "versionName": "parsingannotationstore",
          "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
          "items": [
              {
                  "jobStatus": "COMPLETED",
                  "source": "s3://my-omics-bucket/sample.vep.vcf"
              }
          ],
          "roleArn": "arn:aws:iam::55555555555:role/roleName",
          "runLeftNormalization": false,
          "status": "COMPLETED",
          "updateTime": "2023-04-11T19:13:09.110130+00:00",
          "annotationFields" : {"VEP": "CSQ"}
       }
```

若要檢視所有註釋存放區匯入任務，請使用 **list-annotation-import-jobs **。

```
aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8          
```

回應包含註釋存放區匯入任務的詳細資訊和狀態。

```
{
          "annotationImportJobs": [
          {
              "creationTime": "2023-04-11T19:09:25.049767+00:00",
              "destinationName": "parsingannotationstore",
              "versionName": "parsingannotationstore",
              "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
              "roleArn": "arn:aws:iam::55555555555:role/roleName",
              "runLeftNormalization": false,
              "status": "COMPLETED",
              "updateTime": "2023-04-11T19:13:09.110130+00:00",
              "annotationFields" : {"VEP": "CSQ"}
          }
          ]
      }
```

## TSV 和 VCF 格式的其他參數
<a name="annotation-import-tsv-vcf"></a>

對於 TSV 和 VCF 格式，還有其他參數可通知 API 如何剖析您的輸入。

**重要**  
 使用查詢引擎匯出的 CSV 註釋資料會直接從資料集匯入傳回資訊。如果匯入的資料包含公式或命令，則檔案可能需要 CSV 插入。因此，使用查詢引擎匯出的檔案可能會提示安全性警告。為了避免惡意活動，請在讀取匯出檔案時關閉連結和巨集。

TSV 剖析器也會執行基本的生物資訊學操作，例如基因體座標的左側標準化和標準化，如下表所列。


| 格式類型 | Description | 
| --- | --- | 
| 一般 | 一般文字檔案。沒有基因體資訊。 | 
| CHR\$1POS | 開始位置 - 1，新增結束位置，這與 相同POS。 | 
| CHR\$1POS\$1REF\$1ALT | 包含 contig、1 基位置、ref 和 alt 等位基因資訊。 | 
| CHR\$1START\$1END\$1REF\$1ALT\$1ONE\$1BASE | 包含 contig、start、end、ref 和 alt 等位基因資訊。座標以 1 為基礎。 | 
| CHR\$1START\$1END\$1ZERO\$1BASE | 包含連續、開始和結束位置。座標以 0 為基礎。 | 
| CHR\$1START\$1END\$1ONE\$1BASE | 包含連續、開始和結束位置。座標以 1 為基礎。 | 
| CHR\$1START\$1END\$1REF\$1ALT\$1ZERO\$1BASE | 包含 contig、start、end、ref 和 alt 等位基因資訊。座標以 0 為基礎。 | 

TSV 匯入註釋存放區請求如下所示。

```
aws omics start-annotation-import-job \
--destination-name tsv_anno_example \
--role-arn arn:aws:iam::555555555555:role/demoRole \
--items source=s3://demodata/genomic_data.bed.gz \
--format-options '{ "tsvOptions": {
        "readOptions": {
            "header": false,
            "sep": "\t"
        }
    }
}'
```

## 建立 TSV 格式的註釋存放區
<a name="annotation-import-tsv-vcftsv-annotation-store-examples-tsv"></a>

下列範例使用包含標頭、資料列和註解的索引標籤限制檔案來建立註釋存放區。座標為 `CHR_START_END_ONE_BASED`，其中包含來自 OMIM 人類基因貼圖摘要的 HG19 基因貼圖。 [https://www.omim.org/downloads](https://www.omim.org/downloads)

```
aws omics create-annotation-store --name mimgenemap \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='{
    annotationType=CHR_START_END_ONE_BASE,  
    formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end},
    schema=[
      {chromosome=STRING}, 
      {genomic_position_start=LONG}, 
      {genomic_position_end=LONG}, 
      {cyto_location=STRING}, 
      {computed_cyto_location=STRING}, 
      {mim_number=STRING}, 
      {gene_symbols=STRING}, 
      {gene_name=STRING}, 
      {approved_gene_name=STRING}, 
      {entrez_gene_id=STRING}, 
      {ensembl_gene_id=STRING}, 
      {comments=STRING}, 
      {phenotypes=STRING}, 
      {mouse_gene_symbol=STRING}]}'
```

您可以使用或不使用標頭匯入檔案。若要在 CLI 請求中指出這一點，請使用 `header=false`，如下列匯入任務範例所示。

```
aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \
   --destination-name output-bucket \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
```

下列範例會為床鋪檔案建立註釋存放區。床位檔案是簡單的標籤分隔檔案。在這個範例中，資料欄是「 」、「開始」、「結束」和「區域名稱」。座標為零，且資料沒有標頭。

```
aws omics create-annotation-store \
   --name cexbed --store-format TSV \
   --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
   --store-options=tsvStoreOptions='{
   annotationType=CHR_START_END_ZERO_BASE,  
   formatToHeader={CHR=chromosome, START=start, END=end}, 
   schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'
```

然後，您可以使用下列 CLI 命令，將床位檔案匯入註釋存放區。

```
aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ 
   --destination-name cexbed \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
```

下列範例會為以標籤分隔的檔案建立註釋存放區，其中包含 VCF 檔案的前幾個資料欄，後面接著包含註釋資訊的資料欄。它包含的基因組位置具有有關 、啟動、參考和替代等位基因的資訊，並且包含 標頭。

```
aws omics create-annotation-store --name gnomadchrx --store-format TSV \
--reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
--store-options=tsvStoreOptions='{
    annotationType=CHR_POS_REF_ALT, 
    formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, 
    schema=[
        {chromosome=STRING}, 
        {start=LONG}, 
        {ref=STRING}, 
        {alt=STRING}, 
        {filters=STRING}, 
        {ac_hom=STRING}, 
        {ac_het=STRING},
        {af_hom=STRING}, 
        {af_het=STRING}, 
        {an=STRING}, 
        {max_observed_heteroplasmy=STRING}]}'
```

然後，您可以使用下列 CLI 命令將檔案匯入註釋存放區。

```
aws omics start-annotation-import-job \
  --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \
   --destination-name gnomadchrx \
   --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'
```

下列範例顯示客戶如何為 mim2gene 檔案建立註釋存放區。mim2gene 檔案提供 OMIM 中的基因與另一個基因識別符之間的連結。它以標籤分隔，並包含註解。

```
aws omics create-annotation-store \
  --name mim2gene \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='
    {annotationType=GENERIC,      
    formatToHeader={}, 
    schema=[
        {mim_gene_id=STRING}, 
        {mim_type=STRING}, 
        {entrez_id=STRING}, 
        {hgnc=STRING}, 
        {ensembl=STRING}]}'
```

然後，您可以將資料匯入您的 存放區，如下所示。

```
aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \
   --destination-name mim2gene \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
```

## 啟動 VCF 格式的匯入任務
<a name="vcf-annotation-store-examples"></a>

對於 VCF 檔案，有兩個額外的輸入 `ignoreQualField`和 `ignoreFilterField`，會忽略或包含這些參數，如下所示。

```
aws omics start-annotation-import-job --destination-name annotation_example\
  --role-arn arn:aws:iam::555555555555:role/demoRole \
  --items source=s3://demodata/example.garvan.vcf \
  --format-options '{ "vcfOptions": {
    "ignoreQualField": false,
    "ignoreFilterField": false         
    }
   }'
```

您也可以取消註釋存放區匯入，如下所示。如果取消成功，您將不會收到此 AWS CLI 呼叫的回應。不過，如果找不到匯入任務 ID 或匯入任務已完成，您會收到錯誤訊息。

```
aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
```

**注意**  
您的 **get-annotation-import-job**、**get-variant-import-job**、**list-annotation-import-jobs** 和 **list-variant-import-jobs** 中繼資料匯入任務歷史記錄會在兩年後自動刪除。匯入的變體和註釋資料不會自動刪除，並保留在您的資料存放區中。