翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
HealthOmics 実行入力
ワークフロー定義でワークフローまたはワークフロータスクの入力ファイルが指定されている場合、HealthOmics はファイルをワークフロー実行専用のスクラッチボリュームにステージングします。これらの入力ファイルは読み取り専用であるため、タスクはワークフロー内の他のタスクへの潜在的な入力を変更できません。ディレクトリのインポートでは、ディレクトリも読み取り専用です。
多くのゲノミクスアプリケーションは、インデックスファイルがシーケンスファイル (bamファイルのコンパニオンbaiファイルなど) と同じ場所にあることを前提としています。インデックスファイルを含めるには、ワークフロー定義でそれらをタスク入力として指定します。
実行パラメータサイズの管理
実行を開始するときは、実行パラメータ JSON オブジェクトまたはファイルで実行入力を指定します。ワークフローには、最大 50 KB の実行パラメータを指定できます。次の手法を使用して、このサイズ制約内にとどまることができます。
-
ディレクトリのインポートを使用する
多数の入力ファイルを指定するには、ファイルの場所ごとにパラメータを指定するのではなく、すべてのファイルを含む Amazon S3 の場所として 1 つのパラメータを指定します。詳細については、次のトピック (Amazon S3 入力パラメータ形式) を参照してください。
-
サンプルシートを使用する
サンプルシートは、fastq.gz アドレスの 1 つの列 (またはペア読み取りの 2 つの列) と、サンプル名などのメタデータの追加の列を含む CSV または TSV ファイルです。サンプルシートは、各入力ファイルのパラメータではなく、実行入力パラメータとして指定します。
ワークフローは、サンプルシートがワークフロー内のデータ構造にどのようにマッピングされるかを定義します。WDL と CWL でサンプルシートのコードを記述することはできますが、NextFlow ではより一般的です。例については、nf-core GitHub サイトのサンプルシート
を参照してください。
Amazon S3 入力パラメータ形式
Amazon S3 の場所を受け入れる入力パラメータの場合、 パラメータは 1 つのファイルの場所またはファイルのディレクトリ全体を指定できます。ディレクトリの使用には、次の利点があります。
-
利便性 – ディレクトリ名を パラメータとして指定します。各ファイル名は一覧表示しません。
-
コンパクト性 – 入力パラメータの最大ファイルサイズは 50 KB です。入力ファイル名の長いリストを指定すると、この最大値を超える可能性があります。
Amazon S3 はフラットオブジェクトストレージシステムであるため、ディレクトリをサポートしていません。各ファイルに同じオブジェクトキープレフィックスを付けることで、ファイルを「ディレクトリ」にグループ化します。Amazon S3 オブジェクトキープレフィックスの詳細については、「プレフィックスを使用したオブジェクトの整理」を参照してください。
HealthOmics は、入力パラメータ値を次のように解釈します。
-
Amazon S3 の場所がスラッシュで終わらない場合、または glob パターンが使用されていない場合、HealthOmics はパラメータ値が 1 つの Amazon S3 オブジェクトのキーであると想定します。
たとえば、file1.fastq を入力する
s3://myfiles/runs/inputs/a/file1.fastqように を指定します。 -
Amazon S3 の場所がスラッシュで終わる場合、HealthOmics はパラメータ値を Amazon S3 プレフィックスとして解釈します。そのプレフィックスを持つすべての Amazon S3 オブジェクトをロードします。
たとえば、キーがこのプレフィックスで始まるすべてのオブジェクトをロード
s3://myfiles/runs/inputs/a/するように を指定できます。 -
Nextflow の場合、HealthOmics は入力パラメータで Amazon S3 URIs の glob パターンを正式にサポートしています。
たとえば、キーがこのプレフィックスで始まるすべての .gz ファイルを入力する
“s3://myfiles/runs/inputs/a/*.gz”ように を指定できます。
Nextflow Amazon S3 入力での Glob パターンの処理
| Glob パターン | HealthOmics 一致動作 | 注意事項 |
|---|---|---|
| s3://bucket/directory/*.txt | プレフィックス s3://bucket/directory/ の任意の深さのすべての.txtオブジェクトに一致します。たとえば、 は s3://bucket/directory/abc.txt または s3://bucket/directory/subDir/123.txt などに一致します。 |
|
| s3://bucket/directory/**/*.txt | プレフィックス s3://bucket/directory/ の任意の深さのすべての.txtオブジェクトに一致します。たとえば、 は s3://bucket/directory/abc.txt または s3://bucket/directory/subDir/123.txt などに一致します。 |
S3 では、 **は と同等です*。 |
| s3://bucket/directory/{a,b}.txt | s3://bucket/directory/a.txt、s3://bucket/directory/b.txt | |
| s3://bucket/directory/?.txt | ファイル名が 1 文字の後に が続くプレフィックスルートのオブジェクトに一致します.txt。たとえば、s3://bucket/directory/a.txt は一致しますが、s3://bucket/directory/someDir/a.txt または s3://bucket/directory/someDir/subDir/a.txt は一致しません。 |
|
| s3://bucket/directory/[0-9].txt | s3://bucket/directory/0.txt、s3://bucket/directory/1.txt、...、s3://bucket/directory/9.txt | |
| s3://bucket/directory/[0-9].txt | s3://bucket/directory/1.txt、s3://bucket/directory/2.txt、s3://bucket/directory/3.txt | |
| s3://bucket/directory/[0-9].txt | s3://bucket/directory/b.txt、s3://bucket/directory/c.txt、...、s3://bucket/directory/Y.txt |
Amazon S3 入力でのダブルスラッシュの言語固有の処理
HealthOmics は、Amazon S3 URIs でダブルスラッシュを処理するときに各ワークフローエンジンのネイティブエンジン動作を保持するため、HealthOmics に移行するときにワークフローを変更する必要はありません。以下のセクションでは、各エンジンがさまざまなシナリオを処理する方法について説明します。
WDL
入力パラメータに URI の中央または末尾にダブルスラッシュが含まれている場合、WDL エンジンはダブルスラッシュを保持します。
| 入力パラメータ | 予想される場所 |
|---|---|
| s3://myfiles/runs/inputs//file1.fastq | s3://myfiles/runs/inputs//file1.fastq |
| s3://myfiles/runs/inputs// | s3://myfiles/runs/inputs// |
ネクストフロー
入力パラメータに URI の中間にダブルスラッシュが含まれている場合、Nextflow エンジンはダブルスラッシュを保持します。URI の末尾に二重スラッシュがある場合、Nextflow エンジンはそれを 1 つのスラッシュに解決します。
| 入力パラメータ | 予想される場所 |
|---|---|
| s3://myfiles/runs/inputs//file1.fastq | s3://myfiles/runs/inputs//file1.fastq |
| s3://myfiles//runs/inputs//*.gz | s3://myfiles//runs/inputs//*.gz |
| s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs/ |
CWL
入力パラメータに URI の中央または末尾にダブルスラッシュが含まれている場合、CWL エンジンはダブルスラッシュを保持します。
| 入力パラメータ | 予想される場所 |
|---|---|
| s3://myfiles//runs/inputs//file1.fastq | s3://myfiles//runs/inputs//file1.fastq |
| s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs// |
Amazon S3 入力アーカイブの状態
HealthOmics は、Amazon S3 S3 オブジェクトを取得できます。次のアーカイブされたストレージ状態にあるオブジェクトの場合、HealthOmics restore で使用できるようにするオブジェクト。
-
Amazon S3 Glacier の Flexible Retrieval または Deep Archive ストレージクラス。
-
インテリジェント階層化のアーカイブされたアクセス階層またはディープアーカイブアクセス階層。
オブジェクトの復元の詳細については、Amazon S3ユーザーガイド」の「アーカイブされたオブジェクトの復元」を参照してください。