

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Amazon Embeddings Multimodal Titan G1 model
<a name="titan-multiemb-models"></a>

Amazon Titan Foundation Model telah dilatih sebelumnya pada kumpulan data besar, menjadikannya model tujuan umum yang kuat. Gunakan apa adanya, atau sesuaikan dengan menyempurnakan model dengan data Anda sendiri untuk tugas tertentu tanpa membuat anotasi volume data yang besar.

Ada tiga jenis model Titan: embeddings, pembuatan teks, dan pembuatan gambar.

Ada dua Titan Multimodal Embeddings G1 model. Model Titan Multimodal Embeddings G1 menerjemahkan input teks (kata, frasa atau mungkin satuan teks yang besar) ke dalam representasi numerik (dikenal sebagai embeddings) yang berisi makna semantik teks. Meskipun model ini tidak akan menghasilkan teks, ini berguna untuk aplikasi seperti personalisasi dan pencarian. Dengan membandingkan embeddings, model akan menghasilkan respons yang lebih relevan dan kontekstual daripada pencocokan kata. Model Multimodal Embeddings G1 digunakan untuk kasus penggunaan seperti mencari gambar berdasarkan teks, dengan gambar untuk kesamaan, atau dengan kombinasi teks dan gambar. Ini menerjemahkan gambar input atau teks ke dalam embedding yang berisi makna semantik dari gambar dan teks dalam ruang semantik yang sama.

Model Titan Text adalah LLM generatif untuk tugas-tugas seperti peringkasan, pembuatan teks, klasifikasi, qnA terbuka, dan ekstraksi informasi. Mereka juga dilatih pada banyak bahasa pemrograman yang berbeda, serta format teks kaya seperti tabel, JSON, dan file.csv, di antara format lainnya.

**Amazon Titan Multimodal Embeddings model G1**
+ **ID Model** — `amazon.titan-embed-image-v1`
+ **Token teks masukan maksimum** - 256
+ **Bahasa** — Bahasa Inggris 
+ **Ukuran gambar masukan maks** - 25 MB
+ **Resolusi gambar masukan maksimal** - 2048 x 2048 piksel
+ **Ukuran vektor keluaran** - 1,024 (default), 384, 256
+ **Jenis inferensi —, Throughput** On-Demand yang Disediakan
+ **Kasus penggunaan yang didukung** — Pencarian, rekomendasi, dan personalisasi.

Titan Text Embeddings V1 mengambil sebagai input string yang tidak kosong dengan hingga 8.192 token dan mengembalikan penyematan 1.024 dimensi. Rasio karakter terhadap token dalam bahasa Inggris rata-rata 4,7 char/token. Catatan tentang kasus penggunaan RAG: Sementara Titan Text Embeddings V2 mampu menampung hingga 8.192 token, kami sarankan untuk mengelompokkan dokumen ke dalam segmen logis (seperti paragraf atau bagian). 

## Panjang penyematan
<a name="titanmm-embedding"></a>

Menyetel panjang penyematan khusus adalah opsional. Panjang default penyematan adalah 1024 karakter yang akan berfungsi untuk sebagian besar kasus penggunaan. Panjang embedding dapat diatur ke 256, 384, atau 1024 karakter. Ukuran penyematan yang lebih besar menciptakan respons yang lebih rinci, tetapi juga akan meningkatkan waktu komputasi. Panjang penyematan yang lebih pendek kurang detail tetapi akan meningkatkan waktu respons. 

```
    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': {{int}} // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })
```

## Finetuning
<a name="titanmm-finetuning"></a>
+ Input ke Titan Multimodal Embeddings G1 finetuning Amazon adalah pasangan gambar-teks. 
+ Format gambar: PNG, JPEG
+ Batas ukuran gambar masukan: 25 MB
+ Dimensi gambar: min: 256 px, maks: 4.096 px
+ Jumlah maksimum token dalam keterangan: 128
+ Rentang ukuran kumpulan data pelatihan: 1000 - 500.000
+ Rentang ukuran dataset validasi: 8 - 50.000
+ Panjang keterangan dalam karakter: 0 - 2.560
+ Total piksel maksimum per gambar: 2048\* 2048\* 3
+ Rasio aspek (w/h): min: 0,25, maks: 4

## Mempersiapkan dataset
<a name="titanmm-datasets"></a>

Untuk dataset pelatihan, buat `.jsonl` file dengan beberapa baris JSON. Setiap baris JSON berisi `caption` atribut `image-ref` dan yang mirip dengan format [Sagemaker Augmented](https://docs.aws.amazon.com/sagemaker/latest/dg/augmented-manifest.html) Manifest. Diperlukan kumpulan data validasi. Auto-captioning saat ini tidak didukung.

```
   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
```

Untuk kumpulan data pelatihan dan validasi, Anda akan membuat `.jsonl` file dengan beberapa baris JSON.

Jalur Amazon S3 harus berada di folder yang sama di mana Anda telah memberikan izin untuk Amazon Bedrock untuk mengakses data dengan melampirkan kebijakan IAM ke peran layanan Amazon Bedrock Anda. Untuk informasi selengkapnya tentang pemberian kebijakan IAM untuk data pelatihan, lihat [Memberikan akses lowongan khusus ke data pelatihan Anda](https://docs.aws.amazon.com/bedrock/latest/userguide/security_iam_id-based-policy-examples.html#security_iam_id-based-policy-examples-model-customization).

## Hyperparameter
<a name="titanmm-hyperparameters"></a>

Nilai-nilai ini dapat disesuaikan untuk hiperparameter model Multimodal Embeddings. Nilai default akan berfungsi dengan baik untuk sebagian besar kasus penggunaan.
+ Tingkat pembelajaran - (tingkat min/max pembelajaran) - default: 5.00E-05, min: 5.00E-08, maks: 1
+ Ukuran batch - Ukuran batch efektif - default: 576, min: 256, maks: 9.216 
+ Epoch maks - default: “auto”, min: 1, maks: 100