Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
TwelveLabs Marengo Sematkan 3.0
TwelveLabs Marengo Embed 3.0Model ini menghasilkan penyematan yang disempurnakan dari input video, teks, audio, gambar, atau multi-input (teks dengan banyak gambar). Versi terbaru ini menawarkan peningkatan kinerja dan akurasi untuk pencarian kesamaan, pengelompokan, dan tugas pembelajaran mesin lainnya.
Penyedia — TwelveLabs
ID Model — twelvelabs.marengo-embed-3-0-v1:0
Marengo Embed 3.0 memberikan beberapa penyempurnaan utama:
Kapasitas pemrosesan video yang diperpanjang - Memproses hingga 4 jam konten video dan audio. File dapat mencapai 6 GB, yang merupakan dua kali lipat kapasitas versi sebelumnya. Ini membuatnya ideal untuk menganalisis acara olahraga penuh, video pelatihan yang diperpanjang, dan produksi film lengkap.
Analisis olahraga yang ditingkatkan — Model ini memberikan peningkatan yang signifikan. Ini memberikan pemahaman yang lebih baik tentang dinamika gameplay, gerakan pemain, dan deteksi peristiwa.
Dukungan multibahasa global - Kemampuan bahasa yang diperluas dari 12 hingga 36 bahasa. Hal ini memungkinkan organisasi global untuk membangun sistem pencarian dan pengambilan terpadu yang bekerja dengan mulus di berbagai wilayah dan pasar.
Presisi pencarian multimodal - Gabungkan gambar dan teks deskriptif dalam satu permintaan penyematan. Ini menggabungkan kesamaan visual dengan pemahaman semantik untuk memberikan hasil pencarian yang lebih akurat dan relevan secara kontekstual.
Mengurangi dimensi embedding - Dikurangi dari 1024 menjadi 512, yang dapat membantu mengurangi biaya penyimpanan.
TwelveLabs Marengo Embed 3.0Model ini mendukung operasi Amazon Bedrock Runtime dalam tabel berikut.
-
Untuk informasi selengkapnya tentang kasus penggunaan untuk metode API yang berbeda, lihatMembuat permintaan inferensi.
-
Untuk informasi selengkapnya tentang jenis model, lihatMembuat permintaan inferensi.
-
Untuk daftar ID model dan untuk melihat model dan AWS Wilayah TwelveLabs Marengo Embed 3.0 yang didukung, cari model dalam tabel diModel pondasi yang didukung di Amazon Bedrock.
-
Untuk daftar lengkap ID profil inferensi, lihatWilayah dan model yang Didukung untuk profil inferensi. ID profil inferensi didasarkan pada AWS Wilayah.
-
| Operasi API | Jenis model yang didukung | Modalitas masukan | Modalitas keluaran |
|---|---|---|---|
|
InvokeModel |
US East (Virginia N.) — Model dasar dan profil Inferensi Eropa (Irlandia) — Profil inferensi Asia Pasifik (Seoul) - Model dasar |
Teks Citra Multi-input (teks dengan banyak gambar) Catatan: Teks dan gambar yang disisipkan juga didukung. |
Menyematkan |
| StartAsyncInvoke |
AS Timur (Virginia N.) — Model dasar Eropa (Irlandia) — Model dasar Asia Pasifik (Seoul) - Model dasar |
Video Audio Citra Teks Multi-input (teks dengan banyak gambar) Catatan: Teks dan gambar yang disisipkan juga didukung. |
Menyematkan |
catatan
Gunakan InvokeModel untuk menghasilkan embeddings untuk kueri penelusuran. Gunakan StartAsyncInvoke untuk menghasilkan embeddings untuk aset dalam skala besar.
Kuota berikut berlaku untuk input:
| Modalitas masukan | Maksimum |
|---|---|
| Teks | 500 token |
| Citra | 5 MB per gambar |
| Video (S3) | 6 GB, panjang 4 jam |
| Audio (S3) | 6 GB, panjang 4 jam |
catatan
Jika Anda menentukan audio atau video sebaris menggunakan pengkodean base64-, pastikan payload isi permintaan tidak melebihi kuota pemanggilan model Amazon Bedrock 25 MB.
Topik
TwelveLabs Marengo Sematkan 3.0 parameter permintaan
Saat Anda membuat permintaan, bidang di mana input khusus model ditentukan bergantung pada operasi API:
-
InvokeModel- Dalam permintaan
body. -
StartAsyncInvoke— Di
modelInputbidang badan permintaan.
Format input model tergantung pada modalitas input:
Perluas bagian berikut untuk detail tentang parameter input:
Modalitas untuk penyematan.
Tipe: String
Wajib: Ya
-
Nilai yang valid:
textimage|text_image|audio|video|multi_input
Teks yang akan disematkan.
Tipe: String
Diperlukan: Ya (untuk jenis input yang kompatibel)
-
Jenis masukan yang kompatibel: Teks
Berisi informasi tentang sumber media.
Jenis: Objek
Diperlukan: Ya (jika tipe kompatibel)
-
Jenis input yang kompatibel: Gambar, Video, Audio
Format mediaSource objek dalam badan permintaan tergantung pada apakah media didefinisikan sebagai Base64-encoded string atau sebagai lokasi S3.
-
Base64-encoded tali
{ "mediaSource": { "base64String": "base64-encoded string" } }-
base64String— Base64-encoded String untuk media.
-
-
Lokasi S3 — Tentukan URI S3 dan pemilik bucket.
{ "s3Location": { "uri": "string", "bucketOwner": "string" } }-
uri— URI S3 yang berisi media. -
bucketOwner— ID AWS akun pemilik bucket S3.
-
Menentukan jenis embeddings untuk mengambil.
Tipe: Daftar
Wajib: Tidak
Nilai yang valid untuk anggota daftar:
-
visual— Penyematan visual dari video. -
audio— Penyematan audio dalam video. -
transcription— Penyematan teks yang ditranskripsi.
-
-
Nilai default:
Video: ["visual”, “audio”, “transkripsi"]
Audio: ["audio”, “transkripsi"]
-
Jenis input yang kompatibel: Video, Audio
Menentukan ruang lingkup embeddings untuk mengambil.
Tipe: Daftar
Wajib: Tidak
Nilai yang valid untuk anggota daftar:
-
clip— Mengembalikan embeddings untuk setiap klip. -
asset— Mengembalikan embeddings untuk seluruh aset.
-
-
Jenis input yang kompatibel: Video, Audio
Titik waktu dalam detik klip tempat pemrosesan harus dimulai.
Tipe: Ganda
Wajib: Tidak
Nilai minimum: 0
Nilai default: 0
-
Jenis input yang kompatibel: Video, Audio
Titik waktu dalam detik di mana pemrosesan harus berakhir.
Tipe: Ganda
Wajib: Tidak
Nilai minimum: StartSec + panjang segmen
Nilai maksimum: Durasi media
Nilai default: Durasi media
-
Jenis input yang kompatibel: Video, Audio
Mendefinisikan bagaimana media dibagi menjadi beberapa segmen untuk pembuatan embedding.
Jenis: Objek
Wajib: Tidak
-
Jenis input yang kompatibel: Video, Audio
Objek segmentasi berisi method bidang dan parameter khusus metode:
-
methodMetode segmentasi yang digunakan. Nilai yang valid:dynamic|fixed -
dynamic— Untuk video, gunakan deteksi batas bidikan untuk membagi konten secara dinamis. Berisi:-
minDurationSec— Durasi minimum untuk setiap segmen dalam hitungan detik. Jenis: Integer. Rentang: 1-5. Default: 4.
-
-
fixed— Membagi konten menjadi segmen dengan durasi yang sama. Berisi:-
durationSec— Durasi setiap segmen dalam hitungan detik. Jenis: Integer. Rentang: 1-10. Default: 6.
-
Perilaku default:
-
Video: Menggunakan segmentasi dinamis dengan deteksi batas bidikan.
-
Audio: Menggunakan segmentasi tetap. Konten dibagi serata mungkin dengan segmen mendekati 10 detik.
Berisi konfigurasi multi-input untuk menggabungkan teks dengan beberapa gambar dalam satu permintaan penyematan. Gunakan jenis input ini saat Anda ingin membuat embeddings yang menangkap hubungan antara teks dan beberapa gambar.
Jenis: Objek
Diperlukan: Ya (kapan
inputTypemulti_input)
Objek multi_input berisi kolom-kolom berikut:
-
inputText— (Opsional) Kueri teks dengan sintaks placeholder. Gunakan<@name>untuk referensi sumber media (misalnya,"<@img1> walking with <@img2>"). Jika dilengkapi dengan placeholder, masing-masing<@name>harus cocok dengan a.mediaSources[].nameMaksimum: 500 token termasuk placeholder. -
mediaSources— (Diperlukan) Array objek sumber media. Setiap sumber media berisi data gambar. Array harus berisi setidaknya satu item.-
name— (Bersyarat) Pengidentifikasi unik untuk sumber media ini. Diperlukan hanya jikainputTextmenggunakan<@name>placeholder. Ketika disediakan, harus cocok dengan placeholder diinputText(tanpa<@dan>karakter). -
mediaType— (Diperlukan) Jenis media. Saat ini hanya mendukung"image". -
base64String— muatan Base64-encoded gambar. Maksimum: 5 MB per gambar. Berikan persis salah satubase64Stringataus3Location. -
s3Location— Objek lokasi S3 yang berisiuri(S3 URI) danbucketOwner(12 digit ID AWS akun). Maksimum: 5 MB per gambar. Berikan persis salah satubase64Stringataus3Location.
-
Pemesanan media:
Jika
inputTextberisi<@name>placeholder, pesanan ditentukan oleh urutan placeholder di.inputTextJika
inputTextdihilangkan atau kosong, urutan default ke urutan array.mediaSources
Mengontrol bagaimana penyematan dikumpulkan di seluruh modalitas.
Tipe: Daftar
Wajib: Tidak
Nilai yang valid untuk anggota daftar:
-
separate_embedding— Mengembalikan embeddings untuk setiap modalitas secara terpisah (visual, audio, transkripsi). -
fused_embedding— Mengembalikan fusi tertimbang dari beberapa modalitas embedding.
-
-
Nilai default: ["separate_embedding"]
-
Jenis input yang kompatibel: Video, Audio
Kendala:
Untuk video:
fused_embeddingmembutuhkan setidaknya 2 jenis penyematan diembeddingOption.Untuk audio:
fused_embeddingmembutuhkan keduanyaaudiodantranscriptionmasukembeddingOption.
Pengidentifikasi unik untuk permintaan inferensi.
Tipe: String
Wajib: Tidak
TwelveLabs Marengo Sematkan 3.0 response
Lokasi embeddings output dan metadata terkait tergantung pada metode pemanggilan:
-
InvokeModel Dalam tubuh respon.
-
StartAsyncInvoke — Dalam bucket S3 yang ditentukan dalam
s3OutputDataConfig, setelah pekerjaan pemanggilan asinkron selesai.
Jika ada beberapa vektor embeddings, outputnya adalah daftar objek, masing-masing berisi vektor dan metadata terkait.
Format vektor embeddings output adalah sebagai berikut:
{ "data": { "embedding": [ 0.111, 0.234, ... ], "embeddingOption": ["visual", "audio", "transcription", "fused" (for video input) | "audio", "transcription", "fused" (for audio input)], "embeddingScope": ["asset" | "clip"], "startSec": 0, "endSec": 4.2 } }
Embeddings dikembalikan sebagai susunan pelampung.
Di mana Anda melihat respons ini bergantung pada metode API yang Anda gunakan:
-
InvokeModel — Muncul di badan respons.
-
StartAsyncInvoke — Muncul di lokasi S3 yang Anda tentukan dalam permintaan. Respons mengembalikan sebuah
invocationArn. Anda dapat menggunakan ini untuk mendapatkan metadata tentang pemanggilan asinkron. Ini termasuk status dan lokasi S3 di mana hasilnya ditulis.
Perluas bagian berikut untuk detail tentang parameter respons:
Embeddings vektor representasi input.
Jenis: Daftar ganda
Jenis embeddings.
Tipe: String
Nilai yang mungkin:
-
visual — Penyematan visual dari video.
-
audio — Penyematan audio dalam video.
-
transkripsi — Penyematan teks yang ditranskripsi.
-
menyatu - Fusi tertimbang dari beberapa jenis penyematan. Hanya dikembalikan ketika
embeddingTypetermasuk"fused_embedding"dalam permintaan.
-
-
Jenis input yang kompatibel: Video, Audio
catatan
Tidak berlaku untuk jenis input teks, gambar, text_image, dan multi_input. Ini mengembalikan satu penyematan tanpa embeddingOption bidang.
Menentukan ruang lingkup embeddings untuk mengambil.
Tipe: String
Anda dapat menyertakan satu atau lebih dari nilai-nilai berikut:
-
clip: Mengembalikan embeddings untuk setiap klip.
-
aset: Mengembalikan embeddings untuk seluruh aset.
Offset awal klip.
Tipe: Ganda
-
Jenis input yang kompatibel: Video, Audio
Offset akhir klip. Tidak berlaku untuk penyematan teks, gambar, text_image, dan multi_input.
Tipe: Ganda
-
Jenis input yang kompatibel: Video, Audio
TwelveLabs Marengo Sematkan 3.0 contoh kode
Bagian ini menunjukkan cara menggunakan TwelveLabs Marengo Embed 3.0 model dengan tipe input yang berbeda menggunakan Python. Contoh menunjukkan bagaimana mendefinisikan input khusus model dan menjalankan pemanggilan model.
catatan
InvokeModel mendukung teks, gambar, multi-input, dan teks dengan input gambar yang disisipkan. Untuk input video dan audio, gunakan StartAsyncInvoke.
Satukan kode Anda dalam langkah-langkah berikut:
1. Tentukan masukan khusus model
Tentukan input khusus model tergantung pada jenis input Anda:
2. Jalankan pemanggilan model menggunakan input model
Kemudian, tambahkan cuplikan kode yang sesuai dengan metode pemanggilan model pilihan Anda.