View a markdown version of this page

Modèles de plongement lexical Amazon Titan - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modèles de plongement lexical Amazon Titan

Les modèles de vectorisations Amazon Titan incluent le plongement lexical Amazon Titan V2 et le modèle de plongement lexical Titan G1.

Note

L'intégration de modèles sur Amazon Bedrock est limitée par les demandes par minute (RPM), et non par les jetons par minute (TPM). Lorsque vous planifiez la capacité ou demandez des augmentations de quota pour intégrer des modèles, utilisez le quota RPM. Pour de plus amples informations, veuillez consulter Quotas pour Amazon Bedrock.

Les intégrations de texte constituent des représentations vectorielles significatives de texte non structuré telles que des documents, des paragraphes et des phrases. Vous entrez un corps de texte, et la sortie est un vecteur (1 x n). Vous pouvez utiliser les vecteurs d’intégration dans une grande variété d’applications.

Le modèle de plongement lexical Amazon Titan v2 (amazon.titan-embed-text-v2:0) peut recevoir jusqu’à 8 192 jetons ou 50 000 caractères et produit un vecteur de 1 024 dimensions. Il est optimisé pour les tâches de récupération de texte, mais peut également être utilisé pour des tâches supplémentaires, telles que la similitude sémantique et la mise en cluster.

Les modèles de vectorisations Amazon Titan génèrent une représentation sémantique significative des documents, des paragraphes et des phrases. Le plongement lexical Amazon Titan prend en entrée un corps de texte et produit un vecteur (1 x n). Amazon Titan Text Embeddings est proposé via un appel de point de terminaison optimisé en termes de latence pour générer des vecteurs à faible latence (recommandé lors de l'étape de récupération) ainsi que via des tâches par lots optimisées en termes de débit pour une indexation plus rapide. Le calcul et la récupération de similarité réels sont effectués par votre base de données vectorielle, et non par le modèle d'intégration. Le plongement lexical Amazon Titan v2 prend en charge les documents longs, mais pour les tâches de récupération, il est recommandé de segmenter les documents en segments logiques, tels que des paragraphes ou des sections.

Note

Le modèle de plongement lexical Amazon Titan v2 et le modèle de plongement lexical Titan v1 ne prennent pas en charge les paramètres d’inférence tels que maxTokenCount ou topP.

Modèle de plongement lexical Amazon Titan V2

  • ID du modèle : amazon.titan-embed-text-v2:0

  • Nombre maximum de jetons de texte d'entrée : 8 192

  • Nombre maximal de caractères en entrée : 50 000

  • Langues : anglais (100 langues supplémentaires en version préliminaire)

  • Taille du vecteur de sortie : 1 024 (par défaut), 512, 256

  • Types d'inférence — On-Demand Débit provisionné

  • Cas d’utilisation pris en charge : RAG, recherche de documents, reclassement, classification, etc.

Note

Le plongement lexical V2 prend en entrée une chaîne non vide contenant jusqu’à 8 192 jetons ou 50 000 caractères. Le ratio de caractères par jeton en anglais est de 4,7 caractères par jeton, en moyenne. Le plongement lexical V1 et le plongement lexical Titan V2 peuvent recevoir jusqu’à 8 192 jetons, mais il est recommandé de segmenter les documents en segments logiques (tels que des paragraphes ou des sections).

Le modèle Amazon Titan Embedding Text v2 est optimisé pour l'anglais, avec un support multilingue pour les langues suivantes. Cross-language les requêtes (telles que la fourniture d'une base de connaissances en coréen et l'interrogation en allemand) renverront des résultats sous-optimaux.

  • Afrikaans

  • Albanais

  • Amharique

  • Arabe

  • Arménien

  • Assamais

  • Azerbaïdjanais

  • Bachkir

  • Basque

  • Biélorusse

  • Bengali

  • Bosniaque

  • Breton

  • Bulgare

  • Birman

  • Catalan

  • Cebuano

  • Chinois

  • Corse

  • Croate

  • Tchèque

  • Danois

  • Dhivehi

  • Néerlandais

  • Anglais

  • Espéranto

  • Estonian

  • Féroïen

  • Finnois

  • Français

  • Galicien

  • Géorgien

  • Allemand

  • Gujarati

  • Haïtien

  • Haoussa

  • Hébreu

  • Hindi

  • Hongrois

  • Islandais

  • Indonésien

  • Irlandais

  • Italien

  • Japonais

  • Javanais

  • Kannada

  • Kazakh

  • Khmer

  • Kinyarwanda

  • Kirghize

  • Coréen

  • Norvégien

  • Lao

  • Latin

  • Letton

  • Lituanien

  • Luxembourgeois

  • Macédonien

  • Malgache

  • Malais

  • Malayalam

  • Maltais

  • Maori

  • Marathi

  • Grec moderne

  • Mongol

  • Népalais

  • Norvégien

  • Nynorsk norvégien

  • Occitan

  • Oriya

  • Panjabi

  • Persan

  • Polonais

  • Portugais

  • Pushto

  • Roumain

  • Romanche

  • Russe

  • Sanskrit

  • Gaélique écossais

  • Serbe

  • Sindhi

  • Singhalais

  • Slovaque

  • Slovène

  • Somali

  • Espagnol

  • Soundanais

  • Swahili

  • Suédois

  • Tagalog

  • Tadjik

  • Tamoul

  • Tatar

  • Télougou

  • Thaï

  • Tibétain

  • Turc

  • Turkmène

  • Ouïghour

  • Ukrainien

  • Urdu

  • Ouzbek

  • Vietnamien

  • Waray

  • Gallois

  • Frison occidental

  • Xhosa

  • Yiddish

  • Yoruba

  • Zoulou