View a markdown version of this page

Modelos de Amazon Titan Text Embeddings - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modelos de Amazon Titan Text Embeddings

Los modelos de incrustaciones de Amazon Titan incluyen Amazon Titan Text Embeddings V2 y Titan Text Embeddings G1.

nota

Los modelos de incrustación en Amazon Bedrock se limitan con las solicitudes por minuto (RPM), no con los tokens por minuto (TPM). Cuando planifique la capacidad o solicite aumentos de cuota para incrustar modelos, utilice la cuota de RPM. Para obtener más información, consulte Cuotas para Amazon Bedrock.

Las incrustaciones de texto representan representaciones vectoriales significativas de texto no estructurado, como documentos, párrafos y oraciones. Se introduce un cuerpo de texto y el resultado es un vector (1 x n). Puede utilizar vectores de incrustación en una amplia variedad de aplicaciones.

El modelo Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) puede ingerir hasta 8192 tokens o 50 000 caracteres y generar un vector de 1024 dimensiones. El modelo está optimizado para las tareas de recuperación de texto, pero también se puede usar para tareas adicionales, como la similitud semántica y la agrupación en clústeres.

Los modelos Amazon Titan Embeddings generan una representación semántica significativa de documentos, párrafos y oraciones. Amazon Titan Text Embeddings toma como entrada un cuerpo de texto y genera un vector (1 x n). Amazon Titan Text Embeddings se ofrece mediante la invocación de puntos finales optimizada para la latencia para generar vectores con una latencia baja (se recomienda durante el paso de recuperación), así como trabajos por lotes con rendimiento optimizado para una indexación más rápida. El cálculo y la recuperación reales de la similitud los realiza su base de datos vectoriales, no el modelo de incrustación. Amazon Titan Text Embeddings v2 también admite documentos largos; sin embargo, para las tareas de recuperación, se recomienda segmentar los documentos en segmentos lógicos, como párrafos o secciones.

nota

Los modelos Amazon Titan Text Embeddings v2 y Titan Text Embeddings v1 no admiten parámetros de inferencia como maxTokenCount o topP.

Modelo Amazon Titan Text Embeddings versión 2

  • ID del modelo: amazon.titan-embed-text-v2:0

  • Número máximo de tokens de texto de entrada: 8192

  • Número máximo de caracteres de entrada: 50 000 caracteres

  • Idiomas: inglés (más de 100 idiomas adicionales en versión preliminar)

  • Tamaño del vector de salida: 1024 (predeterminado), 512, 256

  • Tipos de inferencia: rendimiento On-Demand aprovisionado

  • Casos de uso compatibles: RAG, búsqueda de documentos, cambio de posición, clasificación, etc.

nota

Titan Text Embeddings V2 toma como entrada una cadena no vacía con un máximo de 8192 tokens o 50 000 caracteres. La proporción de caracteres por token en inglés es, de media, de 4,7 caracteres por token. Si bien Titan Text Embeddings versión 1 y Titan Text Embeddings versión 2 pueden alojar hasta 8192 tokens, se recomienda segmentar los documentos en segmentos lógicos (como párrafos o secciones).

El modelo Amazon Titan Embedding Text v2 está optimizado para el inglés y es compatible con varios idiomas en los siguientes idiomas. Cross-language las consultas (como proporcionar una base de conocimientos en coreano y consultarla en alemán) arrojarán resultados subóptimos.

  • Afrikáans

  • Albanés

  • Amárico

  • Árabe

  • Armenio

  • Asamés

  • Azerbaiyano

  • Baskir

  • Euskera

  • Bielorruso

  • Bengalí

  • Bosnio

  • Bretón

  • Búlgaro

  • Birmano

  • Catalán

  • Cebuano

  • Chino

  • Corso

  • Croata

  • Checo

  • Danés

  • Dhivehi

  • Neerlandés

  • Inglés

  • Esperanto

  • Estonio

  • Feroés

  • Finés

  • Francés

  • Gallego

  • Georgiano

  • Alemán

  • Gujarati

  • Haitiano

  • Hausa

  • Hebreo

  • Hindi

  • Húngaro

  • Islandés

  • Indonesio

  • Irlandés

  • Italiano

  • Japonés

  • Javanés

  • Kannada

  • Kazajo

  • Jemer

  • Kinyaruanda

  • Kirguís

  • Coreano

  • Kurdo

  • Lao

  • Latín

  • Letón

  • Lituano

  • Luxemburgués

  • Macedonio

  • Malgache

  • Malayo

  • Malayalam

  • Maltés

  • Maorí

  • Marathi

  • Griego moderno

  • Mongol

  • Nepalés

  • Noruego

  • Noruego nynorsk

  • Occitano

  • Oriya

  • Panyabí

  • Persa

  • Polaco

  • Portugués

  • Pastún

  • Rumano

  • Romanche

  • Ruso

  • Sánscrito

  • Gaélico escocés

  • Serbio

  • Sindi

  • Cingalés

  • Eslovaco

  • Esloveno

  • Somalí

  • Español

  • Sondanés

  • Suajili

  • Sueco

  • Tagalo

  • Tayiko

  • Tamil

  • Tártaro

  • Telugu

  • Tailandés

  • Tibetano

  • Turco

  • Turcomano

  • Uigur

  • Ucraniano

  • Urdu

  • Uzbeko

  • Vietnamita

  • Waray

  • Galés

  • Frisón

  • Xhosa

  • Yiddish

  • Yoruba

  • Zulú