Migre desde TwelveLabs Marengo Embed 2.7 a TwelveLabs Marengo Embed 3.0 TwelveLabs Marengo Embed 3.0 parámetros de solicitud TwelveLabs Marengo Embed 3.0 response TwelveLabs Marengo Embed 3.0 ejemplos de código

TwelveLabs Marengo Embedd 3.0

El TwelveLabs Marengo Embed 3.0 modelo genera incrustaciones mejoradas a partir de entradas de vídeo, texto, audio, imagen o entradas múltiples (texto con varias imágenes). Esta última versión ofrece un rendimiento y una precisión mejorados en la búsqueda de similitudes, la agrupación en clústeres y otras tareas de aprendizaje automático.

Proveedor: TwelveLabs
ID de modelo: twelvelabs.marengo-embed-3-0-v1:0

Marengo Embed 3.0 ofrece varias mejoras clave:

Capacidad de procesamiento de vídeo ampliada: procese hasta 4 horas de contenido de vídeo y audio. Los archivos pueden ocupar hasta 6 GB, el doble de la capacidad de las versiones anteriores. Esto lo hace ideal para analizar eventos deportivos completos, vídeos de entrenamiento prolongados y producciones cinematográficas completas.
Análisis deportivo mejorado: el modelo ofrece mejoras significativas. Proporciona una mejor comprensión de la dinámica del juego, los movimientos de los jugadores y la detección de eventos.
Soporte multilingüe global: capacidades lingüísticas ampliadas de 12 a 36 idiomas. Esto permite a las organizaciones globales crear sistemas unificados de búsqueda y recuperación que funcionan sin problemas en diversas regiones y mercados.
Precisión de búsqueda multimodal: combine imágenes y texto descriptivo en una sola solicitud de incrustación. Esto combina la similitud visual con la comprensión semántica para ofrecer resultados de búsqueda más precisos y contextualmente relevantes.
Dimensión de incrustación reducida: se redujo de 1024 a 512, lo que puede ayudar a reducir los costes de almacenamiento.

El modelo TwelveLabs Marengo Embed 3.0 admite las operaciones de Tiempo de ejecución de Amazon Bedrock que se indican en la siguiente tabla.

Para obtener más información sobre los casos de uso para los diferentes métodos de API, consulte Realizar solicitudes de inferencia.
Para obtener más información acerca de los tipos de modelos, consulte Realizar solicitudes de inferencia.
- Para obtener una lista de los identificadores de modelo y ver los modelos y AWS regiones compatiblesTwelveLabs Marengo Embed 3.0, busque el modelo en la tabla de. Modelos fundacionales compatibles en Amazon Bedrock
- Para obtener una lista completa de los ID de perfil de inferencia, consulte Regiones y modelos compatibles con los perfiles de inferencia. El ID del perfil de inferencia se basa en la AWS región.

Operación de la API	Tipos de modelos compatibles	Modalidades de entrada	Modalidades de salida
InvokeModel	US East (Virginia del Norte): modelos base y perfiles de inferencia Europa (Irlanda) — Perfiles de inferencia Asia-Pacífico (Seúl): modelos básicos	Texto Image Multi-input (texto con varias imágenes) Nota: También se admite el intercalado de texto e imagen.	Incrustación
StartAsyncInvoke	EE. UU. Este (Virginia del Norte): modelos básicos Europa (Irlanda): modelos básicos Asia-Pacífico (Seúl): modelos básicos	Video Audio Image Texto Multi-input (texto con varias imágenes) Nota: También se admite el intercalado de texto e imagen.	Incrustación

Operación de la API

Tipos de modelos compatibles

Modalidades de entrada

Modalidades de salida

InvokeModel

US East (Virginia del Norte): modelos base y perfiles de inferencia

Europa (Irlanda) — Perfiles de inferencia

Asia-Pacífico (Seúl): modelos básicos

Texto

Image

Multi-input (texto con varias imágenes)

Nota: También se admite el intercalado de texto e imagen.

Incrustación

StartAsyncInvoke

EE. UU. Este (Virginia del Norte): modelos básicos

Europa (Irlanda): modelos básicos

Asia-Pacífico (Seúl): modelos básicos

Video

Audio

Image

Texto

Multi-input (texto con varias imágenes)

Nota: También se admite el intercalado de texto e imagen.

Incrustación

nota

Utilice InvokeModel para generar incrustaciones para la consulta de búsqueda. Utilice StartAsyncInvoke para generar incrustaciones de activos a gran escala.

Las siguientes cuotas se aplican a la entrada:

Modalidad de entrada	Máximo
Texto	500 fichas
Image	5 MB por imagen
Vídeo (S3)	6 GB, 4 horas de duración
Audio (S3)	6 GB, 4 horas de duración

nota

Si define audio o vídeo insertado mediante la codificación base64, asegúrese de que la carga útil del cuerpo de la solicitud no supere la cuota de invocación de modelos de Amazon Bedrock de 25 MB.

Migre desde TwelveLabs Marengo Embed 2.7 a TwelveLabs Marengo Embed 3.0

importante

TwelveLabs Marengo Embed 2.7quedará en desuso. Las incrustaciones con las que creaste NO TwelveLabs Marengo Embed 2.7 son compatibles. TwelveLabs Marengo Embed 3.0 Debe regenerar todas las incrustaciones con. TwelveLabs Marengo Embed 3.0

Para migrar de TwelveLabs Marengo Embed 2.7 aTwelveLabs Marengo Embed 3.0, complete los siguientes pasos.

Actualice el código para utilizar la nueva estructura de entrada anidada y los cambios de parámetros que se describen en la siguiente sección.
Actualice el ID del modelo a. twelvelabs.marengo-embed-3-0-v1:0
Pruebe su integración con la nueva versión.

Los siguientes son los cambios clave entre TwelveLabs Marengo Embed 2.7 yTwelveLabs Marengo Embed 3.0.

Estructura de entrada anidada: los parámetros de entrada ahora se organizan dentro de los objetos en función del inputType valor. Por ejemplo, si lo inputType estátext, anida inputText dentro de un text objeto.
Entradas combinadas de texto e imagen: un nuevo tipo de text_image entrada te permite combinar texto e imagen en una sola solicitud. Este tipo de entrada no se admite enTwelveLabs Marengo Embed 2.7.
Cambios de parámetros: los valores de los embeddingOption parámetros han cambiado:
- TwelveLabs Marengo Embed 2.7: visual-text, visual-image, audio
- TwelveLabs Marengo Embed 3.0: visual, audio, transcription

Los siguientes ejemplos muestran los cambios estructurales de la entrada de texto.

TwelveLabs Marengo Embed 2.7(estructura plana)


{
    "inputType": "text",
    "inputText": "your-text",
    "embeddingOption": "visual-text"
}

TwelveLabs Marengo Embed 3.0(estructura anidada)


{
    "inputType": "text",
    "text": {
        "inputText": "your-text"
    },
    "embeddingOption": "visual"
}

Los siguientes ejemplos muestran los cambios estructurales de las entradas multimedia (imagen, vídeo o audio).

TwelveLabs Marengo Embed 2.7(estructura plana)


{
    "inputType": "image|video|audio",
    "mediaSource": {
        "s3Location": {
            "bucketName": "your-bucket",
            "objectKey": "your-key"
        }
    },
    "embeddingOption": "visual-image|audio"
}

TwelveLabs Marengo Embed 3.0(estructura anidada)


{
    "inputType": "image|video|audio",
    "image|video|audio": {
        "mediaSource": {
            "s3Location": {
                "bucketName": "your-bucket",
                "objectKey": "your-key"
            }
        }
    },
    "embeddingOption": "visual|audio|transcription"
}

Temas

TwelveLabs Marengo Embed 3.0 parámetros de solicitud
TwelveLabs Marengo Embed 3.0 response
TwelveLabs Marengo Embed 3.0 ejemplos de código

TwelveLabs Marengo Embed 3.0 parámetros de solicitud

Al realizar una solicitud, el campo en el que se especifica la entrada específica del modelo depende del funcionamiento de la API:

InvokeModel— En la solicitud. body
StartAsyncInvoke— En el modelInput campo del cuerpo de la solicitud.

El formato de la entrada del modelo depende de la modalidad de entrada:

Text


{
    "inputType": "text",
    "text": {
        "inputText": "string"
    }
}

Image


{
  "inputType": "image",
  "image": {
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/folder/dog.jpg",
        "bucketOwner": "123456789012"
      }
    }
  }
}

Text & image


{
  "inputType": "text_image",
  "text_image": {
    "inputText": "man walking a dog",
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/folder/dog.jpg",
        "bucketOwner": "123456789012"
      }
    }
  }
}

Audio


{
  "inputType": "audio",
  "audio": {
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/audio/a.wav",
        "bucketOwner": "123456789012"
      }
    },
    "startSec": 0,
    "endSec": 6,
    "segmentation": {
      "method": "fixed", 
      "fixed": {
        "durationSec": 6
      }
    },
    "embeddingOption": [
      "audio",
      "transcription"
    ], // optional, default=both
    "embeddingType": [
      "separate_embedding"
    ], // optional, default=["separate_embedding"]
    "embeddingScope": [
      "clip",
      "asset"
    ] // optional, one or both
  }
}

Video


{
  "inputType": "video",
  "video": {
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/video/clip.mp4",
        "bucketOwner": "123456789012"
      }
    },
    "startSec": 0,
    "endSec": 6,
    "segmentation": {
      "method": "dynamic", // dynamic OR fixed, exactly one
      "dynamic": {
        "minDurationSec": 4
      }
      "method": "fixed",
      "fixed": {
        "durationSec": 6
      }
    },
    "embeddingOption": [
      "visual",
      "audio", 
      "transcription"
    ], // optional, default=all
    "embeddingType": [
      "separate_embedding"
    ], // optional, default=["separate_embedding"]
    "embeddingScope": [
      "clip",
      "asset"
    ] // optional, one or both
  }
}

Multi-input


{
  "inputType": "multi_input",
  "multi_input": {
    "inputText": "<@img1> walking a dog with <@img2>", // optional
    "mediaSources": [
      {
        "name": "img1", // required if inputText uses <@name> placeholders
        "mediaType": "image",
        "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
        "s3Location": {
          "uri": "s3://amzn-s3-demo-bucket/images/person.jpg",
          "bucketOwner": "123456789012"
        }
      },
      {
        "name": "img2",
        "mediaType": "image",
        "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
        "s3Location": {
          "uri": "s3://amzn-s3-demo-bucket/images/dog.jpg",
          "bucketOwner": "123456789012"
        }
      }
    ]
  }
}

Amplíe las siguientes secciones para obtener detalles sobre los parámetros de entrada:

Modalidad de incrustación.

Tipo: cadena
Obligatorio: sí
Valores válidos: text | image | text_image | audio | video | multi_input

Texto que se va a incrustar.

Tipo: cadena
Obligatorio: sí (para tipos de entrada compatibles)
Tipos de entrada compatibles: texto

Contiene información sobre el origen del contenido multimedia.

Tipo: objeto
Obligatorio: sí (si el tipo es compatible)
Tipos de entrada compatibles: imagen, vídeo, audio

El formato del mediaSource objeto en el cuerpo de la solicitud depende de si el medio está definido como una Base64-encoded cadena o como una ubicación de S3.

Base64-encoded string


{
    "mediaSource": {
        "base64String": "base64-encoded string"
    }
}

base64String— La Base64-encoded cadena del medio.

Ubicación de S3: especifique el URI de S3 y el propietario del bucket.
```
{
    "s3Location": {
        "uri": "string",
        "bucketOwner": "string"
    }
}
```
- uri: el URI de S3 que contiene el contenido multimedia.
- bucketOwner— El ID de AWS cuenta del propietario del bucket de S3.

Especifica los tipos de incrustaciones que se van a recuperar.

Tipo: lista
Obligatorio: no
Valores válidos para los miembros de la lista:
- visual— Incrustaciones visuales del vídeo.
- audio: incrustaciones del audio en el vídeo.
- transcription— Incrustaciones del texto transcrito.
Valor por defecto:
- Vídeo: ["visual», «audio», «transcripción"]
- Audio: ["audio», «transcripción"]
Tipos de entrada compatibles: vídeo, audio

Especifica el alcance de las incrustaciones que se van a recuperar.

Tipo: lista
Obligatorio: no
Valores válidos para los miembros de la lista:
- clip— Devuelve las incrustaciones de cada clip.
- asset— Devuelve las incrustaciones de todo el activo.
Tipos de entrada compatibles: vídeo, audio

Punto temporal en segundos del clip en el que debe comenzar el procesamiento.

Tipo: Doble
Obligatorio: no
Valor mínimo: 0
Valor predeterminado: 0
Tipos de entrada compatibles: vídeo, audio

Punto temporal en segundos en el que debe finalizar el procesamiento.

Tipo: Doble
Obligatorio: no
Valor mínimo: StartSec + longitud del segmento
Valor máximo: duración del contenido multimedia
Valor predeterminado: duración del contenido multimedia
Tipos de entrada compatibles: vídeo, audio

Define cómo se divide el contenido multimedia en segmentos para la generación de elementos incrustados.

Tipo: objeto
Obligatorio: no
Tipos de entrada compatibles: vídeo, audio

El objeto de segmentación contiene un method campo y parámetros específicos del método:

method— El método de segmentación que se va a utilizar. Valores válidos: dynamic | fixed
dynamic— En el caso del vídeo, utiliza la detección de límites de disparo para dividir el contenido de forma dinámica. Contiene:
- minDurationSec— Duración mínima de cada segmento en segundos. Tipo: número entero. Rango: 1-5. Predeterminado: 4.
fixed— Divide el contenido en segmentos de igual duración. Contiene:
- durationSec— Duración de cada segmento en segundos. Tipo: número entero. Rango: 1-10. Predeterminado: 6.

Comportamiento predeterminado:

Vídeo: utiliza la segmentación dinámica con detección de los límites de los disparos.
Audio: utiliza segmentación fija. El contenido se divide lo más uniformemente posible con segmentos cercanos a los 10 segundos.

Contiene la configuración de múltiples entradas para combinar texto con varias imágenes en una sola solicitud de incrustación. Utilice este tipo de entrada cuando desee crear incrustaciones que capturen la relación entre el texto y varias imágenes.

Tipo: objeto
Obligatorio: Sí (cuando es) inputType multi_input

El objeto multi_input contiene los siguientes campos:

inputText— (Opcional) Consulta de texto con sintaxis de marcador de posición. Se utiliza <@name> para hacer referencia a fuentes multimedia (por ejemplo,"<@img1> walking with <@img2>"). Si se proporcionan marcadores de posición, cada uno <@name> debe coincidir con unmediaSources[].name. Máximo: 500 fichas, incluidos los marcadores de posición.
mediaSources— (Obligatorio) Matriz de objetos fuente multimedia. Cada fuente multimedia contiene datos de imagen. La matriz debe contener al menos un elemento.
- name— (Condicional) Identificador único para esta fuente multimedia. Necesario solo si inputText utiliza <@name> marcadores de posición. Cuando se proporciona, debe coincidir con un marcador de posición inputText (sin los > caracteres <@ y).
- mediaType— (Obligatorio) Tipo de medio. En la actualidad, solo se admite "image".
- base64String— carga útil Base64-encoded de la imagen. Máximo: 5 MB por imagen. Proporcione exactamente uno de los base64String siguientess3Location:
- s3Location— Objeto de ubicación de S3 que contiene uri (URI de S3) y bucketOwner (ID de AWS cuenta de 12 dígitos). Máximo: 5 MB por imagen. Proporcione exactamente uno de los base64String siguientess3Location:

Pedido de contenido multimedia:

Si inputText contiene <@name> marcadores de posición, el orden viene determinado por el orden de los marcadores de posición en. inputText
Si inputText se omite o está vacío, el orden predeterminado es el orden matricial de. mediaSources

Controla la forma en que se agregan las incrustaciones en todas las modalidades.

Tipo: lista
Obligatorio: no
Valores válidos para los miembros de la lista:
- separate_embedding— Devuelve las incrustaciones de cada modalidad por separado (visual, de audio, transcripción).
- fused_embedding— Devuelve una fusión ponderada de múltiples modalidades de incrustación.
Valor predeterminado: ["separate_embedding"]
Tipos de entrada compatibles: vídeo, audio

Restricciones:

Para vídeo: fused_embedding requiere al menos 2 tipos de incrustación. embeddingOption
Para audio: fused_embedding requiere ambos tipos de sonido audio y entradatranscription. embeddingOption

Identificador único para la solicitud de inferencia.

Tipo: cadena
Obligatorio: no

TwelveLabs Marengo Embed 3.0 response

La ubicación de las incrustaciones de salida y los metadatos asociados depende del método de invocación:

InvokeModel — En el cuerpo de respuesta.
StartAsyncInvoke — En el segmento S3 definido ens3OutputDataConfig, una vez finalizado el trabajo de invocación asíncrona.

Si hay varios vectores de incrustaciones, la salida es una lista de objetos, cada uno de los cuales contiene un vector y sus metadatos asociados.

El formato del vector de incrustaciones de salida es el siguiente:


{
  "data": {
    "embedding": [
    0.111, 0.234, ...
    ],
    "embeddingOption": ["visual", "audio", "transcription", "fused" (for video input) | "audio", "transcription", "fused" (for audio input)],
    "embeddingScope": ["asset" | "clip"],
    "startSec": 0,
    "endSec": 4.2
  }
}

Las incrustaciones se devuelven como una matriz de elementos flotantes.

El lugar en el que veas esta respuesta depende del método de API que hayas utilizado:

InvokeModel — Aparece en el cuerpo de la respuesta.
StartAsyncInvoke — Aparece en la ubicación S3 que especificó en la solicitud. La respuesta devuelve uninvocationArn. Puede usar esto para obtener metadatos sobre la invocación asíncrona. Esto incluye el estado y la ubicación S3 en la que se escriben los resultados.

Amplíe las siguientes secciones para obtener detalles sobre los parámetros de respuesta:

Representación vectorial de la incrustaciones de entrada.

Tipo: lista de valores double

El tipo de incrustaciones.

Tipo: cadena
Valores posibles:
- visual: incrustaciones visuales del vídeo.
- audio: incrustaciones del audio en el vídeo.
- transcripción — Incrustaciones del texto transcrito.
- fusionado: fusión ponderada de varios tipos de incrustaciones. Solo se devuelve cuando se embeddingType incluye "fused_embedding" en la solicitud.
Tipos de entrada compatibles: vídeo, audio

nota

No se aplica a los tipos de entrada de texto, imagen, imagen de texto y entrada múltiple. Estas devuelven una sola incrustación sin el campo. embeddingOption

Especifica el alcance de las incrustaciones que se van a recuperar.

Tipo: cadena

Puede incluir uno o más de los siguientes valores:

clip: devuelve las incrustaciones de cada clip.
activo: devuelve las incrustaciones de todo el activo.

El desplazamiento inicial del clip.

Tipo: Doble
Tipos de entrada compatibles: vídeo, audio

El desfase final del clip. No se aplica a las incrustaciones de texto, imagen, imagen de texto y entradas múltiples.

Tipo: Doble
Tipos de entrada compatibles: vídeo, audio

TwelveLabs Marengo Embed 3.0 ejemplos de código

En esta sección se muestra cómo utilizar el modelo TwelveLabs Marengo Embed 3.0 con diferentes tipos de entrada mediante Python. Los ejemplos muestran cómo definir la entrada específica del modelo y cómo ejecutar las invocaciones del modelo.

nota

InvokeModel admite texto, imagen, entrada múltiple y texto con entrada de imagen intercalada. Para la entrada de vídeo y audio, utilice. StartAsyncInvoke

Reúna su código con los siguientes pasos:

1. Defina la entrada específica del modelo

Defina la entrada específica del modelo en función del tipo de entrada:

Text


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "text",
    "text": {
        "inputText": "man walking a dog"
    }
}

Image


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "image",
    "image": {
        "mediaSource": {
            "s3Location": {
                "uri": "s3://amzn-s3-demo-bucket/my_image.png",
                "bucketOwner": "123456789012"
            }
        }
    }
}

Text & image


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "text_image",
    "text_image": {
        "inputText": "man walking a dog",
        "mediaSource": {
            "s3Location": {
                "uri": "s3://amzn-s3-demo-bucket/my_image.jpg",
                "bucketOwner": "123456789012"
            }
        }
    }
}

Audio


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"
 
model_input = {
    "inputType": "audio",
    "audio": {
        "mediaSource": {  
            "s3Location": { 
                "uri": "s3://amzn-s3-demo-bucket/my-audio.wav", 
                "bucketOwner": "123456789012" 
            }
        },
        "startSec": 0,
        "endSec": 5,
        "segmentation": {
            "method": "fixed",
            "fixed": {
                "durationSec": 5
            }
        },
        "embeddingScope": ["clip", "asset"],
        "embeddingOption": ["audio", "transcription"],
        "embeddingType": ["separate_embedding", "fused_embedding"]
    }
}

Video


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"
 
model_input = {
    "inputType": "video",
    "video": {
        "mediaSource": {
            "s3Location": {
                "uri": "s3://amzn-s3-demo-bucket/my-video.mp4",
                "bucketOwner": "123456789012"
            }
        },
        "startSec": 10,
        "endSec": 20,
        "segmentation": {
            "method": "fixed",
            "fixed": {
                "durationSec": 5
            }
        },
        "embeddingOption": [
            "visual", 
            "audio"
        ],
        "embeddingType": ["separate_embedding", "fused_embedding"],
        "embeddingScope": [
            "clip",
            "asset"
        ]
    }
}

Multi-input


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "multi_input",
    "multi_input": {
        "inputText": "<@img1> walking a dog with <@img2>",
        "mediaSources": [
            {
                "name": "img1",
                "mediaType": "image",
                "s3Location": {
                    "uri": "s3://amzn-s3-demo-bucket/images/person.jpg",
                    "bucketOwner": "123456789012"
                }
            },
            {
                "name": "img2",
                "mediaType": "image",
                "s3Location": {
                    "uri": "s3://amzn-s3-demo-bucket/images/dog.jpg",
                    "bucketOwner": "123456789012"
                }
            }
        ]
    }
}

2. Ejecute la invocación del modelo utilizando la entrada del modelo

A continuación, añada el fragmento de código que corresponda al método de invocación del modelo que prefiera.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

TwelveLabs Marengo Embedd 2.7

Escritor AI Modelos Palmyra