Migrar de TwelveLabs Marengo Embed 2.7 para TwelveLabs Marengo Embed 3.0 TwelveLabs Marengo Embed 3.0 parâmetros de solicitação TwelveLabs Marengo Embed 3.0 resposta TwelveLabs Marengo Embed 3.0 exemplos de código

TwelveLabs Marengo Embed 3.0

O TwelveLabs Marengo Embed 3.0 modelo gera incorporações aprimoradas a partir de entradas de vídeo, texto, áudio, imagem ou várias entradas (texto com várias imagens). Essa versão mais recente oferece desempenho e precisão aprimorados para pesquisa por similaridade, agrupamento e outras tarefas de aprendizado de máquina.

Fornecedor — TwelveLabs
ID de modelo: twelvelabs.marengo-embed-3-0-v1:0

O Marengo Embed 3.0 oferece vários aprimoramentos importantes:

Capacidade ampliada de processamento de vídeo — Processe até 4 horas de conteúdo de vídeo e áudio. Os arquivos podem ter até 6 GB, o dobro da capacidade das versões anteriores. Isso o torna ideal para analisar eventos esportivos completos, vídeos de treinamento estendidos e produções cinematográficas completas.
Análise esportiva aprimorada — O modelo oferece melhorias significativas. Ele fornece uma melhor compreensão da dinâmica do jogo, dos movimentos do jogador e da detecção de eventos.
Suporte multilíngue global — capacidades linguísticas expandidas de 12 para 36 idiomas. Isso permite que organizações globais criem sistemas unificados de busca e recuperação que funcionem perfeitamente em diversas regiões e mercados.
Precisão de pesquisa multimodal — combine imagens e texto descritivo em uma única solicitação de incorporação. Isso combina semelhança visual com compreensão semântica para fornecer resultados de pesquisa mais precisos e contextualmente relevantes.
Dimensão de incorporação reduzida — Reduzida de 1024 para 512, o que pode ajudar a reduzir os custos de armazenamento.

O modelo TwelveLabs Marengo Embed 3.0 permite as operações do Amazon Bedrock Runtime descritas na tabela a seguir.

Para ter mais informações sobre casos de uso para diferentes métodos de API, consulte Fazendo solicitações de inferência.
Para ter mais informações sobre os tipos de modelo, consulte Fazendo solicitações de inferência.
- Para obter uma lista de IDs de modelo e ver os modelos e AWS regiões compatíveis com, pesquise o modelo na tabela emModelos de base compatíveis no Amazon Bedrock. TwelveLabs Marengo Embed 3.0
- Para ver uma lista completa de IDs de perfil de inferência, consulte Regiões e modelos que compatíveis com perfis de inferência. O ID do perfil de inferência é baseado na AWS região.

Operação de API	Tipos de modelo compatíveis	Modalidades de entrada	Modalidades de saída
InvokeModel	Leste dos EUA (Norte da Virgínia) — Modelos básicos e perfis de inferência Europa (Irlanda) — Perfis de inferência Ásia-Pacífico (Seul) - Modelos básicos	Texto Imagem Multi-input (texto com várias imagens) Observação: texto e imagem intercalados também são suportados.	Incorporação
StartAsyncInvoke	Leste dos EUA (Norte da Virgínia) — Modelos básicos Europa (Irlanda) — Modelos básicos Ásia-Pacífico (Seul) - Modelos básicos	Vídeo Áudio Imagem Texto Multi-input (texto com várias imagens) Observação: texto e imagem intercalados também são suportados.	Incorporação

Operação de API

Tipos de modelo compatíveis

Modalidades de entrada

Modalidades de saída

InvokeModel

Leste dos EUA (Norte da Virgínia) — Modelos básicos e perfis de inferência

Europa (Irlanda) — Perfis de inferência

Ásia-Pacífico (Seul) - Modelos básicos

Texto

Imagem

Multi-input (texto com várias imagens)

Observação: texto e imagem intercalados também são suportados.

Incorporação

StartAsyncInvoke

Leste dos EUA (Norte da Virgínia) — Modelos básicos

Europa (Irlanda) — Modelos básicos

Ásia-Pacífico (Seul) - Modelos básicos

Vídeo

Áudio

Imagem

Texto

Multi-input (texto com várias imagens)

Observação: texto e imagem intercalados também são suportados.

Incorporação

nota

Use InvokeModel para gerar incorporações para consulta de pesquisa. Use StartAsyncInvoke para gerar incorporações para ativos em grande escala.

As seguintes cotas se aplicam à saída:

Modalidade de entrada	Máximo
Texto	500 fichas
Imagem	5 MB por imagem
Vídeo (S3)	6 GB, 4 horas de duração
Áudio (S3)	6 GB, 4 horas de duração

nota

Se você definir áudio ou vídeo em linha usando a codificação em base64, a carga útil do corpo da solicitação não deve ultrapassar a cota de invocação de 25 MB do modelo do Amazon Bedrock.

Migrar de TwelveLabs Marengo Embed 2.7 para TwelveLabs Marengo Embed 3.0

Importante

TwelveLabs Marengo Embed 2.7será descontinuado. As incorporações com as quais você criou NÃO TwelveLabs Marengo Embed 2.7 são compatíveis comTwelveLabs Marengo Embed 3.0. Você deve regenerar todas as incorporações com. TwelveLabs Marengo Embed 3.0

Para migrar de TwelveLabs Marengo Embed 2.7 paraTwelveLabs Marengo Embed 3.0, conclua as etapas a seguir.

Atualize seu código para usar a nova estrutura de entrada aninhada e as alterações de parâmetros descritas na seção a seguir.
Atualize o ID do modelo paratwelvelabs.marengo-embed-3-0-v1:0.
Teste sua integração com a nova versão.

A seguir estão as principais mudanças entre TwelveLabs Marengo Embed 2.7 TwelveLabs Marengo Embed 3.0 e.

Estrutura de entrada aninhada — Os parâmetros de entrada agora são organizados dentro de objetos com base no inputType valor. Por exemplo, se inputType estivertext, aninhe-se inputText dentro de um text objeto.
Entradas combinadas de texto e imagem — Um novo tipo de text_image entrada permite combinar texto e imagem em uma única solicitação. Esse tipo de entrada não é suportado noTwelveLabs Marengo Embed 2.7.
Alterações de parâmetros — Os valores dos embeddingOption parâmetros foram alterados:
- TwelveLabs Marengo Embed 2.7: visual-text, visual-image, audio
- TwelveLabs Marengo Embed 3.0: visual, audio, transcription

Os exemplos a seguir mostram as mudanças estruturais na entrada de texto.

TwelveLabs Marengo Embed 2.7(estrutura plana)


{
    "inputType": "text",
    "inputText": "your-text",
    "embeddingOption": "visual-text"
}

TwelveLabs Marengo Embed 3.0(estrutura aninhada)


{
    "inputType": "text",
    "text": {
        "inputText": "your-text"
    },
    "embeddingOption": "visual"
}

Os exemplos a seguir mostram as mudanças estruturais nas entradas de mídia (imagem, vídeo ou áudio).

TwelveLabs Marengo Embed 2.7(estrutura plana)


{
    "inputType": "image|video|audio",
    "mediaSource": {
        "s3Location": {
            "bucketName": "your-bucket",
            "objectKey": "your-key"
        }
    },
    "embeddingOption": "visual-image|audio"
}

TwelveLabs Marengo Embed 3.0(estrutura aninhada)


{
    "inputType": "image|video|audio",
    "image|video|audio": {
        "mediaSource": {
            "s3Location": {
                "bucketName": "your-bucket",
                "objectKey": "your-key"
            }
        }
    },
    "embeddingOption": "visual|audio|transcription"
}

Tópicos

TwelveLabs Marengo Embed 3.0 parâmetros de solicitação
TwelveLabs Marengo Embed 3.0 resposta
TwelveLabs Marengo Embed 3.0 exemplos de código

TwelveLabs Marengo Embed 3.0 parâmetros de solicitação

Quando você faz uma solicitação, o campo no qual a entrada específica do modelo é estipulada depende da operação de API:

InvokeModel— Na solicitaçãobody.
StartAsyncInvoke— No modelInput campo do corpo da solicitação.

O formato da entrada do modelo depende da modalidade de entrada:

Text


{
    "inputType": "text",
    "text": {
        "inputText": "string"
    }
}

Image


{
  "inputType": "image",
  "image": {
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/folder/dog.jpg",
        "bucketOwner": "123456789012"
      }
    }
  }
}

Text & image


{
  "inputType": "text_image",
  "text_image": {
    "inputText": "man walking a dog",
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/folder/dog.jpg",
        "bucketOwner": "123456789012"
      }
    }
  }
}

Audio


{
  "inputType": "audio",
  "audio": {
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/audio/a.wav",
        "bucketOwner": "123456789012"
      }
    },
    "startSec": 0,
    "endSec": 6,
    "segmentation": {
      "method": "fixed", 
      "fixed": {
        "durationSec": 6
      }
    },
    "embeddingOption": [
      "audio",
      "transcription"
    ], // optional, default=both
    "embeddingType": [
      "separate_embedding"
    ], // optional, default=["separate_embedding"]
    "embeddingScope": [
      "clip",
      "asset"
    ] // optional, one or both
  }
}

Video


{
  "inputType": "video",
  "video": {
    "mediaSource": {
      "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
      "s3Location": {
        "uri": "s3://amzn-s3-demo-bucket/video/clip.mp4",
        "bucketOwner": "123456789012"
      }
    },
    "startSec": 0,
    "endSec": 6,
    "segmentation": {
      "method": "dynamic", // dynamic OR fixed, exactly one
      "dynamic": {
        "minDurationSec": 4
      }
      "method": "fixed",
      "fixed": {
        "durationSec": 6
      }
    },
    "embeddingOption": [
      "visual",
      "audio", 
      "transcription"
    ], // optional, default=all
    "embeddingType": [
      "separate_embedding"
    ], // optional, default=["separate_embedding"]
    "embeddingScope": [
      "clip",
      "asset"
    ] // optional, one or both
  }
}

Multi-input


{
  "inputType": "multi_input",
  "multi_input": {
    "inputText": "<@img1> walking a dog with <@img2>", // optional
    "mediaSources": [
      {
        "name": "img1", // required if inputText uses <@name> placeholders
        "mediaType": "image",
        "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
        "s3Location": {
          "uri": "s3://amzn-s3-demo-bucket/images/person.jpg",
          "bucketOwner": "123456789012"
        }
      },
      {
        "name": "img2",
        "mediaType": "image",
        "base64String": "base64-encoded string", // base64String OR s3Location, exactly one
        "s3Location": {
          "uri": "s3://amzn-s3-demo-bucket/images/dog.jpg",
          "bucketOwner": "123456789012"
        }
      }
    ]
  }
}

Expanda as seguintes seções para obter detalhes sobre os parâmetros de entrada:

Modalidade para a incorporação.

Tipo: string
Obrigatório: Sim
Valores válidos: text | image | text_image | audio | video | multi_input

Texto a ser incorporado.

Tipo: string
Obrigatório: sim (para tipos de entrada compatíveis)
Tipos de entrada compatíveis: texto

Contém informações sobre a fonte de mídia.

Tipo: objeto
Obrigatório: sim (se for do tipo compatível)
Tipos de entrada compatíveis: imagem, vídeo, áudio

O formato do mediaSource objeto no corpo da solicitação depende se a mídia está definida como uma Base64-encoded string ou como um local do S3.

Base64-encoded string


{
    "mediaSource": {
        "base64String": "base64-encoded string"
    }
}

base64String— A Base64-encoded string para a mídia.

Localização do S3 — especifique o URI do S3 e o proprietário do bucket.
```
{
    "s3Location": {
        "uri": "string",
        "bucketOwner": "string"
    }
}
```
- uri: o URI do S3 que contém a mídia.
- bucketOwner— O ID da AWS conta do proprietário do bucket do S3.

Especifica quais tipos de incorporação devem ser recuperadas.

Tipo: lista
Obrigatório: não
Valores válidos para membros da lista:
- visual— Incorporações visuais do vídeo.
- audio: incorporações de áudio no vídeo.
- transcription— Incorporações do texto transcrito.
Valor padrão:
- Vídeo: ["visual”, “áudio”, “transcrição"]
- Áudio: ["áudio”, “transcrição"]
Tipos de entrada compatíveis: vídeo, áudio

Especifica o escopo das incorporações a serem recuperadas.

Tipo: lista
Obrigatório: não
Valores válidos para membros da lista:
- clip— Retorna as incorporações de cada clipe.
- asset— Retorna incorporações para todo o ativo.
Tipos de entrada compatíveis: vídeo, áudio

O ponto no tempo em segundos do clipe em que o processamento deve começar.

Tipo: duplo
Obrigatório: não
Valor mínimo: 0
Valor padrão: 0
Tipos de entrada compatíveis: vídeo, áudio

O momento em segundos em que o processamento deve terminar.

Tipo: duplo
Obrigatório: não
Valor mínimo: StartSec + comprimento do segmento
Valor máximo: duração da mídia
Valor padrão: duração da mídia.
Tipos de entrada compatíveis: vídeo, áudio

Define como a mídia é dividida em segmentos para geração de incorporação.

Tipo: objeto
Obrigatório: não
Tipos de entrada compatíveis: vídeo, áudio

O objeto de segmentação contém um method campo e parâmetros específicos do método:

method— O método de segmentação a ser usado. Valores válidos: dynamic | fixed
dynamic— Para vídeo, usa a detecção de limites de captura para dividir o conteúdo dinamicamente. Contém:
- minDurationSec— Duração mínima para cada segmento em segundos. Tipo: número inteiro. Intervalo: 1-5. Padrão: 4.
fixed— Divide o conteúdo em segmentos de igual duração. Contém:
- durationSec— Duração de cada segmento em segundos. Tipo: número inteiro. Intervalo: 1-10. Padrão: 6.

Comportamento padrão:

Vídeo: usa segmentação dinâmica com detecção de limites de disparo.
Áudio: usa segmentação fixa. O conteúdo é dividido o mais uniformemente possível com segmentos próximos a 10 segundos.

Contém a configuração de várias entradas para combinar texto com várias imagens em uma única solicitação de incorporação. Use esse tipo de entrada quando quiser criar incorporações que capturem a relação entre texto e várias imagens.

Tipo: Objeto
Obrigatório: Sim (quando inputType émulti_input)

O objeto multi_input contém os campos a seguir.

inputText— (Opcional) Consulta de texto com sintaxe de espaço reservado. Use <@name> para referenciar fontes de mídia (por exemplo,"<@img1> walking with <@img2>"). Se fornecido com espaços reservados, cada um <@name> deve corresponder a ummediaSources[].name. Máximo: 500 tokens, incluindo espaços reservados.
mediaSources— (Obrigatório) Matriz de objetos de fonte de mídia. Cada fonte de mídia contém dados de imagem. A matriz deve conter pelo menos um item.
- name— (Condicional) Identificador exclusivo para essa fonte de mídia. Obrigatório somente se inputText usar <@name> espaços reservados. Quando fornecido, deve corresponder a um espaço reservado em inputText (sem os > caracteres <@ e).
- mediaType— (Obrigatório) Tipo de mídia. No momento, somente "image" é compatível.
- base64String— carga útil Base64-encoded da imagem. Máximo: 5 MB por imagem. Forneça exatamente um dos base64String ous3Location.
- s3Location— Objeto de localização do S3 contendo uri (URI do S3) e bucketOwner (ID da conta de 12 dígitos AWS ). Máximo: 5 MB por imagem. Forneça exatamente um dos base64String ous3Location.

Pedido de mídia:

Se inputText contiver <@name> espaços reservados, o pedido será determinado pelo espaço reservado em. inputText
Se inputText for omitido ou estiver vazio, a ordem padrão será a ordem da matriz de. mediaSources

Controla como as incorporações são agregadas em todas as modalidades.

Tipo: lista
Obrigatório: não
Valores válidos para membros da lista:
- separate_embedding— Retorna as incorporações de cada modalidade separadamente (visual, áudio, transcrição).
- fused_embedding— Retorna uma fusão ponderada de várias modalidades de incorporação.
Valor padrão: ["separate_embedding"]
Tipos de entrada compatíveis: vídeo, áudio

Restrições:

Para vídeo: fused_embedding requer pelo menos 2 tipos de incorporação. embeddingOption
Para áudio: fused_embedding requer ambos audio e transcription entradaembeddingOption.

Identificador exclusivo para a solicitação de inferência.

Tipo: string
Obrigatório: não

TwelveLabs Marengo Embed 3.0 resposta

A localização das incorporações de saída e dos metadados associados depende do método de invocação:

InvokeModel — No corpo da resposta.
StartAsyncInvoke — No bucket S3 definido ems3OutputDataConfig, após a conclusão do trabalho de invocação assíncrona.

Se houver vários vetores de incorporação, a saída será uma lista de objetos, cada um contendo um vetor e os metadados correspondentes.

O formato do vetor de incorporações de saída é o seguinte:


{
  "data": {
    "embedding": [
    0.111, 0.234, ...
    ],
    "embeddingOption": ["visual", "audio", "transcription", "fused" (for video input) | "audio", "transcription", "fused" (for audio input)],
    "embeddingScope": ["asset" | "clip"],
    "startSec": 0,
    "endSec": 4.2
  }
}

As incorporações são retornadas como uma matriz de flutuadores.

O local em que você vê essa resposta depende do método de API usado:

InvokeModel — Aparece no corpo da resposta.
StartAsyncInvoke — Aparece no local do S3 que você especificou na solicitação. A resposta retorna uminvocationArn. Você pode usar isso para obter metadados sobre a invocação assíncrona. Isso inclui o status e a localização do S3 em que os resultados são gravados.

Expanda as seguintes seções para obter detalhes sobre os parâmetros de resposta:

Representação vetorial de incorporações da entrada.

Tipo: lista de duplos

O tipo de incorporação.

Tipo: string
Valores possíveis:
- visual — Incorporações visuais do vídeo.
- áudio — Incorporações do áudio no vídeo.
- transcrição — Incorporações do texto transcrito.
- fundido — Fusão ponderada de vários tipos de incorporação. Devolvido somente quando embeddingType incluído "fused_embedding" na solicitação.
Tipos de entrada compatíveis: vídeo, áudio

nota

Não aplicável aos tipos de entrada de texto, imagem, imagem_texto e multi_entrada. Eles retornam uma única incorporação sem o embeddingOption campo.

Especifica o escopo das incorporações a serem recuperadas.

Tipo: string

Você pode incluir um ou mais dos seguintes valores:

clipe: retorna as incorporações de cada clipe.
ativo: retorna incorporações para todo o ativo.

O deslocamento inicial do clipe.

Tipo: duplo
Tipos de entrada compatíveis: vídeo, áudio

O deslocamento final do clipe. Não aplicável para incorporações de texto, imagem, imagem_texto e multi_input.

Tipo: duplo
Tipos de entrada compatíveis: vídeo, áudio

TwelveLabs Marengo Embed 3.0 exemplos de código

Esta seção mostra como usar o modelo TwelveLabs Marengo Embed 3.0 com diferentes tipos de entrada usando Python. Os exemplos demonstram como definir a entrada específica do modelo e executar invocações do modelo.

nota

InvokeModel suporta texto, imagem, entrada múltipla e texto com entrada intercalada de imagem. Para entrada de vídeo e áudio, use StartAsyncInvoke.

Organize seu código nas seguintes etapas:

1. Defina a entrada específica do modelo

Defina a entrada específica do modelo dependendo do tipo de entrada:

Text


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "text",
    "text": {
        "inputText": "man walking a dog"
    }
}

Image


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "image",
    "image": {
        "mediaSource": {
            "s3Location": {
                "uri": "s3://amzn-s3-demo-bucket/my_image.png",
                "bucketOwner": "123456789012"
            }
        }
    }
}

Text & image


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "text_image",
    "text_image": {
        "inputText": "man walking a dog",
        "mediaSource": {
            "s3Location": {
                "uri": "s3://amzn-s3-demo-bucket/my_image.jpg",
                "bucketOwner": "123456789012"
            }
        }
    }
}

Audio


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"
 
model_input = {
    "inputType": "audio",
    "audio": {
        "mediaSource": {  
            "s3Location": { 
                "uri": "s3://amzn-s3-demo-bucket/my-audio.wav", 
                "bucketOwner": "123456789012" 
            }
        },
        "startSec": 0,
        "endSec": 5,
        "segmentation": {
            "method": "fixed",
            "fixed": {
                "durationSec": 5
            }
        },
        "embeddingScope": ["clip", "asset"],
        "embeddingOption": ["audio", "transcription"],
        "embeddingType": ["separate_embedding", "fused_embedding"]
    }
}

Video


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"
 
model_input = {
    "inputType": "video",
    "video": {
        "mediaSource": {
            "s3Location": {
                "uri": "s3://amzn-s3-demo-bucket/my-video.mp4",
                "bucketOwner": "123456789012"
            }
        },
        "startSec": 10,
        "endSec": 20,
        "segmentation": {
            "method": "fixed",
            "fixed": {
                "durationSec": 5
            }
        },
        "embeddingOption": [
            "visual", 
            "audio"
        ],
        "embeddingType": ["separate_embedding", "fused_embedding"],
        "embeddingScope": [
            "clip",
            "asset"
        ]
    }
}

Multi-input


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-3-0-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-3-0-v1:0"

model_input = {
    "inputType": "multi_input",
    "multi_input": {
        "inputText": "<@img1> walking a dog with <@img2>",
        "mediaSources": [
            {
                "name": "img1",
                "mediaType": "image",
                "s3Location": {
                    "uri": "s3://amzn-s3-demo-bucket/images/person.jpg",
                    "bucketOwner": "123456789012"
                }
            },
            {
                "name": "img2",
                "mediaType": "image",
                "s3Location": {
                    "uri": "s3://amzn-s3-demo-bucket/images/dog.jpg",
                    "bucketOwner": "123456789012"
                }
            }
        ]
    }
}

2. Execute a invocação do modelo usando a entrada do modelo

Em seguida, adicione o trecho de código que corresponde ao método de invocação do modelo de sua preferência.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

TwelveLabs Marengo Embed 2.7

AI do escritor Modelos Palmyra