As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
TwelveLabs Marengo Embed 3.0
O TwelveLabs Marengo Embed 3.0 modelo gera incorporações aprimoradas a partir de entradas de vídeo, texto, áudio, imagem ou várias entradas (texto com várias imagens). Essa versão mais recente oferece desempenho e precisão aprimorados para pesquisa por similaridade, agrupamento e outras tarefas de aprendizado de máquina.
Fornecedor — TwelveLabs
ID de modelo: twelvelabs.marengo-embed-3-0-v1:0
O Marengo Embed 3.0 oferece vários aprimoramentos importantes:
Capacidade ampliada de processamento de vídeo — Processe até 4 horas de conteúdo de vídeo e áudio. Os arquivos podem ter até 6 GB, o dobro da capacidade das versões anteriores. Isso o torna ideal para analisar eventos esportivos completos, vídeos de treinamento estendidos e produções cinematográficas completas.
Análise esportiva aprimorada — O modelo oferece melhorias significativas. Ele fornece uma melhor compreensão da dinâmica do jogo, dos movimentos do jogador e da detecção de eventos.
Suporte multilíngue global — capacidades linguísticas expandidas de 12 para 36 idiomas. Isso permite que organizações globais criem sistemas unificados de busca e recuperação que funcionem perfeitamente em diversas regiões e mercados.
Precisão de pesquisa multimodal — combine imagens e texto descritivo em uma única solicitação de incorporação. Isso combina semelhança visual com compreensão semântica para fornecer resultados de pesquisa mais precisos e contextualmente relevantes.
Dimensão de incorporação reduzida — Reduzida de 1024 para 512, o que pode ajudar a reduzir os custos de armazenamento.
O modelo TwelveLabs Marengo Embed 3.0 permite as operações do Amazon Bedrock Runtime descritas na tabela a seguir.
-
Para ter mais informações sobre casos de uso para diferentes métodos de API, consulte Fazendo solicitações de inferência.
-
Para ter mais informações sobre os tipos de modelo, consulte Fazendo solicitações de inferência.
-
Para obter uma lista de IDs de modelo e ver os modelos e AWS regiões compatíveis com, pesquise o modelo na tabela emModelos de base compatíveis no Amazon Bedrock. TwelveLabs Marengo Embed 3.0
-
Para ver uma lista completa de IDs de perfil de inferência, consulte Regiões e modelos que compatíveis com perfis de inferência. O ID do perfil de inferência é baseado na AWS região.
-
| Operação de API | Tipos de modelo compatíveis | Modalidades de entrada | Modalidades de saída |
|---|---|---|---|
|
InvokeModel |
Leste dos EUA (Norte da Virgínia) — Modelos básicos e perfis de inferência Europa (Irlanda) — Perfis de inferência Ásia-Pacífico (Seul) - Modelos básicos |
Texto Imagem Multi-input (texto com várias imagens) Observação: texto e imagem intercalados também são suportados. |
Incorporação |
| StartAsyncInvoke |
Leste dos EUA (Norte da Virgínia) — Modelos básicos Europa (Irlanda) — Modelos básicos Ásia-Pacífico (Seul) - Modelos básicos |
Vídeo Áudio Imagem Texto Multi-input (texto com várias imagens) Observação: texto e imagem intercalados também são suportados. |
Incorporação |
nota
Use InvokeModel para gerar incorporações para consulta de pesquisa. Use StartAsyncInvoke para gerar incorporações para ativos em grande escala.
As seguintes cotas se aplicam à saída:
| Modalidade de entrada | Máximo |
|---|---|
| Texto | 500 fichas |
| Imagem | 5 MB por imagem |
| Vídeo (S3) | 6 GB, 4 horas de duração |
| Áudio (S3) | 6 GB, 4 horas de duração |
nota
Se você definir áudio ou vídeo em linha usando a codificação em base64, a carga útil do corpo da solicitação não deve ultrapassar a cota de invocação de 25 MB do modelo do Amazon Bedrock.
Tópicos
TwelveLabs Marengo Embed 3.0 parâmetros de solicitação
Quando você faz uma solicitação, o campo no qual a entrada específica do modelo é estipulada depende da operação de API:
-
InvokeModel— Na solicitação
body. -
StartAsyncInvoke— No
modelInputcampo do corpo da solicitação.
O formato da entrada do modelo depende da modalidade de entrada:
Expanda as seguintes seções para obter detalhes sobre os parâmetros de entrada:
Modalidade para a incorporação.
Tipo: string
Obrigatório: Sim
-
Valores válidos:
text|image|text_image|audio|video|multi_input
Texto a ser incorporado.
Tipo: string
Obrigatório: sim (para tipos de entrada compatíveis)
-
Tipos de entrada compatíveis: texto
Contém informações sobre a fonte de mídia.
Tipo: objeto
Obrigatório: sim (se for do tipo compatível)
-
Tipos de entrada compatíveis: imagem, vídeo, áudio
O formato do mediaSource objeto no corpo da solicitação depende se a mídia está definida como uma Base64-encoded string ou como um local do S3.
-
Base64-encoded string
{ "mediaSource": { "base64String": "base64-encoded string" } }-
base64String— A Base64-encoded string para a mídia.
-
-
Localização do S3 — especifique o URI do S3 e o proprietário do bucket.
{ "s3Location": { "uri": "string", "bucketOwner": "string" } }-
uri: o URI do S3 que contém a mídia. -
bucketOwner— O ID da AWS conta do proprietário do bucket do S3.
-
Especifica quais tipos de incorporação devem ser recuperadas.
Tipo: lista
Obrigatório: não
Valores válidos para membros da lista:
-
visual— Incorporações visuais do vídeo. -
audio: incorporações de áudio no vídeo. -
transcription— Incorporações do texto transcrito.
-
-
Valor padrão:
Vídeo: ["visual”, “áudio”, “transcrição"]
Áudio: ["áudio”, “transcrição"]
-
Tipos de entrada compatíveis: vídeo, áudio
Especifica o escopo das incorporações a serem recuperadas.
Tipo: lista
Obrigatório: não
Valores válidos para membros da lista:
-
clip— Retorna as incorporações de cada clipe. -
asset— Retorna incorporações para todo o ativo.
-
-
Tipos de entrada compatíveis: vídeo, áudio
O ponto no tempo em segundos do clipe em que o processamento deve começar.
Tipo: duplo
Obrigatório: não
Valor mínimo: 0
Valor padrão: 0
-
Tipos de entrada compatíveis: vídeo, áudio
O momento em segundos em que o processamento deve terminar.
Tipo: duplo
Obrigatório: não
Valor mínimo: StartSec + comprimento do segmento
Valor máximo: duração da mídia
Valor padrão: duração da mídia.
-
Tipos de entrada compatíveis: vídeo, áudio
Define como a mídia é dividida em segmentos para geração de incorporação.
Tipo: objeto
Obrigatório: não
-
Tipos de entrada compatíveis: vídeo, áudio
O objeto de segmentação contém parâmetros específicos de method campo e método:
-
method— O método de segmentação a ser usado. Valores válidos:dynamic|fixed -
dynamic— Para vídeo, usa a detecção de limites de captura para dividir o conteúdo dinamicamente. Contém:-
minDurationSec— Duração mínima para cada segmento em segundos. Tipo: número inteiro. Intervalo: 1-5. Padrão: 4.
-
-
fixed— Divide o conteúdo em segmentos de igual duração. Contém:-
durationSec— Duração de cada segmento em segundos. Tipo: número inteiro. Intervalo: 1-10. Padrão: 6.
-
Comportamento padrão:
-
Vídeo: usa segmentação dinâmica com detecção de limites de disparo.
-
Áudio: usa segmentação fixa. O conteúdo é dividido o mais uniformemente possível com segmentos próximos a 10 segundos.
Contém a configuração de várias entradas para combinar texto com várias imagens em uma única solicitação de incorporação. Use esse tipo de entrada quando quiser criar incorporações que capturem a relação entre texto e várias imagens.
Tipo: Objeto
Obrigatório: Sim (quando
inputTypeémulti_input)
O objeto multi_input contém os campos a seguir.
-
inputText— (Opcional) Consulta de texto com sintaxe de espaço reservado. Use<@name>para referenciar fontes de mídia (por exemplo,"<@img1> walking with <@img2>"). Se fornecido com espaços reservados, cada um<@name>deve corresponder a ummediaSources[].name. Máximo: 500 tokens, incluindo espaços reservados. -
mediaSources— (Obrigatório) Matriz de objetos de fonte de mídia. Cada fonte de mídia contém dados de imagem. A matriz deve conter pelo menos um item.-
name— (Condicional) Identificador exclusivo para essa fonte de mídia. Obrigatório somente seinputTextusar<@name>espaços reservados. Quando fornecido, deve corresponder a um espaço reservado eminputText(sem os>caracteres<@e). -
mediaType— (Obrigatório) Tipo de mídia. No momento, somente"image"é compatível. -
base64String— carga útil Base64-encoded da imagem. Máximo: 5 MB por imagem. Forneça exatamente um dosbase64Stringous3Location. -
s3Location— Objeto de localização do S3 contendouri(URI do S3) ebucketOwner(ID da conta de 12 dígitos AWS ). Máximo: 5 MB por imagem. Forneça exatamente um dosbase64Stringous3Location.
-
Pedido de mídia:
Se
inputTextcontiver<@name>espaços reservados, o pedido será determinado pelo espaço reservado em.inputTextSe
inputTextfor omitido ou estiver vazio, a ordem padrão será a ordem da matriz de.mediaSources
Controla como as incorporações são agregadas em todas as modalidades.
Tipo: lista
Obrigatório: não
Valores válidos para membros da lista:
-
separate_embedding— Retorna as incorporações de cada modalidade separadamente (visual, áudio, transcrição). -
fused_embedding— Retorna uma fusão ponderada de várias modalidades de incorporação.
-
-
Valor padrão: ["separate_embedding"]
-
Tipos de entrada compatíveis: vídeo, áudio
Restrições:
Para vídeo:
fused_embeddingrequer pelo menos 2 tipos de incorporação.embeddingOptionPara áudio:
fused_embeddingrequer ambosaudioetranscriptionentradaembeddingOption.
Identificador exclusivo para a solicitação de inferência.
Tipo: string
Obrigatório: não
TwelveLabs Marengo Embed 3.0 resposta
A localização das incorporações de saída e dos metadados associados depende do método de invocação:
-
InvokeModel — No corpo da resposta.
-
StartAsyncInvoke — No bucket S3 definido em
s3OutputDataConfig, após a conclusão do trabalho de invocação assíncrona.
Se houver vários vetores de incorporação, a saída será uma lista de objetos, cada um contendo um vetor e os metadados correspondentes.
O formato do vetor de incorporações de saída é o seguinte:
{ "data": { "embedding": [ 0.111, 0.234, ... ], "embeddingOption": ["visual", "audio", "transcription", "fused" (for video input) | "audio", "transcription", "fused" (for audio input)], "embeddingScope": ["asset" | "clip"], "startSec": 0, "endSec": 4.2 } }
As incorporações são retornadas como uma matriz de flutuadores.
O local em que você vê essa resposta depende do método de API usado:
-
InvokeModel — Aparece no corpo da resposta.
-
StartAsyncInvoke — Aparece no local do S3 que você especificou na solicitação. A resposta retorna um
invocationArn. Você pode usar isso para obter metadados sobre a invocação assíncrona. Isso inclui o status e a localização do S3 em que os resultados são gravados.
Expanda as seguintes seções para obter detalhes sobre os parâmetros de resposta:
Representação vetorial de incorporações da entrada.
Tipo: lista de duplos
O tipo de incorporação.
Tipo: string
Valores possíveis:
-
visual — Incorporações visuais do vídeo.
-
áudio — Incorporações do áudio no vídeo.
-
transcrição — Incorporações do texto transcrito.
-
fundido — Fusão ponderada de vários tipos de incorporação. Devolvido somente quando
embeddingTypeincluído"fused_embedding"na solicitação.
-
-
Tipos de entrada compatíveis: vídeo, áudio
nota
Não aplicável aos tipos de entrada texto, imagem, imagem_texto e multi_entrada. Eles retornam uma única incorporação sem o embeddingOption campo.
Especifica o escopo das incorporações a serem recuperadas.
Tipo: string
Você pode incluir um ou mais dos seguintes valores:
-
clipe: retorna as incorporações de cada clipe.
-
ativo: retorna incorporações para todo o ativo.
O deslocamento inicial do clipe.
Tipo: duplo
-
Tipos de entrada compatíveis: vídeo, áudio
O deslocamento final do clipe. Não aplicável para incorporações de texto, imagem, imagem_texto e multi_input.
Tipo: duplo
-
Tipos de entrada compatíveis: vídeo, áudio
TwelveLabs Marengo Embed 3.0 exemplos de código
Esta seção mostra como usar o modelo TwelveLabs Marengo Embed 3.0 com diferentes tipos de entrada usando Python. Os exemplos demonstram como definir a entrada específica do modelo e executar invocações do modelo.
nota
InvokeModel suporta texto, imagem, entrada múltipla e texto com entrada intercalada de imagem. Para entrada de vídeo e áudio, use StartAsyncInvoke.
Organize seu código nas seguintes etapas:
1. Defina a entrada específica do modelo
Defina a entrada específica do modelo dependendo do tipo de entrada:
2. Execute a invocação do modelo usando a entrada do modelo
Em seguida, adicione o trecho de código que corresponde ao método de invocação do modelo de sua preferência.