

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Multi-turn cache de conversas
<a name="semantic-caching-multi-turn"></a>

Para aplicativos com conversas em vários turnos, a mesma mensagem do usuário pode significar coisas diferentes, dependendo do contexto. Por exemplo, “Conte-me mais” em uma conversa sobre Valkey significa algo diferente de “Conte-me mais” em uma conversa sobre Python.

## O desafio
<a name="semantic-caching-multi-turn-challenge"></a>

Single-prompt O armazenamento em cache funciona bem para consultas sem estado. Em conversas de vários turnos, você deve armazenar em cache o contexto completo da conversa, não apenas a última mensagem:

```
# "Tell me more" means nothing without context
# Conversation A: "What is Valkey?" -> "Tell me more"  (about Valkey)
# Conversation B: "What is Python?" -> "Tell me more"  (about Python)
```

## Estratégia: chaves de cache sensíveis ao contexto
<a name="semantic-caching-context-aware-keys"></a>

Em vez de incorporar somente a última mensagem do usuário, incorpore um resumo do contexto completo da conversa. Dessa forma, perguntas de acompanhamento semelhantes em fluxos de conversação semelhantes podem reutilizar respostas em cache.

```
def build_context_string(messages: list) -> str:
    """Build a cacheable context string from conversation messages."""
    # Use last 3 turns (6 messages: user + assistant pairs)
    recent = messages[-6:]
    parts = []
    for msg in recent:
        role = msg["role"]
        content = msg["content"][:200]  # Truncate long messages
        parts.append(f"{role}: {content}")
    return " | ".join(parts)
```

## Per-user isolamento de cache com filtros TAG
<a name="semantic-caching-tag-filters"></a>

Use campos TAG para isolar conversas em cache por usuário, sessão ou outras dimensões. Isso evita que as conversas em cache de um usuário sejam retornadas para outro usuário:

```
# Create index with TAG field for per-user isolation
valkey_client.execute_command(
    "FT.CREATE", "conv_cache_idx",
    "SCHEMA",
    "context_summary", "TEXT",
    "response", "TEXT",
    "user_id", "TAG",
    "turn_count", "NUMERIC",
    "embedding", "VECTOR", "HNSW", "6",
    "TYPE", "FLOAT32",
    "DIM", "1024",
    "DISTANCE_METRIC", "COSINE",
)
```

Pesquisa com filtragem híbrida (TAG \+ KNN):

```
def lookup_conversation_cache(messages: list, user_id: str, threshold: float = 0.12):
    """Search cache for similar conversation contexts, scoped to a user.

    Note: FT.SEARCH with COSINE distance returns a distance score where
    0 = identical and 2 = opposite. A lower score means higher similarity.
    The threshold here is a maximum distance: only return results closer
    than this value.
    """
    context = build_context_string(messages)
    query_vec = get_embedding(context)

    # Hybrid search: filter by user_id TAG + KNN on context embedding
    results = valkey_client.execute_command(
        "FT.SEARCH", "conv_cache_idx",
        f"@user_id:{{{user_id}}}=>[KNN 1 @embedding $query_vec]",
        "PARAMS", "2", "query_vec", query_vec,
        "DIALECT", "2",
    )

    if results[0] > 0:
        fields = results[2]
        field_dict = {fields[j]: fields[j+1] for j in range(0, len(fields), 2)}
        distance = float(field_dict.get("__embedding_score", "999"))
        if distance < threshold:  # Lower distance = more similar
            return {"hit": True, "response": field_dict.get("response", ""), "distance": distance}

    return {"hit": False}
```

**nota**  
O filtro `@user_id:{user_123}` TAG garante que as conversas em cache do Usuário A não vazem para o Usuário B. A consulta híbrida (TAG \+ KNN) é executada como uma única operação atômica — pré-filtrando por usuário e, em seguida, encontrando o contexto de conversa mais próximo.

## Estratégias de isolamento de cache
<a name="semantic-caching-isolation-strategies"></a>


| Estratégia | Filtro TAG | Melhor para | 
| --- | --- | --- | 
| Per-user | @user\_id:{user\_123} | Assistentes personalizados | 
| Per-session | @session\_id:{sess\_abc} | Short-lived conversa | 
| Global (compartilhado) | Sem filtro (\*) | Perguntas frequentes, bots, consultas comuns | 
| Per-model | @model:{gpt-4} | Multi-model implantações | 
| Per-product | @product\_id:{prod\_456} | E-commerce assistentes | 