Usa l'analisi intelligente Scegliere una strategia di chunking

Personalizzare l’importazione per un’origine dati

Puoi personalizzare l'ingestione vettoriale quando connetti una fonte di dati in Console di gestione AWS o modificando il valore del campo quando invii una richiesta. vectorIngestionConfiguration CreateDataSource

Selezionare un argomento per scoprire come includere configurazioni per personalizzare l’importazione durante la connessione a un’origine dati:

Usa l'analisi intelligente

Le knowledge base gestite utilizzano l'analisi intelligente per impostazione predefinita. L'analisi intelligente è una strategia di analisi gestita dai servizi che seleziona automaticamente l'approccio di analisi migliore per i contenuti. Non è necessario configurare un modello di analisi o fornire impostazioni aggiuntive.

Per utilizzare l'analisi intelligente, puoi omettere il parsingConfiguration campo da o specificarlo esplicitamente come segue: vectorIngestionConfiguration


{
    "parsingConfiguration": {
        "parsingStrategy": "SMART_PARSING"
    }
}

Nota

Le knowledge base gestite supportano solo la strategia. SMART_PARSING Altre strategie di analisi come BEDROCK_FOUNDATION_MODEL e non BEDROCK_DATA_AUTOMATION sono supportate.

Scegliere una strategia di chunking

È possibile personalizzare il modo in cui i documenti contenuti nei dati vengono suddivisi in blocchi per l’archiviazione e il recupero. Per ulteriori informazioni sulle opzioni per il chunking dei dati in Knowledge Base per Amazon Bedrock, consulta Come funziona il chunking dei contenuti per le knowledge base.

avvertimento

Dopo la connessione all’origine dati, non è possibile modificare la strategia di chunking.

In alternativa, Console di gestione AWS scegli la strategia di suddivisione in blocchi quando ti connetti a una fonte di dati. Con l'API Amazon Bedrock, includi un ChunkingConfigurationnel chunkingConfiguration campo di VectorIngestionConfiguration.

Se ometti questa configurazione o specifichi la strategia di suddivisione in blocchi predefinita, il servizio utilizza la suddivisione in blocchi a dimensione fissa con 300 token e una sovrapposizione del 20%.


{
    "chunkingConfiguration": {
        "chunkingStrategy": "DEFAULT"
    }
}

Espandi la sezione corrispondente alla strategia di suddivisione in blocchi che desideri utilizzare:

Per trattare ogni documento dell’origine dati come un singolo blocco di origine, specificare NONE nel campo chunkingStrategy della ChunkingConfiguration, come nel seguente formato:


{
    "chunkingStrategy": "NONE"
}

Per dividere ogni documento della fonte di dati in blocchi approssimativamente della stessa dimensione, specifica FIXED_SIZE nel chunkingStrategy campo di ChunkingConfiguration e includi un FixedSizeChunkingConfigurationnel fixedSizeChunkingConfiguration campo, come nel formato seguente:


{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}

Nota

Il chunking semantico non è supportato per le knowledge base gestite.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

crawler web

Osservabilità