

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Custom Retrieval Augmented Generation-Architekturen auf AWS
<a name="rag-custom"></a>

Im vorherigen Abschnitt wird beschrieben, wie Sie eine vollständig verwaltete Augmented Generation (RAG) AWS-Service für Retrieval verwenden. *In einigen Anwendungsfällen ist jedoch mehr Kontrolle über die Systemkomponenten wie den Retriever oder das LLM (auch Generator genannt) erforderlich.* Beispielsweise benötigen Sie möglicherweise die Flexibilität, Ihre eigene Vektordatenbank auszuwählen oder auf eine nicht unterstützte Datenquelle zuzugreifen. Für diese Anwendungsfälle können Sie eine benutzerdefinierte RAG-Architektur erstellen.

In diesem Abschnitt werden folgende Themen behandelt:
+ [Retriever für RAG-Workflows](rag-custom-retrievers.md)
+ [Generatoren für RAG-Workflows](rag-custom-generators.md)

Weitere Informationen zur Auswahl zwischen den Optionen Retriever und Generator in diesem Abschnitt finden Sie [Wählen Sie eine Option zum Abrufen erweiterter Generierung auf AWS](choosing-option.md) in diesem Handbuch.

# Retriever für RAG-Workflows
<a name="rag-custom-retrievers"></a>

In diesem Abschnitt wird erklärt, wie Sie einen Retriever erstellen. Sie können eine vollständig verwaltete semantische Suchlösung wie Amazon Kendra verwenden oder mithilfe einer Vektordatenbank eine benutzerdefinierte semantische Suche erstellen. AWS 

Bevor Sie sich mit den Retrieveroptionen befassen, stellen Sie sicher, dass Sie die drei Schritte des Vektorsuchprozesses verstanden haben:

1. Sie teilen die Dokumente, die indexiert werden müssen, in kleinere Teile auf. Dies wird als *Chunking* bezeichnet.

1. Sie verwenden einen Prozess namens [Einbetten](https://community.aws/concepts/vector-embeddings-and-rag-demystified#embeddings), um jeden Chunk in einen mathematischen Vektor umzuwandeln. Anschließend indizieren Sie jeden Vektor in einer Vektordatenbank. Der Ansatz, mit dem Sie die Dokumente indizieren, beeinflusst die Geschwindigkeit und Genauigkeit der Suche. Der Indizierungsansatz hängt von der Vektordatenbank und den von ihr bereitgestellten Konfigurationsoptionen ab.

1. Sie konvertieren die Benutzerabfrage mit demselben Verfahren in einen Vektor. Der Retriever durchsucht die Vektordatenbank nach Vektoren, die dem Abfragevektor des Benutzers ähnlich sind. Die [Ähnlichkeit](https://community.aws/concepts/vector-embeddings-and-rag-demystified#distance-metrics-between-embeddings) wird anhand von Metriken wie der euklidischen Distanz, der Kosinusdistanz oder dem Punktprodukt berechnet.

In diesem Handbuch wird beschrieben, wie Sie mit den folgenden Diensten AWS-Services oder Diensten von Drittanbietern eine benutzerdefinierte Abruf-Ebene erstellen können: AWS
+ [Amazon Kendra](#rag-custom-kendra)
+ [OpenSearch Amazon-Dienst](#rag-custom-opensearch)
+ [Amazon Aurora PostgreSQL und pgvector](#rag-custom-aurora)
+ [Amazon Neptune Analytics](#rag-custom-neptune)
+ [Amazon MemoryDB](#rag-custom-memorydb)
+ [Amazon DocumentDB](#rag-custom-docdb)
+ [Pinecone](#rag-custom-pinecone)
+ [MongoDB Atlas](#rag-custom-mongodb-atlas)
+ [Weaviate](#rag-custom-weaviate)

## Amazon Kendra
<a name="rag-custom-kendra"></a>

[Amazon Kendra](https://docs.aws.amazon.com/kendra/latest/dg/what-is-kendra.html) ist ein vollständig verwalteter, intelligenter Suchservice, der natürliche Sprachverarbeitung und fortschrittliche Algorithmen für maschinelles Lernen verwendet, um spezifische Antworten auf Suchfragen aus Ihren Daten zurückzugeben. Amazon Kendra hilft Ihnen dabei, Dokumente aus mehreren Quellen direkt aufzunehmen und die Dokumente abzufragen, nachdem sie erfolgreich synchronisiert wurden. Durch den Synchronisierungsprozess wird die erforderliche Infrastruktur geschaffen, um eine Vektorsuche im aufgenommenen Dokument zu erstellen. Daher benötigt Amazon Kendra nicht die traditionellen drei Schritte des Vektorsuchprozesses. Nach der ersten Synchronisierung können Sie einen definierten Zeitplan verwenden, um die laufende Datenaufnahme zu handhaben. 

Im Folgenden sind die Vorteile der Verwendung von Amazon Kendra for RAG aufgeführt:
+ Sie müssen keine Vektordatenbank verwalten, da Amazon Kendra den gesamten Vektorsuchprozess abwickelt.
+ Amazon Kendra enthält vorgefertigte Konnektoren für beliebte Datenquellen wie Datenbanken, Website-Crawler, Amazon S3 S3-Buckets, Microsoft SharePoint Instances und Instances. Atlassian Confluence Von AWS Partnern entwickelte Konnektoren sind verfügbar, z. B. Konnektoren für und. Box GitLab
+ Amazon Kendra bietet eine ACL-Filterung (Access Control List), die nur Dokumente zurückgibt, auf die der Endbenutzer Zugriff hat.
+ Amazon Kendra kann Antworten auf der Grundlage von Metadaten wie Datum oder Quell-Repository beschleunigen.

Die folgende Abbildung zeigt eine Beispielarchitektur, die Amazon Kendra als Abruf-Ebene des RAG-Systems verwendet. Weitere Informationen finden Sie unter [Schnelles Erstellen hochgenauer generativer KI-Anwendungen auf Unternehmensdaten mithilfe von Amazon Kendra und großen Sprachmodellen](https://aws.amazon.com/blogs/machine-learning/quickly-build-high-accuracy-generative-ai-applications-on-enterprise-data-using-amazon-kendra-langchain-and-large-language-models/) (AWS Blogbeitrag). LangChain



![\[Verwendung von Amazon Kendra als Abruf-Ebene für ein RAG-System auf. AWS\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-kendra.png)


Für das Foundation-Modell können Sie Amazon Bedrock oder ein über [Amazon SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html) AI bereitgestelltes LLM verwenden. JumpStart Sie können AWS Lambda with verwenden [https://python.langchain.com/docs/integrations/tools/awslambda/](https://python.langchain.com/docs/integrations/tools/awslambda/), um den Fluss zwischen dem Benutzer, Amazon Kendra und dem LLM zu orchestrieren. Informationen zum Erstellen eines RAG-Systems, das Amazon Kendra und andere verwendet LangChain LLMs, finden Sie im [Amazon Kendra LangChain Extensions GitHub Repository](https://github.com/aws-samples/amazon-kendra-langchain-extensions).

## OpenSearch Amazon-Dienst
<a name="rag-custom-opensearch"></a>

[Amazon OpenSearch Service](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/what-is.html) bietet integrierte ML-Algorithmen für die Suche nach [k-Nearest Neighbours (k-NN), um eine Vektorsuche](https://docs.opensearch.org/latest/vector-search/vector-search-techniques/index/) durchzuführen. OpenSearch Der Service bietet auch eine [Vektor-Engine für Amazon EMR Serverless](https://aws.amazon.com/opensearch-service/serverless-vector-engine/). Mit dieser Vektor-Engine können Sie ein RAG-System erstellen, das über skalierbare und leistungsstarke Vektorspeicher- und Suchfunktionen verfügt. Weitere Informationen zum Erstellen eines RAG-Systems mithilfe von OpenSearch Serverless finden Sie unter [Erstellen skalierbarer und serverloser RAG-Workflows mit einer Vektor-Engine für Amazon OpenSearch Serverless- und Amazon Bedrock Claude-Modelle](https://aws.amazon.com/blogs/big-data/build-scalable-and-serverless-rag-workflows-with-a-vector-engine-for-amazon-opensearch-serverless-and-amazon-bedrock-claude-models/) (AWS Blogbeitrag).

Im Folgenden sind die Vorteile der Verwendung von OpenSearch Service für die Vektorsuche aufgeführt:
+ Es bietet die vollständige Kontrolle über die Vektordatenbank, einschließlich der Erstellung einer skalierbaren Vektorsuche mithilfe von OpenSearch Serverless.
+ Es bietet die Kontrolle über die Chunking-Strategie.
+ Es verwendet ANN-Algorithmen (Approximate Nearest Neighbor) aus den Bibliotheken [Non-Metric Space Library (NMSLIB)](https://github.com/nmslib/nmslib), [Faiss und [Apache Lucene](https://lucene.apache.org/)](https://github.com/facebookresearch/faiss), um eine k-NN-Suche durchzuführen. Sie können den Algorithmus je nach Anwendungsfall ändern. Weitere Informationen zu den Optionen für die Anpassung der Vektorsuche über OpenSearch Service finden Sie unter [Erläuterung der Funktionen der Amazon OpenSearch Service-Vektordatenbank](https://aws.amazon.com/blogs/big-data/amazon-opensearch-services-vector-database-capabilities-explained/) (AWS Blogbeitrag).
+ OpenSearch Serverless lässt sich als Vektorindex in die Wissensdatenbanken von Amazon Bedrock integrieren.

## Amazon Aurora PostgreSQL und pgvector
<a name="rag-custom-aurora"></a>

[Amazon Aurora PostgreSQL-Compatible Edition](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/Aurora.AuroraPostgreSQL.html) ist eine vollständig verwaltete relationale Datenbank-Engine, die Sie bei der Einrichtung, dem Betrieb und der Skalierung von PostgreSQL-Bereitstellungen unterstützt. [pgvector](https://github.com/pgvector/pgvector/) ist eine Open-Source-PostgreSQL-Erweiterung, die Funktionen zur Suche nach Vektorähnlichkeit bietet. Diese Erweiterung ist sowohl für Aurora PostgreSQL-kompatibel als auch für Amazon Relational Database Service (Amazon RDS) für PostgreSQL verfügbar. Weitere Informationen zum Aufbau eines RAG-basierten Systems, das Aurora PostgreSQL-kompatibel und pgvector verwendet, finden Sie in den folgenden Blogbeiträgen: AWS 
+ [Aufbau einer KI-gestützten Suche in PostgreSQL mit Amazon SageMaker AI und pgvector](https://aws.amazon.com/blogs/database/building-ai-powered-search-in-postgresql-using-amazon-sagemaker-and-pgvector/)
+ [Nutzen Sie pgvector und Amazon Aurora PostgreSQL für die Verarbeitung natürlicher Sprache, Chatbots und Stimmungsanalyse](https://aws.amazon.com/blogs/database/leverage-pgvector-and-amazon-aurora-postgresql-for-natural-language-processing-chatbots-and-sentiment-analysis/)

Im Folgenden sind die Vorteile der Verwendung von pgvector und Aurora PostgreSQL-kompatibel aufgeführt:
+ Es unterstützt die exakte und ungefähre Suche nach dem nächsten Nachbarn. Es unterstützt auch die folgenden Ähnlichkeitsmetriken: L2-Entfernung, inneres Produkt und Kosinusdistanz.
+ Es unterstützt die Indexierung [Inverted File with Flat Compression (IVFFlat)](https://github.com/pgvector/pgvector#ivfflat) und [Hierarchical Navigable Small Worlds](https://github.com/pgvector/pgvector#hnsw) (HNSW).
+ Sie können die Vektorsuche mit Abfragen über domänenspezifische Daten kombinieren, die in derselben PostgreSQL-Instanz verfügbar sind.
+ Aurora PostgreSQL-kompatibel ist für mehrstufiges Caching optimiert I/O und bietet dieses. [Bei Workloads, die den verfügbaren Instanzspeicher überschreiten, kann pgvector die Abfragen pro Sekunde für die Vektorsuche um das bis zu 8-fache erhöhen.](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/AuroraPostgreSQL.optimized.reads.html)

## Amazon Neptune Analytics
<a name="rag-custom-neptune"></a>

[Amazon Neptune Analytics](https://docs.aws.amazon.com/neptune-analytics/latest/userguide/what-is-neptune-analytics.html) ist eine speicheroptimierte Graphdatenbank-Engine für Analysen. Sie unterstützt eine Bibliothek mit optimierten Algorithmen für die Graphanalyse, Grafikabfragen mit niedriger Latenz und Vektorsuchfunktionen innerhalb von Graphendurchläufen. Es verfügt auch über eine integrierte Vektorähnlichkeitssuche. Es bietet einen Endpunkt, um ein Diagramm zu erstellen, Daten zu laden, Abfragen aufzurufen und eine Vektorähnlichkeitssuche durchzuführen. Weitere Informationen zum Erstellen eines RAG-basierten Systems, das Neptune Analytics verwendet, finden Sie unter [Verwenden von Wissensgraphen zur Erstellung von GraphRag-Anwendungen mit Amazon Bedrock und Amazon Neptune](https://aws.amazon.com/blogs/database/using-knowledge-graphs-to-build-graphrag-applications-with-amazon-bedrock-and-amazon-neptune/) (Blogbeitrag).AWS 

Im Folgenden sind die Vorteile der Verwendung von Neptune Analytics aufgeführt:
+ Sie können Einbettungen in Grafikabfragen speichern und durchsuchen.
+ Wenn Sie Neptune Analytics mit integrierenLangChain, unterstützt diese Architektur Graphabfragen in natürlicher Sprache.
+ Diese Architektur speichert große Graphdatensätze im Speicher.

## Amazon MemoryDB
<a name="rag-custom-memorydb"></a>

[Amazon MemoryDB](https://docs.aws.amazon.com/memorydb/latest/devguide/what-is-memorydb.html) ist ein langlebiger In-Memory-Datenbankservice, der ultraschnelle Leistung bietet. Alle Ihre Daten werden im Speicher gespeichert, der Lesevorgänge im Mikrosekundenbereich, Schreiblatenz im einstelligen Millisekundenbereich und hohen Durchsatz unterstützt. Die [Vektorsuche für MemoryDB erweitert die Funktionalität von MemoryDB](https://docs.aws.amazon.com/memorydb/latest/devguide/vector-search-overview.html) und kann in Verbindung mit vorhandenen MemoryDB-Funktionen verwendet werden. Weitere Informationen finden Sie unter [Fragen beantworten mit](https://github.com/aws-samples/rag-with-amazon-bedrock-and-memorydb/tree/main) LLM und RAG-Repository auf. GitHub

Das folgende Diagramm zeigt eine Beispielarchitektur, die MemoryDB als Vektordatenbank verwendet.



![\[Eine generative KI-Anwendung, die Kontext aus einer MemoryDB-Vektordatenbank abruft.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-memorydb.png)


Im Folgenden sind die Vorteile der Verwendung von MemoryDB aufgeführt:
+ Es unterstützt sowohl Flat- als auch HNSW-Indizierungsalgorithmen. Weitere Informationen finden Sie unter Die [Vektorsuche für Amazon MemoryDB ist jetzt allgemein im News-Blog verfügbar](https://aws.amazon.com/blogs/aws/vector-search-for-amazon-memorydb-is-now-generally-available/) AWS 
+ Es kann auch als Pufferspeicher für das Foundation-Modell dienen. Dies bedeutet, dass zuvor beantwortete Fragen aus dem Puffer abgerufen werden, anstatt den Abruf- und Generierungsprozess erneut zu durchlaufen. Das folgende Diagramm zeigt diesen Prozess.  
![\[Speichern einer Antwort in einer MemoryDB-Datenbank, sodass sie aus dem Pufferspeicher abgerufen werden kann.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/memorydb-fm-buffer.png)
+ Da sie eine In-Memory-Datenbank verwendet, bietet diese Architektur eine Abfragezeit im einstelligen Millisekundenbereich für die semantische Suche.
+ Sie ermöglicht bis zu 33.000 Abfragen pro Sekunde bei einem Erinnerungsvermögen von 95— 99% und 26.500 Abfragen pro Sekunde bei einem Wiedererkennungswert von mehr als 99% Weitere Informationen finden Sie im Video [AWS re:Invent 2023 — Vektorsuche mit extrem niedriger Latenz für Amazon MemoryDB](https://www.youtube.com/watch?v=AaMh3rdu-p0) auf. YouTube

## Amazon DocumentDB
<a name="rag-custom-docdb"></a>

[Amazon DocumentDB (mit MongoDB-Kompatibilität)](https://docs.aws.amazon.com/documentdb/latest/developerguide/what-is.html) ist ein schneller, zuverlässiger und vollständig verwalteter Datenbankservice. Er macht es einfach, MongoDB kompatible Datenbanken in der Cloud einzurichten, zu betreiben und zu skalieren. Die [Vektorsuche für Amazon DocumentDB](https://docs.aws.amazon.com/documentdb/latest/developerguide/vector-search.html) kombiniert die Flexibilität und die umfangreichen Abfragefunktionen einer JSON-basierten Dokumentendatenbank mit der Leistungsfähigkeit der Vektorsuche. Weitere Informationen finden Sie unter [Fragen beantworten mit dem LLM](https://github.com/aws-samples/rag-with-amazon-bedrock-and-documentdb/tree/main) - und RAG-Repository unter. GitHub

Das folgende Diagramm zeigt eine Beispielarchitektur, die Amazon DocumentDB als Vektordatenbank verwendet.



![\[Eine generative KI-Anwendung, die Kontext aus einer Amazon DocumentDB DocumentDB-Vektordatenbank abruft.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-documentdb.png)


Das Diagramm zeigt den folgenden Workflow:

1. Der Benutzer sendet eine Anfrage an die generative KI-Anwendung.

1. Die generative KI-Anwendung führt eine Ähnlichkeitssuche in der Amazon DocumentDB DocumentDB-Vektordatenbank durch und ruft die entsprechenden Dokumentauszüge ab.

1. Die generative KI-Anwendung aktualisiert die Benutzerabfrage mit dem abgerufenen Kontext und leitet die Aufforderung an das Ziel-Foundation-Modell weiter.

1. Das Foundation-Modell verwendet den Kontext, um eine Antwort auf die Frage des Benutzers zu generieren, und gibt die Antwort zurück.

1. Die generative KI-Anwendung gibt die Antwort an den Benutzer zurück.

Im Folgenden sind die Vorteile der Verwendung von Amazon DocumentDB aufgeführt:
+ Es unterstützt sowohl HNSW- als auch IVFFlat Indexierungsmethoden.
+ Es unterstützt bis zu 2.000 Dimensionen in den Vektordaten und unterstützt die Entfernungsmetriken Euklid, Kosinus und Punktprodukt.
+ Es bietet Reaktionszeiten im Millisekundenbereich.

## Pinecone
<a name="rag-custom-pinecone"></a>

[https://www.pinecone.io/](https://www.pinecone.io/)ist eine vollständig verwaltete Vektordatenbank, mit der Sie Produktionsanwendungen um Vektorsuche erweitern können. Sie ist über die verfügbar [AWS Marketplace](https://aws.amazon.com/marketplace/pp/prodview-xhgyscinlz4jk). Die Abrechnung basiert auf der Nutzung. Die Gebühren werden berechnet, indem der Pod-Preis mit der Pod-Anzahl multipliziert wird. Weitere Informationen zum Aufbau eines RAG-basierten Systems, das Folgendes verwendetPinecone, finden Sie in den folgenden AWS Blogbeiträgen:
+ [Reduzieren Sie Halluzinationen mithilfe von RAG mithilfe der Pinecone Vektordatenbank und Llama-2 von Amazon AI SageMaker JumpStart](https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/)
+ [Verwenden Sie Amazon SageMaker AI Studio, um mit Llama 2 eine RAG-Lösung zur Beantwortung von Fragen zu erstellen und schnell Pinecone zu experimentieren LangChain](https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-studio-to-build-a-rag-question-answering-solution-with-llama-2-langchain-and-pinecone-for-fast-experimentation/)

Das folgende Diagramm zeigt eine Beispielarchitektur, die Pinecone als Vektordatenbank verwendet wird.



![\[Eine generative KI-Anwendung, die Kontext aus einer Pinecone Vektordatenbank abruft.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-pinecone.png)


Das Diagramm zeigt den folgenden Workflow:

1. Der Benutzer sendet eine Anfrage an die generative KI-Anwendung.

1. Die generative KI-Anwendung führt eine Ähnlichkeitssuche in der Pinecone Vektordatenbank durch und ruft die entsprechenden Dokumentenauszüge ab.

1. Die generative KI-Anwendung aktualisiert die Benutzerabfrage mit dem abgerufenen Kontext und sendet die Aufforderung an das Ziel-Foundation-Modell.

1. Das Foundation-Modell verwendet den Kontext, um eine Antwort auf die Frage des Benutzers zu generieren, und gibt die Antwort zurück.

1. Die generative KI-Anwendung gibt die Antwort an den Benutzer zurück.

Im Folgenden sind die Vorteile der Verwendung von aufgeführtPinecone:
+ Es handelt sich um eine vollständig verwaltete Vektordatenbank, die Ihnen den Aufwand für die Verwaltung Ihrer eigenen Infrastruktur nimmt.
+ Sie bietet zusätzliche Funktionen wie Filterung, Live-Indexaktualisierungen und Keyword-Boosting (Hybridsuche).

## MongoDB Atlas
<a name="rag-custom-mongodb-atlas"></a>

[https://www.mongodb.com/lp/cloud/atlas/try4](https://www.mongodb.com/lp/cloud/atlas/try4)ist eine vollständig verwaltete Cloud-Datenbank, die die gesamte Komplexität der Bereitstellung und Verwaltung Ihrer Bereitstellungen bewältigt. AWS Sie können [Vector Search for](https://www.mongodb.com/products/platform/atlas-vector-search) verwendenMongoDB Atlas, um Vektor-Einbettungen in Ihrer Datenbank zu speichern. MongoDB Amazon Bedrock Knowledge Bases unterstützt MongoDB Atlas Vektorspeicher. Weitere Informationen finden [Sie in der MongoDB Dokumentation unter Erste Schritte mit der Amazon Bedrock Knowledge Base-Integration](https://www.mongodb.com/docs/atlas/atlas-vector-search/ai-integrations/amazon-bedrock/).

Weitere Informationen zur Verwendung der MongoDB Atlas Vektorsuche für RAG finden Sie unter [Retrieval-Augmented Generation withLangChain, Amazon SageMaker AI JumpStart und MongoDB Atlas Semantic Search](https://aws.amazon.com/blogs/machine-learning/retrieval-augmented-generation-with-langchain-amazon-sagemaker-jumpstart-and-mongodb-atlas-semantic-search/) (AWS Blogbeitrag). Das folgende Diagramm zeigt die Lösungsarchitektur, die in diesem Blogbeitrag detailliert beschrieben wird.



![\[Verwendung der MongoDB Atlas Vektorsuche zum Abrufen des Kontextes für eine RAG-basierte generative KI-Anwendung.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-mongodb-atlas.png)


Im Folgenden sind die Vorteile der Verwendung der MongoDB Atlas Vektorsuche aufgeführt:
+ Sie können Ihre bestehende Implementierung von verwendenMongoDB Atlas, um Vektoreinbettungen zu speichern und zu durchsuchen.
+ Sie können die [MongoDBAbfrage-API](https://www.mongodb.com/docs/manual/query-api/) verwenden, um die Vektoreinbettungen abzufragen.
+ Sie können die Vektorsuche und die Datenbank unabhängig voneinander skalieren.
+ Vektoreinbettungen werden in der Nähe der Quelldaten (Dokumente) gespeichert, was die Indizierungsleistung verbessert.

## Weaviate
<a name="rag-custom-weaviate"></a>

[https://weaviate.io/](https://weaviate.io/)ist eine beliebte Open-Source-Vektordatenbank mit niedriger Latenz, die multimodale Medientypen wie Text und Bilder unterstützt. In der Datenbank werden sowohl Objekte als auch Vektoren gespeichert, wodurch die Vektorsuche mit strukturierter Filterung kombiniert wird. Weitere Informationen zur Verwendung von Weaviate Amazon Bedrock zur Erstellung eines RAG-Workflows finden Sie unter [Erstellen unternehmensfähiger generativer KI-Lösungen mit Cohere Foundation-Modellen in Amazon Bedrock und Weaviate Vector Database auf AWS Marketplace](https://aws.amazon.com/blogs/machine-learning/build-enterprise-ready-generative-ai-solutions-with-cohere-foundation-models-in-amazon-bedrock-and-weaviate-vector-database-on-aws-marketplace/) (Blogbeitrag).AWS 

Im Folgenden sind die Vorteile der Verwendung von: Weaviate
+ Es ist Open Source und wird von einer starken Community unterstützt.
+ Es ist für die Hybridsuche (sowohl Vektoren als auch Schlüsselwörter) konzipiert.
+ Sie können es AWS als verwaltetes Software-as-a-Service (SaaS) -Angebot oder als Kubernetes-Cluster bereitstellen.

# Generatoren für RAG-Workflows
<a name="rag-custom-generators"></a>

[Große Sprachmodelle (LLMs)](https://aws.amazon.com/what-is/large-language-model/) sind sehr große [Deep-Learning-Modelle](https://aws.amazon.com/what-is/deep-learning/), die für riesige Datenmengen vorab trainiert wurden. Sie sind unglaublich flexibel. LLMs können vielfältige Aufgaben ausführen, z. B. Fragen beantworten, Dokumente zusammenfassen, Sprachen übersetzen und Sätze vervollständigen. Sie haben das Potenzial, die Erstellung von Inhalten und die Art und Weise, wie Menschen Suchmaschinen und virtuelle Assistenten verwenden, zu stören. Sie sind zwar nicht perfekt, LLMs weisen aber eine bemerkenswerte Fähigkeit auf, Vorhersagen auf der Grundlage einer relativ kleinen Aufforderung oder einer relativ geringen Anzahl von Eingaben zu treffen.

LLMs sind eine wichtige Komponente einer RAG-Lösung. Für benutzerdefinierte RAG-Architekturen gibt es zwei AWS-Services , die als Hauptoptionen dienen:
+ [Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html) ist ein vollständig verwalteter Service, der Ihnen LLMs von führenden KI-Unternehmen und Amazon über eine einheitliche API zur Verfügung steht.
+ [Amazon SageMaker AI JumpStart](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html) ist ein ML-Hub, der Basismodelle, integrierte Algorithmen und vorgefertigte ML-Lösungen bietet. Mit SageMaker KI JumpStart können Sie auf vortrainierte Modelle zugreifen, einschließlich Basismodelle. Sie können auch Ihre eigenen Daten verwenden, um die vortrainierten Modelle zu optimieren.

## Amazon Bedrock
<a name="rag-custom-generators-bedrock"></a>

Amazon Bedrock bietet branchenführende Modelle vonAnthropic,,Stability AI,Meta, Cohere AI21 LabsMistral AI, und Amazon. Eine vollständige Liste finden Sie unter [Unterstützte Foundation-Modelle in Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html). Mit Amazon Bedrock können Sie Modelle auch mit Ihren eigenen Daten anpassen.

Sie können [die Modellleistung bewerten](https://docs.aws.amazon.com/bedrock/latest/userguide/evaluation.html), um festzustellen, welche Modelle für Ihren RAG-Anwendungsfall am besten geeignet sind. Sie können die neuesten Modelle testen und auch testen, welche Funktionen und Funktionen die besten Ergebnisse liefern und das zum besten Preis. Das Anthropic Claude Sonnet-Modell wird häufig für RAG-Anwendungen verwendet, da es sich bei einer Vielzahl von Aufgaben hervorragend eignet und ein hohes Maß an Zuverlässigkeit und Vorhersagbarkeit bietet.

## SageMaker AI JumpStart
<a name="rag-custom-sm-jumpstart"></a>

SageMaker KI JumpStart bietet vortrainierte Open-Source-Modelle für eine Vielzahl von Problemtypen. Sie können diese Modelle vor der Bereitstellung schrittweise trainieren und optimieren. Sie können auf die vortrainierten Modelle, Lösungsvorlagen und Beispiele über die SageMaker JumpStart KI-Landingpage in [Amazon SageMaker AI Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated.html) zugreifen oder das [SageMaker AI Python SDK](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-use-python-sdk.html) verwenden.

SageMaker KI JumpStart bietet state-of-the-art Basismodelle für Anwendungsfälle wie das Schreiben von Inhalten, Codegenerierung, Beantwortung von Fragen, Verfassen von Texten, Zusammenfassung, Klassifizierung, Informationsabruf und mehr. Verwenden Sie JumpStart Basismodelle, um Ihre eigenen generativen KI-Lösungen zu erstellen und benutzerdefinierte Lösungen mit zusätzlichen SageMaker KI-Funktionen zu integrieren. Weitere Informationen finden Sie unter [Erste Schritte mit Amazon SageMaker AI JumpStart](https://aws.amazon.com/sagemaker/jumpstart/getting-started/).

SageMaker KI integriert JumpStart und verwaltet öffentlich verfügbare Basismodelle, auf die Sie zugreifen, sie anpassen und in Ihre ML-Lebenszyklen integrieren können. Weitere Informationen finden Sie unter [Öffentlich verfügbare Basismodelle.](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-latest.html#jumpstart-foundation-models-latest-publicly-available) SageMaker KI umfasst JumpStart auch proprietäre Basismodelle von Drittanbietern. Weitere Informationen finden Sie unter [Proprietäre Basismodelle](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-latest.html#jumpstart-foundation-models-latest-proprietary).