Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Automatisiertes Denken überprüft Konzepte
Auf dieser Seite werden die Bausteine von Automated Reasoning Checks beschrieben. Wenn Sie diese Konzepte verstehen, können Sie effektive Richtlinien erstellen, Testergebnisse interpretieren und Probleme beheben. Einen allgemeinen Überblick darüber, was Automated Reasoning Checks bewirken und wann sie eingesetzt werden sollten, finden Sie unter. Regeln
Richtlinien
Eine Richtlinie für automatisiertes Denken ist eine Ressource in Ihrem AWS-Konto, die eine Reihe formaler Logikregeln, ein Variablenschema und optionale benutzerdefinierte Typen enthält. Die Richtlinie kodiert die Geschäftsregeln, Vorschriften oder Richtlinien, anhand derer Sie LLM-Antworten validieren möchten.
Richtlinien werden anhand von Quelldokumenten — wie Personalhandbüchern, Compliance-Handbüchern oder Produktspezifikationen — erstellt, in denen die Regeln in natürlicher Sprache beschrieben werden. Wenn Sie eine Richtlinie erstellen, extrahieren automatische Argumentationsprüfungen die Regeln und Variablen aus Ihrem Dokument und übersetzen sie in eine formale Logik, die mathematisch verifiziert werden kann.
Die Beziehung zwischen Richtlinien, Leitplanken und Ihrer Anwendung ist wie folgt:
Source Document ──► Automated Reasoning Policy ──► Guardrail ──► Your Application (natural (rules + variables + (references (calls guardrail language) custom types) a policy APIs to validate version) LLM responses)
Hauptmerkmale von Richtlinien:
-
Jede Richtlinie wird durch einen Amazon-Ressourcennamen (ARN) identifiziert und ist in einer bestimmten AWS-Region vorhanden.
-
Richtlinien haben eine
DRAFTVersion (in der Konsole „Working Draft“ genannt), die Sie während der Entwicklung bearbeiten, und nummerierte unveränderliche Versionen, die Sie für die Bereitstellung erstellen. -
Eine Leitplanke kann auf die DRAFT-Richtlinie oder auf eine bestimmte nummerierte Version verweisen. Wenn Sie eine nummerierte Version verwenden, können Sie die aktualisieren,
DRAFTohne dass sich dies auf Ihre installierte Leitplanke auswirkt. -
Jede Police sollte sich auf einen bestimmten Bereich konzentrieren (z. B. Leistungen im Personalwesen, Kreditwürdigkeit, Regeln für Produktrückgaben), anstatt zu versuchen, mehrere Bereiche abzudecken, die nichts miteinander zu tun haben.
step-by-stepAnweisungen zur Erstellung einer Richtlinie finden Sie unter. Erstellen der Automated-Reasoning-Richtlinie
Fidelity-Bericht
In einem Fidelity-Bericht wird gemessen, wie genau eine extrahierte Richtlinie den Quelldokumenten entspricht, aus denen sie generiert wurde. Der Bericht wird automatisch generiert, wenn Sie eine Richtlinie aus einem Quelldokument erstellen. Er enthält zwei wichtige Werte sowie detaillierte Basisinformationen, die jede Regel und Variable mit bestimmten Aussagen in Ihrem Quellinhalt verknüpfen.
Der Zuverlässigkeitsbericht soll Experten ohne technische Kenntnisse dabei helfen, eine Richtlinie zu untersuchen und zu validieren, ohne die formale Logik verstehen zu müssen. In der Konsole wird auf der Registerkarte Quelldokument der Zuverlässigkeitsbericht als Tabelle mit nummerierten atomaren Aussagen angezeigt, die aus Ihrem Dokument extrahiert wurden. Dabei wird angegeben, welche Regeln und Variablen jede Aussage begründet. Sie können nach bestimmten Regeln oder Variablen filtern und nach Inhalten innerhalb der Aussagen suchen.
Der Treuebericht umfasst zwei Werte, die jeweils zwischen 0,0 und 1,0 liegen:
-
Deckungsgrad — Gibt an, wie gut die Police die Aussagen in den Quelldokumenten abdeckt. Ein höherer Wert bedeutet, dass ein größerer Teil des Quellinhalts in der Richtlinie enthalten ist.
-
Genauigkeitsbewertung — Gibt an, wie originalgetreu die Richtlinienregeln das Quellmaterial wiedergeben. Ein höherer Wert bedeutet, dass die extrahierten Regeln der Absicht des Originaldokuments besser entsprechen.
Neben den Gesamtwerten bietet der Zuverlässigkeitsbericht eine detaillierte Begründung für jede Regel und Variable in der Richtlinie:
-
Regelberichte — Für jede Regel identifiziert der Bericht die spezifischen Aussagen aus den Quelldokumenten, die die Regel belegen (Grundaussagen), erklärt, wie diese Aussagen die Regel rechtfertigen (Begründungsbegründungen), und liefert eine individuelle Genauigkeitsbewertung mit einer Begründung.
-
Variablenberichte — Für jede Variable identifiziert der Bericht die Quellaussagen, die die Variablendefinition unterstützen, erklärt die Begründung und liefert eine individuelle Genauigkeitsbewertung.
-
Dokumentenquellen — Die Quelldokumente sind in atomare Aussagen unterteilt, d. h. einzelne, unteilbare Fakten, die aus dem Text extrahiert werden. Der Inhalt des Dokuments ist mit Zeilennummern versehen, sodass Sie jede Regel und Variable bis zur exakten Position im Originaldokument zurückverfolgen können.
Regeln
Regeln sind der Kern einer Richtlinie für automatisiertes Denken. Jede Regel ist ein formaler Logikausdruck, der eine Beziehung zwischen Variablen erfasst. Regeln werden mithilfe einer Teilmenge der SMT-LIB-Syntax
Die meisten Regeln sollten einem Wenn-Dann-Format (implizit) folgen. Das bedeutet, dass Regeln eine Bedingung (den „Wenn“ -Teil) und eine Schlussfolgerung (den „Dann“ -Teil) haben sollten, die durch den Implikationsoperator miteinander verbunden sind. =>
Wohlgeformte Regeln (Wenn-Dann-Format):
;; If the employee is full-time AND has worked for more than 12 months, ;; then they are eligible for parental leave. (=> (and isFullTime (> tenureMonths 12)) eligibleForParentalLeave) ;; If the loan amount is greater than 500,000, then a co-signer is required. (=> (> loanAmount 500000) requiresCosigner)
Bloße Behauptungen (Regeln ohne Wenn-Dann-Struktur) erzeugen Axiome — Aussagen, die immer wahr sind. Dies ist nützlich, um Randbedingungen wie Kontensalden mit positiven Werten zu überprüfen, kann aber auch bestimmte Bedingungen logisch unmöglich machen und zu unerwarteten Ergebnissen bei der Validierung führen. IMPOSSIBLE Beispielsweise (= eligibleForParentalLeave true) bedeutet die bloße Behauptung, dass bei Prüfungen mit automatischem Denken die Tatsache berücksichtigt wird, dass der Nutzer Anspruch auf Elternurlaub hat. Jede Eingabe, die angibt, nicht berechtigt zu sein, würde zu einem Validierungsergebnis führen, IMPOSSIBLE weil sie diesem Axiom widerspricht.
;; GOOD: Useful to check impossible conditions such as ;; negative account balance (>= accountBalance 0) ;; BAD: This asserts eligibility as always true, regardless of conditions. eligibleForParentalLeave
Regeln unterstützen die folgenden logischen Operatoren:
| Operator | Bedeutung | Beispiel |
|---|---|---|
=> |
Implikation (wenn-dann) | (=> isFullTime eligibleForBenefits) |
and |
Logisches UND | (and isFullTime (> tenure 12)) |
or |
Logisches ODER | (or isVeteran isTeacher) |
not |
Logisch NICHT | (not isTerminated) |
= |
Gleichheit | (= employmentType FULL_TIME) |
>, <, >=, <= |
Vergleich | (>= creditScore 700) |
Bewährte Methoden zum Schreiben effektiver Regeln finden Sie unterBewährte Methoden für Richtlinien zur automatisierten Argumentation.
Variablen
Variablen stellen die Konzepte in Ihrer Domäne dar, die bei Prüfungen zum automatisierten Denken verwendet werden, um natürliche Sprache in formale Logik zu übersetzen und Regeln auszuwerten. Jede Variable hat einen Namen, einen Typ und eine Beschreibung.
Automatisierte Reasoning-Checks unterstützen die folgenden Variablentypen:
| Typ | Description | Beispiel |
|---|---|---|
bool |
True oder false | isFullTime— Ob der Mitarbeiter Vollzeit arbeitet |
int |
Ganze Zahl | tenureMonths— Anzahl der Monate, in denen der Mitarbeiter gearbeitet hat |
real |
Dezimalzahl | interestRate— Jährlicher Zinssatz als Dezimalzahl (0,05 bedeutet 5%) |
| Benutzerdefinierter Typ (Enum) | Ein Wert aus einer definierten Menge | leaveType— Einer der folgenden Werte: ELTERLICH, MEDIZINISCH, TRAUERFALL, PERSÖNLICH |
Die entscheidende Rolle von Variablenbeschreibungen
Variablenbeschreibungen sind der wichtigste Faktor für die Genauigkeit von Übersetzungen. Wenn automatische Argumentationsprüfungen natürliche Sprache in formale Logik übersetzen, wird anhand von Variablenbeschreibungen bestimmt, welche Variablen den im Text erwähnten Konzepten entsprechen. Vage oder unvollständige Beschreibungen führen zu TRANSLATION_AMBIGUOUS Ergebnissen oder falschen Variablenzuweisungen.
Beispiel: Wie sich Beschreibungen auf die Übersetzung auswirken
Stellen Sie sich vor, ein Benutzer fragt: „Ich arbeite hier seit 2 Jahren. Habe ich Anspruch auf Elternzeit?“
| Vage Beschreibung (wird wahrscheinlich fehlschlagen) | Ausführliche Beschreibung (wahrscheinlich erfolgreich) |
|---|---|
tenureMonths: „Wie lange der Mitarbeiter gearbeitet hat.“ |
tenureMonths: „Die Anzahl der vollen Monate, in denen der Mitarbeiter ununterbrochen beschäftigt war. Wenn Benutzer Dienstjahre angeben, rechnen Sie diese in Monate um (z. B. 2 Jahre = 24 Monate). Bei Neueinstellungen auf 0 setzen.“ |
Aufgrund der vagen Beschreibung wissen automatische Argumentationsprüfungen möglicherweise nicht, ob „2 Jahre“ in 24 Monate umgerechnet werden sollen, oder sie weisen die Variable möglicherweise gar nicht zu. Bei der ausführlichen Beschreibung ist die Übersetzung eindeutig.
Gute Variablenbeschreibungen sollten:
-
Erklären Sie im Klartext, wofür die Variable steht.
-
Geben Sie die Einheit und das Format an (z. B. „in Monaten“, „als Dezimalzahl, wobei 0,15 15% bedeutet“).
-
Geben Sie nicht offensichtliche Synonyme und alternative Formulierungen an, die Benutzer verwenden könnten (z. B. „Auf true setzen, wenn Benutzer angeben, Vollzeit zu arbeiten oder volle Stunden zu arbeiten“).
-
Beschreiben Sie die Randbedingungen (z. B. „Bei Neueinstellungen auf 0 setzen“).
Benutzerdefinierte Typen (Aufzählungen)
Benutzerdefinierte Typen definieren eine Reihe benannter Werte, die eine Variable annehmen kann. Sie entsprechen Aufzählungen (Enums) in Programmiersprachen. Verwenden Sie benutzerdefinierte Typen, wenn eine Variable eine Kategorie mit einem festen Satz möglicher Werte darstellt.
Beispiele:
| Geben Sie den Namen ein | Mögliche Werte | Anwendungsfall |
|---|---|---|
LeaveType |
ELTERLICH, MEDIZINISCH, TRAUERND, PERSÖNLICH | Kategorisieren Sie die Art des Urlaubs, den ein Mitarbeiter beantragt |
Severity |
KRITISCH, GROSS, UNBEDEUTEND | Klassifizieren Sie den Schweregrad eines Problems oder Vorfalls |
Wann sollten Enumerationen im Vergleich zu Booleschen Werten verwendet werden:
-
Verwenden Sie Aufzählungen, wenn sich die Werte gegenseitig ausschließen — eine Variable kann jeweils nur ein Wert sein.
leaveTypeKann beispielsweise PARENTAL oder MEDICAL sein, aber nicht beide gleichzeitig. -
Verwenden Sie separate boolesche Variablen, wenn Staaten nebeneinander existieren können. Beispielsweise kann eine Person sowohl ein Veteran als auch ein Lehrer sein. Die Verwendung einer Aufzählung
customerType = {VETERAN, TEACHER}würde eine Wahl zwischen ihnen erzwingen, was zu einem logischen Widerspruch führen würde, wenn beide zutreffen. Verwenden Sie stattdessen zwei boolesche Werte: und.isVeteranisTeacher
Tipp
Wenn es möglich ist, dass eine Variable keinen Wert aus der Enumeration hat, fügen Sie einen OTHER Oder-Wert hinzu. NONE Dadurch werden Übersetzungsprobleme vermieden, wenn die Eingabe keinem der definierten Werte entspricht.
Übersetzung: von der natürlichen Sprache zur formalen Logik
Übersetzung ist der Prozess, bei dem automatische Argumentationsprüfungen natürliche Sprache (Benutzerfragen und LLM-Antworten) in formale logische Ausdrücke umwandeln, die anhand Ihrer Richtlinienregeln mathematisch verifiziert werden können. Um Probleme zu beheben und effektive Richtlinien zu entwickeln, ist es wichtig, diesen Prozess zu verstehen.
Automatisierte Reasoning-Checks validieren Inhalte in zwei verschiedenen Schritten:
-
Translate — Automatisierte Argumentationsprüfungen verwenden Fundamentmodelle (LLMs), um die Eingabe in natürlicher Sprache in formale Logik zu übersetzen. In diesem Schritt werden die im Text enthaltenen Konzepte den Variablen Ihrer Richtlinie zugeordnet und die Beziehungen als logische Aussagen ausgedrückt. Da dieser Schritt verwendet LLMs, kann er Fehler enthalten. Automatisierte Argumentationsprüfungen verwenden mehrere LLMs , um den eingegebenen Text zu übersetzen, und verwendet dann die semantische Äquivalenz der redundanten Übersetzungen, um einen Konfidenzwert festzulegen. Die Qualität der Übersetzung hängt davon ab, wie gut Ihre Variablenbeschreibungen mit der in der Eingabe verwendeten Sprache übereinstimmen.
-
Validieren — Automatisierte Prüfungen zur Argumentation verwenden mathematische Techniken (mithilfe von SMT-Solvern), um zu überprüfen, ob die übersetzte Logik Ihren Richtlinienregeln entspricht. Dieser Schritt ist mathematisch fundiert — wenn die Übersetzung korrekt ist, ist das Validierungsergebnis konsistent.
Wichtig
Diese Unterscheidung in zwei Schritten ist entscheidend für das Debuggen. Wenn Sie sicher sind, dass die Regeln in der Richtlinie korrekt sind und ein Test fehlschlägt oder unerwartete Ergebnisse liefert, liegt das Problem höchstwahrscheinlich in Schritt 1 (Übersetzung) und nicht in Schritt 2 (Validierung) vor. Die mathematische Validierung ist solide, und wenn die Übersetzung die Bedeutung der Eingabe korrekt wiedergibt, ist das Validierungsergebnis korrekt. Konzentrieren Sie Ihre Debugging-Bemühungen darauf, die Variablenbeschreibungen zu verbessern und sicherzustellen, dass die Übersetzung den richtigen Variablen die richtigen Werte zuweist.
Beispiel: Übersetzung in Aktion
Bei einer Richtlinie mit den Variablen isFullTime (bool), tenureMonths (int) und eligibleForParentalLeave (bool) und der Eingabe:
-
Frage: „Ich bin ein Vollzeitangestellter und seit 18 Monaten hier. Kann ich Elternzeit nehmen?“
-
Antwort: „Ja, Sie haben Anspruch auf Elternzeit.“
Schritt 1 (Übersetzen) ergibt:
Premises: isFullTime = true, tenureMonths = 18 Claims: eligibleForParentalLeave = true
Schritt 2 (validieren) überprüft diese Zuweisungen anhand der Richtlinienregel (=> (and isFullTime (> tenureMonths 12)) eligibleForParentalLeave) und bestätigt, dass der Anspruch erfüllt istVALID.
Um die Genauigkeit der Übersetzungen zu verbessern:
-
Schreiben Sie detaillierte Variablenbeschreibungen, aus denen hervorgeht, wie sich Benutzer auf Konzepte in der Alltagssprache beziehen.
-
Entfernen Sie doppelte oder fast doppelte Variablen, die die Übersetzung verwirren könnten (z. B.
tenureMonthsund).monthsOfService -
Löschen Sie ungenutzte Variablen, auf die keine Regeln verweisen — sie machen den Übersetzungsprozess unübersichtlich.
-
Verwenden Sie question-and-answer Tests, um die Genauigkeit der Übersetzung anhand realistischer Benutzereingaben zu überprüfen. Weitere Informationen finden Sie unter Testen einer Automated-Reasoning-Richtlinie.
Ergebnisse und Validierungsergebnisse
Wenn automatisierte Argumentationsprüfungen Inhalte validieren, führt dies zu einer Reihe von Ergebnissen. Jedes Ergebnis stellt eine aus der Eingabe gewonnene Tatsachenaussage zusammen mit dem Überprüfungsergebnis, den verwendeten Variablenzuweisungen und den politischen Regeln dar, die diese Schlussfolgerung stützen. Das (aggregierte) Gesamtergebnis wird bestimmt, indem die Ergebnisse nach ihrem Schweregrad sortiert und das schlechteste Ergebnis ausgewählt wird. Die Reihenfolge des Schweregrads vom schlechtesten zum besten lautet:TRANSLATION_AMBIGUOUS,IMPOSSIBLE,INVALID,SATISFIABLE,VALID.
Struktur eines Befundes
Der Ergebnistyp bestimmt, welche Felder im Ergebnis enthalten sind. Referenz zu den ValidierungsergebnissenIn diesem Abschnitt finden Sie eine ausführliche Beschreibung der einzelnen Ergebnisarten. Die meisten Findingtypen haben jedoch ein gemeinsames translation Objekt, das die folgenden Komponenten enthält:
premises-
Aus der Eingabe extrahierter Kontext, Annahmen oder Bedingungen, die sich darauf auswirken, wie ein Anspruch bewertet werden sollte. Bei question-and-answer Formaten ist die Prämisse oft die Frage selbst. Antworten können auch Prämissen enthalten, die Einschränkungen festlegen. In „Ich bin ein Vollzeitbeschäftigter mit 18 Monaten Betriebszugehörigkeit“ sind die Prämissen beispielsweise
isFullTime = trueundtenureMonths = 18. claims-
Sachaussagen, die von Automated Reasoning auf ihre Richtigkeit hin überprüft werden. In einem question-and-answer Format ist die Behauptung in der Regel die Antwort. In „Ja, Sie haben Anspruch auf Elternzeit“ lautet der Antrag beispielsweise
eligibleForParentalLeave = true. confidence-
Ein Wert von 0,0 bis 1,0, der angibt, wie es bei bestimmten Automated Reasoning-Prüfungen um die Übersetzung von natürlicher Sprache in formale Logik geht. Höhere Werte bedeuten eine größere Sicherheit. Ein Konfidenzwert von 1,0 bedeutet, dass sich alle Übersetzungsmodelle auf dieselbe Interpretation geeinigt haben.
untranslatedPremises-
Verweise auf Teile des ursprünglichen Eingangstextes, die Prämissen entsprechen, aber nicht in formale Logik übersetzt werden konnten. Diese heben Teile der Eingaben hervor, die Automated Reasoning als relevant erkannt hat, die aber nicht den politischen Variablen zugeordnet werden konnten.
untranslatedClaims-
Verweise auf Teile des ursprünglichen Eingabetextes, die Behauptungen entsprechen, aber nicht in formale Logik übersetzt werden konnten. Ein
VALIDErgebnis deckt nur die übersetzten Ansprüche ab — nicht übersetzte Ansprüche werden nicht validiert.
Referenz zu den Validierungsergebnissen
Jeder Befund ist genau einer der folgenden Typen. Der Typ bestimmt die Bedeutung des Ergebnisses, die im Ergebnis verfügbaren Felder und die empfohlene Aktion für Ihre Anwendung. Alle Ergebnisarten, die ein translation Feld enthalten, enthalten auch ein logicWarning Feld, das vorhanden ist, wenn die Übersetzung logische Probleme enthält, die von den Richtlinienregeln unabhängig sind (z. B. Aussagen, die immer wahr oder immer falsch sind).
| Ergebnis | Felder suchen | Empfohlene Aktion |
|---|---|---|
VALID |
|
Bereitstellen der Antwort an den Benutzer. Sie dienen der Protokollierung supportingRules und dienen zu claimsTrueScenario Prüfungszwecken als mathematisch überprüfbarer Gültigkeitsnachweis. Suchen Sie untranslatedPremises untranslatedClaims nach Teilen der Eingabe, die nicht validiert wurden. |
INVALID |
|
Senden Sie die Antwort nicht zu. Verwenden Sie translation (um zu sehen, was behauptet wurde) und contradictingRules (um zu sehen, gegen welche Regeln verstoßen wurde), um die Antwort umzuschreiben oder zu blockieren. Übergeben Sie in einer Umschreibungsschleife die widersprüchlichen Regeln und falschen Behauptungen an das LLM, um eine korrigierte Antwort zu generieren. |
SATISFIABLE |
|
Vergleiche claimsTrueScenario und claimsFalseScenario identifiziere die fehlenden Bedingungen. Schreiben Sie die Antwort um, sodass sie die zusätzlichen Informationen enthält, die für die Erstellung erforderlich sindVALID, bitten Sie den Benutzer um Erläuterung der fehlenden Bedingungen oder geben Sie die Antwort mit dem Vorbehalt, dass sie unvollständig sein könnte. |
IMPOSSIBLE |
|
Prüfen Sie, ob die Eingabe widersprüchliche Aussagen enthält (z. B. „Ich arbeite in Vollzeit und auch in Teilzeit“). Wenn die Eingabe gültig ist, liegt der Widerspruch wahrscheinlich in Ihrer Richtlinie vor — überprüfen contradictingRules und überprüfen Sie den Qualitätsbericht. Siehe Beheben Sie Fehler und verfeinern Sie Ihre Richtlinie für automatisiertes Denken. |
TRANSLATION_AMBIGUOUS |
Enthält kein
|
Untersuchen Sieoptions, um die Meinungsverschiedenheit zu verstehen. Verbessern Sie die Variablenbeschreibungen, um Mehrdeutigkeiten zu vermeiden, führen Sie überlappende Variablen zusammen oder entfernen Sie sie, oder bitten Sie den Benutzer um Klarstellung. Sie können auch den Konfidenzschwellenwert anpassen — siehe. Vertrauensschwellen |
TOO_COMPLEX |
Enthält keine A |
Verkürzen Sie die Eingabe, indem Sie sie in kleinere Teile aufteilen, oder vereinfachen Sie die Vorgehensweise, indem Sie die Anzahl der Variablen reduzieren, und vermeiden Sie komplexe Arithmetik (z. B. Exponenten oder irrationale Zahlen). Sie können Ihre Richtlinie in kleinere, zielgerichtetere Richtlinien aufteilen. |
NO_TRANSLATIONS |
Enthält keine A |
Ein NO_TRANSLATIONS Ergebnis wird immer dann in die Ausgabe aufgenommen, wenn eines der anderen Ergebnisse Prämissen oder Behauptungen enthält, die nicht übersetzt wurden. Sehen Sie sich die anderen Ergebnisse an, um festzustellen, welche Teile der Eingabe nicht übersetzt wurden. Wenn der Inhalt relevant sein sollte, fügen Sie Ihrer Richtlinie Variablen hinzu, um die fehlenden Konzepte zu erfassen. Wenn der Inhalt nicht zum Thema gehört, sollten Sie in Erwägung ziehen, ihn mithilfe von Themenrichtlinien zu filtern, bevor er die automatische Argumentationsprüfung erreicht. |
Anmerkung
Ein VALID Ergebnis deckt nur die Teile des Inputs ab, die anhand von politischen Variablen in den übersetzten Prämissen und Behauptungen erfasst wurden. Aussagen, die nicht in den Geltungsbereich der Variablen Ihrer Police fallen, werden nicht validiert. Beispielsweise könnte „Ich kann meine Hausaufgaben zu spät einreichen, weil ich ein falsches ärztliches Attest habe“ als gültig erachtet werden, wenn die Richtlinie keine Variable enthält, mit der erfasst werden kann, ob das Attest gefälscht ist. Automatisierte Argumentationsprüfungen werden wahrscheinlich auch „gefälschte ärztliche Bescheinigungen“ als unübersetzte Prämisse in ihre Feststellung mit einbeziehen. Behandeln Sie unübersetzte Inhalte und NO_TRANSLATIONS Ergebnisse als Warnsignal.
Vertrauensschwellen
Automatisierte Argumentationsprüfungen verwenden mehrere Basismodelle, um natürliche Sprache in formale Logik zu übersetzen. Jedes Modell erstellt unabhängig seine eigene Übersetzung. Der Konfidenzwert gibt den Grad der Übereinstimmung zwischen diesen Übersetzungen an — insbesondere den Prozentsatz der Modelle, die semantisch äquivalente Interpretationen lieferten.
Der Konfidenzschwellenwert ist ein von Ihnen festgelegter Wert (von 0,0 bis 1,0), der das Mindestmaß an Übereinstimmung bestimmt, das erforderlich ist, damit eine Übersetzung als zuverlässig genug angesehen wird, um validiert zu werden. Er steuert den Kompromiss zwischen Reichweite und Genauigkeit:
-
Höherer Schwellenwert (z. B. 0,9): Erfordert eine starke Übereinstimmung zwischen den Übersetzungsmodellen. Führt zu weniger Ergebnissen, aber mit höherer Genauigkeit. Mehr Eingaben werden als
TRANSLATION_AMBIGUOUSgekennzeichnet. -
Niedrigerer Schwellenwert (z. B. 0,5): Akzeptiert Übersetzungen mit geringerer Zustimmung. Führt zu mehr Ergebnissen, aber mit einem höheren Risiko falscher Übersetzungen. Weniger Eingaben werden als
TRANSLATION_AMBIGUOUSgekennzeichnet.
So funktioniert der Schwellenwert:
-
Mehrere Basismodelle übersetzen die Eingabe jeweils unabhängig voneinander.
-
Übersetzungen, die durch einen Prozentsatz von Modellen gestützt werden, der dem Schwellenwert entspricht oder darüber liegt, werden zu Ergebnissen mit hoher Zuverlässigkeit und einem definitiven Ergebnis (
VALIDINVALID, usw.). -
Wenn eine oder mehrere Übersetzungen unter den Schwellenwert fallen, wird bei der Prüfung mit automatisierter Argumentation ein zusätzliches
TRANSLATION_AMBIGUOUSErgebnis ermittelt. Dieses Ergebnis enthält Einzelheiten zu den Unstimmigkeiten zwischen den Modellen, anhand derer Sie Ihre Variablenbeschreibungen verbessern oder den Benutzer um Klarstellung bitten können.
Tipp
Beginnen Sie mit dem Standardschwellenwert und passen Sie ihn anhand Ihrer Testergebnisse an. Wenn Sie zu viele TRANSLATION_AMBIGUOUS Ergebnisse für Eingaben sehen, die eindeutig sein sollten, konzentrieren Sie sich darauf, Ihre Variablenbeschreibungen zu verbessern, anstatt den Schwellenwert zu senken. Eine Senkung des Schwellenwerts kann zwar zu einer Verringerung der TRANSLATION_AMBIGUOUS Ergebnisse führen, erhöht jedoch das Risiko falscher Validierungen.