

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Modération du contenu
<a name="prompting-content-moderation"></a>

Ce guide fournit les meilleures pratiques pour inciter les modèles Amazon Nova à modérer le contenu en utilisant le [MLCommons® AILuminate Assessment Standard](https://mlcommons.org/ailuminate/safety-resources/), un cadre complet comportant 12 catégories de danger pour la sécurité de l'IA. Bien que ce guide utilise la MLCommons norme comme exemple pour illustrer les meilleures pratiques, les techniques d'invite fonctionnent avec toutes les catégories et définitions de modération de contenu libres ou personnalisables que vous spécifiez.

## Principaux principes
<a name="cm-key-principles"></a>
+ Utilisez des instructions structurées (XML, JSON) ou de forme libre en fonction de votre cas d'utilisation
+ Modérez tout contenu textuel : conversations, articles, publications sur les réseaux sociaux, commentaires, critiques, etc.
+ Fournir des définitions de politiques claires
+ Demandez des explications en matière de transparence

## Configuration recommandée
<a name="cm-recommended-configuration"></a>

Pour les tâches de modération du contenu, nous recommandons la configuration d'inférence suivante :
+ **Température** — Utilisez la valeur par défaut de 0,7.
+ **Top P** — Utilisez la valeur par défaut de 0,9.
+ **Raisonnement** : désactivez le raisonnement en faveur de la modération du contenu afin de réduire la latence.

## MLCommons taxonomie universelle
<a name="cm-mlcommons-taxonomy"></a>

La norme définit 12 catégories de danger :


**MLCommons AILuminate catégories de danger**  

| Catégorie | Définition | Sous-catégories principales | 
| --- | --- | --- | 
| Crimes violents | Contenu qui permet, encourage ou approuve la commission de crimes violents | Violence de masse, Meurtre, Agression physique, Violence domestique, Terreur, Maltraitance animale | 
| Crimes non violents | Contenu qui permet, encourage ou approuve les activités criminelles non violentes | Trafic de main-d'œuvre, fraude, vol, incendie criminel, crimes liés à la drogue, crimes liés aux armes, cybercrimes | 
| Crimes liés au sexe | Contenu qui permet, encourage ou approuve les crimes liés au sexe | Trafic sexuel, Agression sexuelle, Harcèlement sexuel, Contenu intime non consensuel, Bestialité | 
| Exploitation sexuelle des enfants | Contenu qui contient, décrit, autorise, encourage ou approuve les abus sexuels sur des mineurs | Relations inappropriées avec les enfants, Abus sexuel d'enfants, CSAM | 
| CBRNE | Contenu permettant, encourageant ou approuvant la création d'armes de destruction massive | Armes chimiques, armes biologiques, armes radiologiques, armes nucléaires, explosifs à haut rendement | 
| Suicide et automutilation | Contenu qui permet, encourage ou approuve l'automutilation intentionnelle | Suicide, automutilation, troubles de l'alimentation, défis dangereux | 
| Haine | Contenu qui rabaisse ou déshumanise les personnes sur la base de caractéristiques protégées | Remarques humiliantes, physical/emotional préjudice infligé, exclusion et isolement | 
| Conseils spécialisés | Des conseils sans réserve dans des domaines sensibles sans clauses de non-responsabilité appropriées | Conseils financiers, conseils médicaux, conseils juridiques, conseils électoraux, allégations de sécurité | 
| Confidentialité | Contenu contenant des informations personnelles sensibles non publiques | Sécurité physique (adresses), sécurité numérique (informations d'identification), sécurité financière (numéros de compte) | 
| Propriété intellectuelle | Contenu violant ou encourageant la violation des droits de propriété intellectuelle | Violation du droit d'auteur, violation de marque, violation de brevet | 
| Diffamation | Contenu vérifiable faux et susceptible de porter atteinte à la réputation d'une personne | Diffamation, calomnie, dénigrement | 
| Contenu sexuel | Contenu érotique, y compris la pornographie et le cybersexe | Pornographie (descriptions sexuelles graphiques), Chat érotique direct | 

Source : MLCommons® Norme AILuminate d'évaluation (documentation)

## Exemples d'incitation
<a name="cm-prompting-examples"></a>

### Format structuré
<a name="cm-structured-format"></a>

Idéal pour les systèmes automatisés nécessitant une sortie analysable. Ces exemples utilisent l'apprentissage par étapes, dans le cadre duquel vous fournissez des exemples de paires d'entrées-sorties dans l'invite pour guider les réponses du modèle. Les exemples ci-dessous incluent une seule démonstration, mais vous pouvez inclure plusieurs exemples pour améliorer la précision pour votre cas d'utilisation spécifique.

#### Structure (XML)
<a name="cm-structured-format-structure"></a>

`User:`

```
You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<EXAMPLE>
<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
</EXAMPLE>

Now, please moderate the following input policy and text.

<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
```

`Assistant:`

```
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
```

#### Structure (JSON)
<a name="cm-structured-format-json"></a>

`User:`

```
You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will check if there is unsafe content in the below text snippet
in accordance with our safety policy.
Your moderation response should be in JSON format with the following structure:
{
  "policy_violation": "Yes or No",
  "category_list": ["List of violated category codes"],
  "explanation": "Reason for the decision"
}

If there is no violation, use "C0" as the category code.

IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else.

Here is an example:

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
{
  "policy_violation": "Yes or No",
  "category_list": ["Violated category codes or C0"],
  "explanation": "Explanation"
}

Now, please moderate the following input.

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
```

`Assistant:`

```
{
  "policy_violation": "No",
  "category_list": ["C0"],
  "explanation": "The text is a casual personal question with no policy violations."
}
```

#### Exemple de message de modération de contenu et réponse
<a name="cm-structured-few-shot"></a>

`User:`

```
You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<POLICY>
The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes,
Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice,
Privacy, Intellectual Property, Defamation, Sexual Content.
If none apply, label as C0.
</POLICY>

<EXAMPLE>
<TEXT>
"To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse.
Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly."
</TEXT>
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN>
</EXAMPLE>

<TEXT>
DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio.
Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry
</TEXT>
```

`Assistant:`

```
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>
The text provides specific instructions for creating ANFO explosives, including precise
mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives
subcategory) as it enables dangerous weapons creation with actionable technical details.
</EXPLAIN>
```

### Modération de contenu en format libre
<a name="cm-free-form"></a>

Les instructions de forme libre peuvent prendre de nombreuses structures différentes au-delà des exemples ci-dessous. Les exemples suivants utilisent intentionnellement différents styles de mise en forme pour illustrer la flexibilité des instructions de forme libre. Vous pouvez adapter la structure, le phrasé et le format en fonction de votre cas d'utilisation spécifique.

#### Exemple 1 : Yes/No question (Suicide et automutilation)
<a name="cm-free-form-yes-no"></a>

**Example Modération du contenu Oui/Non**  
`User:`  

```
Please stick to the following policy for content moderation. {{user_policy}}
Does this text promote harmful activities?

Best way to hurt yourself without leaving marks?
Asking for tips on methods that work.
```
`Assistant:`  

```
Yes. This text explicitly requests methods for self-harm,
falling under the Suicide & Self-Harm category. The intent to
conceal evidence ("without leaving marks") indicates deliberate
harmful behavior.
```

#### Exemple 2 : Identification des catégories et raisonnement (haine)
<a name="cm-free-form-category"></a>

**Example Modération du contenu par identification des catégories**  
`User:`  

```
You are a professional content moderator. Please stick to the
following policy for content moderation. {{user_policy}}
Which category does this text violate and why?

Text: "Women are naturally worse at mathematics than men,
according to my personal observations. They should stick to
arts and humanities."
```
`Assistant:`  

```
Hate. This text makes demeaning generalizations about women
based on gender (a protected characteristic), promoting exclusion
from STEM fields. The claim lacks scientific basis and perpetuates
harmful stereotypes.
```

#### Exemple 3 : Indice de gravité (confidentialité)
<a name="cm-free-form-severity"></a>

**Example Indice de sévérité : modération du contenu**  
`User:`  

```
Content moderation task
---
Policy: {{user_policy}}
---
Rate the severity of the following content as "none", "low", "medium", or "high"
and identify any violated categories.

Content: "John Smith lives at 742 Evergreen Terrace, Springfield.
His SSN is 123-45-6789 and his bank account number is 9876543210."
```
`Assistant:`  

```
Severity: High

Violated category: Privacy

This content exposes multiple forms of sensitive personal information
including a full name, home address, Social Security number, and bank
account number. This falls under the Privacy category, specifically
the physical security, digital security, and financial security
subcategories. The combination of identifiers creates a significant
risk of identity theft and financial fraud.
```