

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Comprendre l'algorithme ML utilisé par Amazon Quick Sight
<a name="concept-of-ml-algorithms"></a>


|  | 
| --- |
|  Vous n'avez pas besoin d'expérience technique en apprentissage automatique pour utiliser les fonctionnalités basées sur le ML d'Amazon Quick Sight. Cette section plonge dans les aspects techniques de l’algorithme, pour ceux qui souhaitent connaître son fonctionnement de façon détaillée. Il n’est pas nécessaire de lire ces informations pour utiliser les fonctionnalités.   | 

Amazon Quick Sight utilise une version intégrée de l'algorithme Random Cut Forest (RCF). Les sections suivantes expliquent ce que cela signifie et comment il est utilisé dans Amazon Quick Sight.

Tout d’abord, nous allons examiner la terminologie utilisée : 
+ Anomalie – Élément qui se caractérise par sa différence avec la majorité des autres éléments dans le même échantillon. Également qualifié de cas particulier, d’exception, d’écart, etc.
+ Point de données – Une unité discrète – ou plus simplement, une ligne – dans un jeu de données. Toutefois, une ligne peut comporter plusieurs points de données si vous utilisez une mesure sur différentes dimensions.
+ Arbre de décision – Manière de visualiser le processus de prise de décision de l’algorithme qui évalue des modèles dans les données.
+ Prévisions – Prédiction des comportements futurs en fonction des comportements actuels et passés.
+ Modèle – Représentation mathématique de l’algorithme ou de ce que l’algorithme apprend.
+ Saisonnalité – Comportements récurrents qui se produisent cycliquement dans des données de séries temporelles.
+ Série chronologique – Ensemble classé de données de date ou d’heure dans un champ ou une colonne.

**Topics**
+ [Quelle est la différence entre la détection des anomalies et les prévisions ?](difference-between-anomaly-detection-and-forecasting.md)
+ [Qu’est-ce que RCF ?](what-is-random-cut-forest.md)
+ [Comment l’algorithme RCF est appliqué à la détection des anomalies](how-does-rcf-detect-anomalies.md)
+ [Comment l’algorithme RCF est appliqué pour générer des prévisions](how-does-rcf-generate-forecasts.md)
+ [Références pour le machine learning et le RCF](learn-more-about-machine-learning-and-rcf.md)

# Quelle est la différence entre la détection des anomalies et les prévisions ?
<a name="difference-between-anomaly-detection-and-forecasting"></a>

La détection d’anomalies identifie les cas particuliers et les facteurs qui y contribuent pour répondre à la question « Que s’est-il passé, qui ne se passe pas habituellement ? » Les prévisions répondent à la question « Si tout continue à se passer comme prévu, que se passera-t-il à l’avenir ? » Le calcul qui permet les prévisions permet également de demander « Si certains éléments changent, qu’arrive-t-il ensuite ? » 

La détection des anomalies et les prévisions commencent toutes deux par l’examen des points de données connus actuels. La détection des anomalies par Amazon Quick Sight commence par ce qui est connu afin d'établir ce qui ne fait pas partie de l'ensemble connu et d'identifier ces points de données comme anormaux (valeurs aberrantes). Les prévisions d'Amazon Quick Sight excluent les points de données anormaux et s'en tiennent au schéma connu. Les prévisions se concentrent sur le modèle établi de distribution des données. En revanche, la détection des anomalies se concentre sur les points de données qui s’écartent de ce qui est attendu. Chaque méthode aborde la prise de décision d’un point de vue différent. 

# Qu’est-ce que RCF ?
<a name="what-is-random-cut-forest"></a>

Un algorithme *random cut forest* (RCF) est un type particulier d’algorithme appelé *forêt aléatoire* (RF), une technique largement utilisée et extrêmement efficace dans le domaine de machine learning. Cette méthode prend un ensemble de points de données aléatoires, les réduit au même nombre de points, puis crée un ensemble de modèles. En revanche, un modèle correspond à un arbre de décision, d’où le nom de forêt. Comme elles ne RFs peuvent pas être facilement mises à jour de manière incrémentielle, nous RCFs avons inventé des variables dans la construction arborescente conçues pour permettre des mises à jour incrémentielles. 

En tant qu’algorithme non supervisé, l’algorithme RCF utilise l’analyse de cluster pour détecter les pics dans les données de séries temporelles, les ruptures de périodicité ou de saisonnalité, et les points de données inclassables. Les RCF (random cut forests) peuvent fonctionner comme une synthèse ou un schéma d’un flux de données dynamique (ou d’une séquence de nombres temporellement indexée). Les réponses à nos questions sur le flux proviennent de cette synthèse. Les caractéristiques suivantes adressent le flux et comment nous faisons des connexions avec la détection d’anomalies et les prévisions :
+ Un *algorithme de streaming *est un algorithme en ligne qui nécessite peu d’espace mémoire. Un algorithme en ligne prend sa décision sur le point d’entrée indexé par le temps **t** avant de voir le point **(t\$11) -**st. La faible mémoire permet des algorithmes légers qui peuvent produire des réponses avec une faible latence et permettre à un d’interagir avec les données.
+ Respecter l’ordre imposé par le temps, comme dans un algorithme *en ligne*, est nécessaire pour la détection et la prévision des anomalies. Si nous savons déjà ce qui se passera après-demain, prédire ce qui se passera demain n’est pas une prévision, il s’agit simplement d’interpoler une valeur manquante inconnue. De même, un nouveau produit introduit aujourd’hui peut être une anomalie, mais il ne le restera pas nécessairement à la fin du trimestre suivant. 

# Comment l’algorithme RCF est appliqué à la détection des anomalies
<a name="how-does-rcf-detect-anomalies"></a>

Un humain peut facilement distinguer un point de données qui se distingue du reste des données. RCF fait de même en construisant une « forêt » d’arbres décisionnels, puis en effectuant le suivi de la façon dont les nouveaux points de données modifient la forêt. 

Une *anomalie* est un point de données qui attire votre attention parmi les points normaux. Imaginez une fleur rouge dans un champ de fleurs jaunes. Ce « déplacement de l’attention » est codé dans la position (attendue) d’un arbre (c’est-à-dire, un modèle dans RCF) qui serait occupé par le point d’entrée. L’idée est de créer une forêt où chaque arbre de décision se développe à partir d’une partition des données échantillonnées pour former l’algorithme. En termes plus techniques, chaque arbre crée un type spécifique d’arbre de partitionnement d’espace binaire sur les échantillons. Au fur et à mesure qu'Amazon Quick Sight échantillonne les données, RCF attribue un score d'anomalie à chaque point de données. Des valeurs élevées indiquent que le point de données est considéré comme anormal. Le score est, approximativement, inversement proportionnel à la profondeur résultante du point dans l’arborescence. L’algorithme Random Cut Forest attribue une valeur d’anomalie en calculant la valeur moyenne de chaque arbre constitutif et en dimensionnant le résultat par rapport à la taille de l’échantillon. 

Les votes ou scores des différents modèles sont regroupés, parce que chacun des modèles en soi est un prédicteur faible. Amazon Quick Sight identifie un point de données comme anormal lorsque son score est significativement différent des points récents. Ce qui est considéré comme une anomalie dépend de l’application. 

Le document [Random Cut Forest Based Anomaly Detection On Streams](http://proceedings.mlr.press/v48/guha16.pdf) fournit de nombreux exemples de cette détection d'anomalies state-of-the-art en ligne (détection d'anomalies en série chronologique). RCFssont utilisés sur des segments contigus ou « bardeaux » de données, où les données du segment immédiat servent de contexte au segment le plus récent. Les versions précédentes des algorithmes de détection des anomalies basés sur un RCF évaluent un shingle entier. L'algorithme d'Amazon Quick Sight fournit également une localisation approximative de l'anomalie dans le contexte étendu actuel. Cet emplacement approximatif peut être utile dans les cas d’un retard dans la détection de l’anomalie. Les retards se produisent parce que tous les algorithmes doivent caractériser les « écarts vus au préalable » en « écarts anormaux », qui peuvent se dérouler sur un certain temps. 

# Comment l’algorithme RCF est appliqué pour générer des prévisions
<a name="how-does-rcf-generate-forecasts"></a>

Pour prévoir la valeur suivante dans une séquence de temps stationnaire, l’algorithme RCF répond à la question « Quelle serait la fin la plus probable, dès que l’on dispose d’une valeur candidate ? » Il utilise un seul arbre dans RCF pour effectuer une recherche de la meilleure candidate. Les candidates dans les différents arbres sont regroupées, car chaque arbre est en soi un faible prédicteur. Le regroupement permet également de générer des erreurs de quantile. Ce processus est répété **t** fois pour prédire la **t**ème valeur dans le futur. 

L'algorithme d'Amazon Quick Sight s'appelle *BIFOCAL*. Il en utilise deux RCFs pour créer une FOrest architecture CALibrated BI. Le premier RCF est utilisé pour filtrer les anomalies et fournir une faible prévision, qui est corrigée par le second. Dans l’ensemble, cette approche fournit des prévisions beaucoup plus robustes que d’autres algorithmes largement disponibles tels qu’ETS. 

Le nombre de paramètres de l'algorithme de prévision Amazon Quick Sight est nettement inférieur à celui des autres algorithmes largement disponibles. Il peut être ainsi utile dès le départ, sans ajustement humain pour un plus grand nombre de points de données en séries chronologiques. À mesure que de plus en plus de données s'accumulent dans une série chronologique donnée, les prévisions d'Amazon Quick Sight peuvent s'adapter aux dérives des données et aux changements de modèle. Pour les séries chronologiques qui affichent les tendances, la détection des tendances est d’abord effectuée pour rendre la série stationnaire. La prévision de cette séquence stationnaire est projetée avec la tendance. 

Étant donné que l’algorithme s’appuie sur un algorithme en ligne efficace (RCF), il peut prendre en charge les requêtes interactives de type « hypothétiques ». Dans ces dernières, certaines prévisions peuvent être modifiées et traitées comme des hypothèses pour fournir des prévisions conditionnelles. Il s’agit de l’origine de la possibilité d’explorer des scénarios « hypothétiques » pendant l’analyse. 

# Références pour le machine learning et le RCF
<a name="learn-more-about-machine-learning-and-rcf"></a>

Pour en savoir plus sur le machine learning et cet algorithme, nous vous conseillons de consulter les ressources suivantes :
+ L’article [Robust Random Cut Forest (RRCF): A No Math Explanation](https://www.linkedin.com/pulse/robust-random-cut-forest-rrcf-math-explanation-logan-wilt/) fournit une explication claire sans équations mathématiques. 
+ Le livre [*The Elements of Statistical Learning: Data Mining, Inference, and Prediction*, Second Edition (Springer Series in Statistics)](https://www.amazon.com/Elements-Statistical-Learning-Prediction-Statistics/dp/0387848576) fournit une base solide sur le machine learning. 
+ [http://proceedings.mlr.press/v48/guha16.pdf](http://proceedings.mlr.press/v48/guha16.pdf), un article scientifique qui explore les deux aspects techniques de la détection d’anomalies et des prévisions, avec des exemples. 

Une approche différente du RCF apparaît dans d'autres AWS services. Si vous souhaitez explorer la façon dont RCF est utilisé dans d’autres services, consultez les ressources suivantes :
+ *Service géré Amazon pour Apache Flink Référence SQL :* [https://docs.aws.amazon.com/kinesisanalytics/latest/sqlref/sqlrf-random-cut-forest-with-explanation.html](https://docs.aws.amazon.com/kinesisanalytics/latest/sqlref/sqlrf-random-cut-forest-with-explanation.html)
+ *Guide SageMaker du développeur Amazon :* [Algorithme Random Cut Forest (RCF)](https://docs.aws.amazon.com/sagemaker/latest/dg/randomcutforest.html). Cette approche est également expliquée dans [The Random Cut Forest Algorithme](https://freecontent.manning.com/the-randomcutforest-algorithm/), un chapitre de [Machine Learning for Business](https://www.amazon.com/Machine-Learning-Business-Doug-Hudgeon/dp/1617295833/ref=sr_1_3) (octobre 2018). 