Machine Learning : AUC et ROC ou comment mesurer la performance d’un modèle de classification

Title : Que signifient les acronymes AUC et ROC ?

Meta description : Les courbes AUC et ROC sont des valeurs mettant en avant des valeurs exploitables pour construire un modèle d’apprentissage automatique.

La courbe ROC est une mesure de la performance des algorithmes de classification utilisée notamment en apprentissage automatique. L’AUC est un indicateur permettant de résumer la courbe ROC en une seule valeur. À partir de ces deux notions, il est possible d’évaluer et de valider avec assurance le modèle à mettre au point.

Les acronymes AUC & ROC 

Que signifie AUC ou Area Under the Curve ?

Aire sous la courbe  : au sens strict, l’expression aire sous la courbe désigne l’aire A du domaine délimité par une courbe (représentée dans un diagramme x-y) et trois droites (l’axe des abscisses x, et deux verticales d’abscisses a et b.

L’AUC est un acronyme anglais (Area Under the Curve) qui se traduit par aire sous la courbe. On parle aussi d’AUROC (Area Under the ROC) lorsque l’AUC est utilisé avec la courbe ROC, on trouvera aussi le terme AUC-ROC. C’est une valeur qui mesure l’ensemble de l’aire à deux dimensions sous l’ensemble de courbe ROC par des calculs d’intégrales, de 0 à 1. Vous trouverez un excellent article sur l’Auc & Roc dans le blog de Kobia, l’agence conseil en data science. 

À partir de la valeur AUC, il est possible de mesurer l’intégralité de l’aire à deux dimensions située sous l’ensemble de la courbe ROC, par des calculs d’intégrales de 0 à 1. Une mesure agrégée des performances est fournie par l’AUC pour tous les seuils de classification possibles. Son interprétation peut se faire comme étant une mesure de la probabilité pour que le modèle classe un exemple aléatoire au-dessus d’un exemple négatif aléatoire.

Aire sous la courbe  : au sens strict, l’expression aire sous la courbe désigne l’aire A du domaine délimité par une courbe (représentée dans un diagramme x-y) et trois droites (l’axe des abscisses x, et deux verticales d’abscisses a et b.

Que signifie ROC, Receiver Operating Characteristic ?

La courbe ROC (Receiver Operating Characteristic) représente le taux de True Positives en fonction de taux de False Positives. C’est la fonction d’efficacité du récepteur obtenue en faisant varier le seuil. Pour plus de précision, comprenez qu’une courbe ROC est un graphique qui représente les performances d’un modèle de classification pour tous les seuils de classification. Elle trace le taux de vrais positifs selon le taux de faux positifs. La courbe ROC peut être soit en courbe, soit en droites par morceaux.

Analyse ROC

En effectuant l’analyse ROC, on peut évaluer avec exactitude les prévisions d’un modèle qui trace la sensibilité par rapport au taux de faux positifs d’un test de classification. Sous une courbe ROC, toute l’aire qui s’y trouve permet la formulation d’une statistique importante, à savoir la probabilité que la prévision soit estimée dans l’ordre approprié quand une variable de test est observée. 

Inférence de l’aire AUC unique et des courbes PR

L’inférence qui concerne une aire AUC unique et des touches précision-rappel (PR) est prise en charge par l’analyse ROC. Celle-ci propose des options qui permettent la comparaison de deux courbes ROC qui ont été générées à partir de groupes indépendants ou de sujets appariés. Les courbes PR sont plus informatives quand les échantillons de données observées sont très asymétriques et permettent de bénéficier d’une alternative aux courbes ROC pour les données dont l’asymétrie de la distribution des classes est réelle.

Rafael