Chapitre 5 Metriques

Upgrade to remove ads
Upgrade to remove ads
Unformatted text preview:

CHAPITRE 5 M triques 5 1 Courbe ROC D nitions page 129 Aire sous la courbe page 131 Expression page 131 Intervalles de con ance page 133 Intervalles de con ance sur la courbe page 133 Construction de la courbe ROC page 133 M thode boostrap page 134 Aire sous la courbe page 135 Distribution des scores mauvais et bons page 136 Variantes page 136 Taux de lecture ou de reconnaissance page 136 Classi cation multi classe page 138 Exemple page 138 Ce document introduit la courbe ROC 110 Receiving Operator Characteristic qui est commun ment utilis e pour mesurer la performance d un classi eur Il introduit aussi des termes comme pr cision rappel AUC 111 qui sont pr sents dans la plupart des articles qui traitent de machine learning Le module roc impl mente les calculs ci dessous qu on peut tester avec le notebook ROC page 304 5 1 1 D nitions Supposons que nous avons un classi eur qui classe des observations en un ensemble de classes De plus il donne cette r ponse accompagn e d un score de pertinence Deux cas sont possibles soit la r ponse est bonne 1 soit la r ponse est fausse 0 Pour chaque observation on associe un couple r x o r est gal 0 ou 1 x est le score de pertinence On cherche d terminer partir de quel seuil de pertinence la r ponse du classi euur est able En faisant varier x on obtient une courbe source wikipedia 112 110 https en wikipedia org wiki Receiver operating characteristic 111 https en wikipedia org wiki Receiver operating characteristic Area under the curve 112 http en wikipedia org wiki File Roccurves png 129 Machine Learning Statistiques et Programmation Version 0 1 407 Cette courbe sert galement comparer diff rents classi eurs Plus une courbe a des valeurs lev es plus l aire sous la courbe est grande moins le classi eur fait d erreur D une mani re simpli e le classi eur retourne une r ponse qui est soit mauvaise soit bonne On peut l valuer car pour construire un classi er on dispose toujours d une base contenant les r ponses attendues En fonction du score x et d un seuil s on d nit quatre cas cas s x x s r ponse pr dite est bonne TP vrai true positif TN vrai true n gatif r ponse pr dite est mauvaise FP faux positif FN faux n gatif Ces r sultats sont souvent pr sent s selon une matrice confusion r ponse attendue 0 1 1 0 TN FP FN TP A partir de ces d nitions on d nit la pr cision 113 le rappel ou recall 114 T P F P T P T P T P T N En choisissant un seuil relatif au score de pertinence x au dessus on valide la r ponse du classi eur en dessous on ne la valide pas On peut toujours calculer la pr cision et le rappel pour toutes les r ponses dont le score est au dessus d un seuil s La courbe ROC s obtient en faisant varier s D nition D1 Courbe ROC On suppose que Y est la variable al atoire des scores des exp riences qui ont r ussi X est celle des scores des exp riences qui ont chou On suppose galement que tous les scores sont ind pendants On note FX et FY les fonctions de r partition de ces variables On d nit en fonction d un seuil s R R s 1 FY s E s 1 FX s La courbe ROC est le graphe E s R s lorsque s varie dans R 113 https en wikipedia org wiki Information retrieval Precision 114 https en wikipedia org wiki Information retrieval Recall 130 Chapitre 5 M triques Machine Learning Statistiques et Programmation Version 0 1 407 T P s d signe les true positifs au dessus du seuil s avec les notations TP FP FN TN cela revient E s 1 T P s T N s R s 1 F P s F N s T P s F N s On remarque que s T P s T N s est constant De m me pour F P s F N s On remarque que les fonctions s E s et s R s sont d croissantes toutes deux Elles sont donc inversibles Dans le cas o la variable al atoire est ind pendante de la variable X la courbe ROC est une droite reliant les points 0 0 et 1 p p o p P 1 Ceci signi e que la connaissance du score X n apporte pas d information quant la r ussite de l exp rience Il peut para tre complexe de distinguer la r ponse et le score du classi eur C est pourtant n cessaire dans le cas o le classi eur retourne un entier qui d signe une classe parmi n Un cas positif est lorsque la classe pr dite est gale la classe attendue il est n gatif dans le cas contraire La courbe peut tre adapt e pour d autres probl mes tels que le ranking voir Agarwal2005 page 5 1 2 Aire sous la courbe Expression L aire sous la courbe AUC correspond l int grale de la fonction ROC Elle se calcule partir du th or me suivant Th or me T1 Aire sous la courbe AUC On utilise les notations de la d nition de la Courbe ROC page 130 L aire sous la courbe ROC est gale P Y X Rappel 5 1 Courbe ROC 131 Machine Learning Statistiques et Programmation Version 0 1 407 Soit X une variable al atoire de densit f et de fonction de r partition F Si U F X alors P U t P F X t P cid 31 X F 1 t cid 35 F cid 31 F 1 t cid 35 t La variable U est de loi uniforme sur 0 1 De plus soit g une fonction int grable quelconque on pose u F x et cid 25 R g x f x dx cid 25 0 1 g F 1 u du D monstration On note fX la densit de la variable X et fY celle de la variable Y On peut alors d nir la probabilit P Y X par une int grale fX u du On pose comme changement de variable u FX x On en d duit que du fX x dx La variable al atoire U FX X est uniforme et comprise dans 0 1 P Y X cid 25 x cid 25 y fX x fY y 11 y x dxdy On note FX la fonction de r partition de X soit FX x cid 47 x fX x dx cid 25 y du cid 25 y fY y 11 y F 1 du P cid 31 Y F 1 X u cid 35 X u cid 35 R cid 20 s Par cons quent X u cid 35 cid 25 u P Y X cid 25 x cid 25 u cid 25 …


View Full Document
Download Chapitre 5 Metriques
Our administrator received your request to download this document. We will send you the file to your email shortly.
Loading Unlocking...
Login

Join to view Chapitre 5 Metriques and access 3M+ class-specific study document.

or
We will never post anything without your permission.
Don't have an account?
Sign Up

Join to view Chapitre 5 Metriques 2 2 and access 3M+ class-specific study document.

or

By creating an account you agree to our Privacy Policy and Terms Of Use

Already a member?