IA Intelligence artificielle, Évaluation de modèle, sélection de modèle, performance de généralisation, performance prédictive, algorithme d'apprentissage, ensemble d'apprentissage, ensemble de test, validation croisée, validation simple, Holdout method, performance du modèle, stabilité du modèle, stratification, ensemble de données, méthode de bootstrap, probabilité, algorithme de régression, matrice de confusion, classification binaire, moyenne harmonique
Pourquoi faire une évaluation de modèle ?
- Pour estimer la performance de généralisation, la performance prédictive de notre modèle sur des données futures (non vues).
- Pour améliorer la performance prédictive en sélectionnant le modèle le plus performant dans un espace d'hypothèses donné.
- Pour identifier l'algorithme d'apprentissage automatique le mieux adapté au problème à résoudre ; nous voulons donc comparer différents algorithmes, en sélectionnant le plus performant.
[...] On calcule laDonnées performance du modèle. Jeu de données complet Données de test On peut répéter la méthode Holdout pour avoir une meilleure estimation de la performance de notre modèle sur un ensemble de tests aléatoires. La répétition de Holdout fournit également des informations sur la stabilité du modèle. Problème ? L'ensemble de données sur les iris se compose de 50 fleurs Setosa Versicolor et 50 Virginica ; les espèces de fleurs sont distribuées uniformément : • 33.3% Setosa • 33.3% Versicolor • 33.3% Virginia Si notre fonction aléatoire attribue 2/3 des fleurs (100) à l'ensemble d'apprentissage et 1/3 des fleurs à l'ensemble de test, on peut obtenir ce qui suit : Ensemble d'apprentissage : Setosa Versicolor Virginica Ensemble de test : Setosa Versicolor Virginica La stratification signifie simplement que nous divisons aléatoirement un ensemble de données de sorte que chaque classe soit correctement représentée dans les sous-ensembles résultants (ensemble d'apprentissage et ensemble de test). [...]
[...] À partir de la matrice de confusion on peut dériver tout un tas de critères de performance : Le rappel : le taux de vrais positifs, c'est-à-dire la proportion de positifs que le modèle a correctement identifiés. 𝑇 𝑅𝑎𝑝𝑝𝑒𝑙 𝑃 𝑇𝑃 + = 𝐹𝑁 La précision : la proportion de prédictions correctes parmi les points que l'on a prédits positifs. 𝑇 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜 𝑇𝑃𝑃 𝑛= + 𝐹𝑃 Le rappel : = 𝑅𝑎𝑝𝑝𝑒𝑙 La précision : 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇 𝑃+ 𝑇𝑃 𝐹𝑁 𝑇 𝑃+ 𝑇𝑃 𝐹𝑃 Actual Class\Predicted class cancer = yes cancer = no Total cancer = yes cancer = no Total Classes\Prédiction Yes No Total Yes No Total 𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑟𝑎𝑝𝑝𝑒𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 = = 1 0 = 1 = 𝑇𝑃 𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = = 1 = 1 𝑇𝑃 + 𝐹𝑃 1 + 0𝑇𝑃 𝑟𝑎𝑝𝑝𝑒𝑙 = = 1 = 0,1 𝑇𝑃 + 𝐹𝑁 1+9 On veut un critère qui : Combine le rappel et la précision A une grande valeur quand ces deux critères ont des grandes valeurs Le score F1 est la moyenne harmonique de la précision et du rappel : 2𝑟 𝐹1 𝑝 𝑟 = +𝑝 La moyenne harmonique tend à être plus proche de la plus petite valeur entre la précision et le rappel. [...]
[...] Le coefficient de détermination ajusté tient compte du nombre de variables. En effet, le R2 ajusté vous pénalisera si vous ajoutez des variables indépendantes dans l'équation) qui ne correspondent pas au modèle. MSE, MAE, RMSE sont de préférence utilisés pour comparer les performances entre différents modèles de régression. R-Square et R-ajusté sont mieux utilisés pour expliquer l'ajustement du modèle. Mesures basées sur la capacité prédictive du modèle. La matrice de confusion La matrice de confusion est un outil utile pour analyser le taux de reconnaissance des objets des différentes classes. [...]
[...] Machine Learning : Évaluation et sélection de modèle Machine Learning Pourquoi l'évaluation ? Métriques d'évaluation d'un algorithme de regression Métriques d'évaluation d'un algorithme de classification Validation croisée Pourquoi l'évaluation ? Pour estimer la performance de généralisation, la performance prédictive de notre modèle sur des données futures (non vues). Pour améliorer la performance prédictive en sélectionnant le modèle le plus performant dans un espace d'hypothèses donné. Pour identifier l'algorithme d'apprentissage automatique le mieux adapté au problème à résoudre ; nous voulons donc comparer différents algorithmes, en sélectionnant le plus performant. [...]
[...] 𝑇𝑁 𝑠𝑝é𝑐𝑖𝑓𝑖𝑐𝑡é = 𝑇𝑁 + 𝐹𝑃 Classe\Prédiction Yes No Yes No 𝑇 𝑠𝑝é𝑐𝑖𝑓𝑖𝑐𝑡 𝑁 𝑇𝑁 é + 𝐹𝑃 = 70 = 7000 + 240 = 74% Question : Comment peut-on ajuster les hyperparamètres d'un modèle ? La modification des valeurs d'hyperparamètre lors de l'exécution d'un algorithme d'apprentissage sur un ensemble d'apprentissage peut entraîner des modèles différents. Le processus de recherche du modèle le plus performant à partir d'un ensemble de modèles produits par différents hyperparamètres est appelé sélection de modèle. La validation croisée est une méthode qui permet d'utiliser l'intégralité du jeu de données pour l'entraînement et pour la validation (le test). [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture