Nous nous sommes penchés sur ce problème, en tentant d'améliorer la prévision calculée par les services de Météo France. Notre travail consistait à établir une adaptation statistique de la prévision déterministe que propose Météo France, en s'aidant de cette prévision et d'autres variables également prévues par le service météorologique français. Pour cela, à partir des données contenues dans un fichier nommé ozone.dat que nous a transmis Météo France, nous avons testé plusieurs méthodes pour les comparer entre elles et décider laquelle est la plus adaptée à ce type de données (...)
[...] Cette procédure, faite par validation croisée, est instable car les modèles de prévision sont fortement dépendants des échantillons qui.ont permis leur estimation Il s'agit de déterminer le coefficient de pénalisation par comparaison des erreurs par validation croisée pour différents valeurs de ce coefficient. On trace pour cela la décroissance de l'estimation de l'erreur relative en fonction dudit coefficient. Rappelons que même si la relation n'est pas directe, coefficient de complexité, taille de l'arbre et nombre de feuilles sont très souvent liés. Figure 7 Décroissance de l'erreur relative en fonction du coefficient de complexité Le choix optimal de cp est donné dans la bibliographie de il s'agit e prendre le cp correspondant au point le plus à gauche sous la ligne. [...]
[...] QUATRIEME TYPE DE METHODES : LES METHODES CONNEXIONNISTES Nous nous sommes contentés de n'utiliser qu'une méthode connexionniste : celle dite des réseaux de neurones. Par ailleurs nous estimons qu'une seule couche peut suffire, à condition que l'on fasse intervenir suffisamment de neurones. C'est un des paramètres important à déterminer, ainsi que le nombre de boucles nécessaires à un bon apprentissage. Le nombre de neurones nécessaires est assez difficile à déterminer, c'est pourquoi on préfère utiliser un paramètre de régularisation dit du decay. [...]
[...] Il est alors maladroit de choisir cette méthode. Cependant on observe sur les deux graphes ci-dessus que pour l'erreur par validation croisée est suffisamment faible pour choisir cette valeur. On a une erreur d'environ . Voici le tableau qui résume les taux d'erreurs de validation pour les trois méthodes. : Tableau 2 Erreurs par validation croisée Ainsi on préfèrera la méthode linéaire qui est mieux validée que l'analyse discriminante quadratique. Maintenant on veut tester le pouvoir de généralisation de la meilleure méthode au sens de la validation croisée en l'appliquant à l'échantillon test. [...]
[...] La prédiction de ces variables à été faite, grâce au logiciel par différentes méthodes adaptées à la nature des variables explicatives et à expliquer. Pour comparer la qualité de prévision qu'offrent les modèles nous avons procédé ainsi : tout d'abord nous avons extrait et arrangé les données du fichier ozone.dat. Puis nous avons appliqué chaque méthode à un sous-échantillon des données, tiré aléatoirement et appelé échantillon d'apprentissage afin d'optimiser les différents critères et paramètres qui définissent le modèle. Puis nous validions celui-ci en l'appliquant à l'échantillon de validation. [...]
[...] On va alors procéder à l'élagage, dans ce cas il existe deux procédures de validation croisée, la même qu'utilisée pour la régression et une dite explicite. Nous allons montrer les retours R pour ces deux procédures. Figure 13:Décroissance de l'erreur relative en fonction du coefficient de complexité pour la première procédure de validation croisée Pour la première procédure on choisit, avec le même procédé que présenté en régression, cp= Pour la deuxième procédure, la validation croisée explicite, on cherche de même le cp optimal. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture