Logiciel R studio, reconstruction de données, modélisation spatiale, modélisation temporelle, valeur originelle
Le but de ce rapport est de montrer la méthode la plus adaptée à la reconstruction de données. Deux méthodes vont être étudiées à savoir la modélisation spatiale et la modélisation spatiale et temporelle.
[...] Cette superposition de moins de pluie et plus d'évapotranspiration va intensifier les contraintes sur l'eau et va créer un stress hydrique concernant les cultures agricoles. L'on ajouterait la présence de gros coups de chaleur suite à cette température maximale de plus de +5°C, le MICE en est une illustration claire. Avec les médianes au-dessus de zéro, nous avons une présence de pluie dans l'utilisation des trois méthodes. La méthode MICE laisse transparaître une étendue au cours de cette période durant laquelle la demande évaporative augmente significativement et est élargie, un léger assèchement est donc en vue. [...]
[...] Analyse graphique Dispersion La dispersion est associée à la taille de la boîte et aux moustaches au-delà de la boîte. Du graphique, nous constatons que la méthode proche voisin et celle de la moyenne sont préférable sur le critère de dispersion par rapport à la méthode MICE. En effet, elles ont les plus petites tailles de boîte ce qui signifie qu'elles ont une dispersion faible donc une meilleure stabilité des données. La forme de la distribution Aucune des méthodes ne présentent une distribution symétrique même si on observe un détachement de la valeur minimum des données. [...]
[...] Sa particularité est qu'elle tient compte des relations complexes entre les variables et permet de prendre en compte l'incertitude due à l'imputation. C'est une méthode complexe et plus rigoureuse statistiquement. Néanmoins, cette méthode repose sur l'hypothèse que les données manquantes sont manquantes de manière aléatoire conditionnelle aux variables observées, ce qui peut ne pas être toujours réaliste. Dans notre cas d'étude, nous allons utiliser la technique de l'imputation multiple pour remplacer les données manquantes en générant plusieurs valeurs potentielles basées sur des régressions entre les données manquantes et d'autres variables. [...]
[...] Nous en déduisons que la méthode la plus adapté pour la reconstruction des valeurs manquantes est la méthode par la moyenne. Toutefois, nous n'avons pas de prétention à dire que le choix que nous avons fait est le meilleur mais il se veut au moins respectueux des critéres d'évaluation selectionnés. D'autres facteurs pourraient être pris en compte pour le choix de la méthode comme la stabilité temporelle pour évaluer la constance de chaque méthode. Interprétation du graphique On expliquerait la variabilité des précipitations décrites sur le graphique en nous appuyant sur la valeur maximale et l'emplacement de la médiane au même niveau que zéro. [...]
[...] Ensuite, nous avons la reconstruction par la moyenne des stations voisines. La moyenne reste le meilleur indicateur de valeur pour représenter la tendance centrale d'un ensemble de données. Nous allons donc remplacer le NA correspondant à un indice précis par la moyenne des valeurs des stations voisines au même indice. On peut toujours vérifier dans le script l'efficacité de la méthode avec la commande suivante sum(is.na(df_res$reconstruct_moyenne)). L'autre méthode qui est la modélisation spatiale et temporelle, est une technique d'imputation des valeurs manquantes dans un ensemble de données. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture