Régression linéaire, corrélation linéaire, coefficient de détermination, Bravais Pearson, revenu moyen, cartographie
L'étude porte sur le développement d'un modèle reliant le revenu moyen des habitants des différents arrondissements de Paris en fonction d'un ensemble de critères fournis.
[...] On essaie néanmoins de faire une expérimentation en construisant une régression linéaire avec toutes les variables en même temps pour voir le comportement du modèle. On utilise Excel pour calculer le modèle et on obtient les résultats suivant : Régression Toutes les variables 2 variables : P_INT, P_RET R Square Adjusted R Square La valeur R2=0.975 semble indiquer un excellent modèle capable d'expliquer 97.5% de la variance du revenu moyen comparé à seulement 92.2% expliqué par le modèle (P_INT, P_RET). [...]
[...] La distribution des points du nuage montre une distribution uniforme donc une homoscedasticité et l'absence d'autocorrélation. Le modèle est satisfaisant, il sera retenu pour les prochaines étapes. On représente dans la figure ci-dessous la répartition de la variance expliquée par le modèle : A=13.5% B=86.5% Modèle 2 : une 2[ème] variable explicative On essaie de choisir une deuxième variable explicative. Afin de justifier le choix, on calcule le coefficient de corrélation des variables restantes avec les résidus du modèle 1. [...]
[...] La valeur R² ajusté permet de tenir compte du phénomène de sur-ajustement car R² ne peut qu'augmenter. En utilisant un grand nombre de variables, on peut donc aboutir à un modèle avec R² proche de 1 alors que la vraie capacité explicative du modèle est plutôt faible. Rajouter toutes les variables dans le modèle, aboutit à une amélioration très négligeable du R² ajusté. On s'aperçoit donc que le modèle à 2 variables (P_INT, P_RET) est suffisamment précis pour couvrir toute l'information apportée par toutes les variables explicatives. [...]
[...] Ce type d'inter-corrélation entre les variables explicatives peut causer des problèmes dans le modèle de régression car cela introduit beaucoup de redondance qui influera sur le modèle de régression linéaire. Il est donc important d'éviter d'introduire trop de redondance car cela peut nuire au modèle. Modélisation Dans cette partie on va expliquer notre démarche pour développer un modèle entre un sous-ensemble des variables fournies et le revenu moyen des ménages parisiens. Plusieurs modèles seront développés d'une manière incrémentale jusqu'au modèle finale qui sera retenu. [...]
[...] Ce qui laisse peu de marge d'amélioration car il ne reste que 7.8%. On représente les résidus en fonction des deux variables et on vérifie comme dans le 1[er] modèle les conditions de validité. La moyenne des résidus est nulle et les coefficients de corrélation de PINT et PRET et des résidus sont nuls ce qui montre l'indépendance des résidus par rapport aux variables PINT et PRET. La distribution des points du nuage montre une distribution uniforme donc une homoscedasticité et l'absence d'autocorrélation. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture