Statistiques, pourcentage, variable, coefficient de corrélation, diplôme, niveau de richesse, variance
On s'intéresse au lien entre le pourcentage d'individus diplômés et la richesse des résidents dans un échantillon de 101 agrégations urbaines aux États-Unis. Ces dernières représentent une population totale de 203 millions d'habitants, soit près des deux tiers de la population totale.
On cherche à établir un lien de causalité entre les deux variables, en posant l'hypothèse suivante : nous pouvons aussi supposer qu'un emploi bien rémunéré suppose l'acquisition d'un diplôme d'enseignement supérieur. On devrait donc s'attendre à une relation positive et significative entre les deux variables.
[...] Toujours pour notre deuxième étape, nous testons pour la validité statistique du coefficient de corrélation que nous calculons pour les deux variables. Enfin, nous proposons deux spécifications de régression dont nous discutons les résultats et les indicateurs statistiques attachés. On s'appuie sur les données du recensement de 2010, en retenant les indicateurs de niveau de diplôme supérieur comme le pourcentage des diplômés de master ou plus. Pour le niveau de richesse, nous retenons le pourcentage de ménages dont les revenus annuels dépassent les 100.000 dollars. [...]
[...] Enfin, le coefficient devient statistiquement significatif, même s'il reste négatif. Graphe : nuage de point et régression linéaire. Enfin, il s'agit de vérifier que la distribution des résidus reproduit bien l'absence d'auto-corrélation ou d'hétéroscédasticité (les variances des erreurs individuelles sont différentes les unes des autres) Afin d'observer visuellement le comportement des résidus, on utilise ce qu'on appelle un qqplot, ou encore une représentation graphique de la distribution des résidus par rapport à la médiane et aux autres quantiles. On observe que les résidus ne s'alignent pas sur la pente de la médiane, suggérant une d'hétéroscédasticité, probablement attribuable à la taille de l'agglomération urbaine - et donc une spécification plus précise afin d'évaluer la relation étudiée. [...]
[...] Il est également possible de contrôler avec des variables indicatrices pour la présence d'un campus université (par exemple, Chapel Hill, Syracuse, Minneapolis-St Paul, etc.) ou encore le siège d'une grande entreprise, etc. La première régression sans variable de contrôle donne les résultats suivants : Le premier bloc à gauche donne une décomposition de la variance expliquée par le modèle décrit plus haut. Le modèle expliqué 2708.86 d'une variance totale de 4312.94. Le résidu est une variance que le modèle n'arrive pas à capturer. [...]
[...] On en veut pour preuve la faible valeur-p, ainsi que l'intervalle de confiance estimé. D'un autre côté, la constante α0 n'est pas statistiquement significative, puisque sa valeur-p (p-value) est très élevée, et son intervalle de confiance comporte zéro. On peut interpréter l'équation et les résultats estimés comme suit : une augmentation d'un point de pourcentage de population diplômée peut générer une augmentation de 0.801 point de pourcentage en ménages riches. On souhaite désormais tester la robustesse de notre estimation en incorporant comme variable de contrôle la taille de la population en logarithme. [...]
[...] On cherche à établir un lien de causalité entre les deux variables, en posant l'hypothèse suivante : nous pouvons aussi supposer qu'un emploi bien rémunéré suppose l'acquisition d'un diplôme d'enseignement supérieur. On devrait donc s'attendre à une relation positive et significative entre les deux variables. Nous procédons en trois étapes : d'abord en testant pour les écarts de pourcentage entre taux de diplômés et taux de ménages riches. Ensuite, en testant pour deux variables indicatrices - les agrégations urbaines dont les pourcentages sont supérieurs à la moyenne nationale. On utilise le test de Chi-2 de Pearson. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture