L'objectif de ce dossier est d'expliquer le nombre de crimes pour 1000 habitants dans 47 états américains. Après avoir sélectionné les variables pertinentes, nous procéderons à une régression PLS correspondant au modèle le plus adapté pour traiter le problème de multicolinéarité.
Les variables dont nous disposons sont les suivantes :
- le nombre d'hommes âgés de 14 à 24 ans pour 1000 hab.
- une variable binaire distinguant les états du sud (ETAT=1) des autres
- le niveau de scolarité : nombre moyen d'années d'étude X 10 de la population âgée de 25 ans et +
- les dépenses de la police en 1959
- les dépenses de la police en 1960
- la part de la population active pour 1000 hommes âgés de 14 à 24 ans
- le nombre d'hommes pour 1000 femmes
- la taille de la population
- le nombre d'étrangers pour 1000 habitants
- le taux de chômage pour 1000 hommes âgés de 14 à 24 ans
- le taux de chômage pour 1000 hommes âgés de 35 à 39 ans
- la richesse (patrimoine)
- l'inégalité des revenus : nombre de familles pour 1000 gagnant 1.5 fois moins que le revenu médian (...)
[...] Regression PLS : Nous avons construit un premier modèle PLS avec le nombre de composantes maximales, à savoir 13, sans avoir spécifié de méthode de validation croisée particulière. Nous constatons que les six premiers axes permettent d'expliquer réellement les variations du nombre de crimes. A priori, nous devrions donc retenir 6 composantes. Nous allons maintenant tester par validation croisée le nombre de composantes permettant de minimiser l'indicateur Predicted residual sum of square (PRESS). Trois méthodes sont utilisées : one, block et split. [...]
[...] Nous allons cependant utiliser un modèle de régression linéaire et calculer un indicateur de multicolinéarité correspondant au facteur d'inflation de la variance (VIF).Nous avons donc utilisé la Proc Reg avec l'algorithme de sélection pas à pas Stepwise (niveau de significativité à 10%).Les résultats de la régression linéaire multiple sont les suivants : La procédure Stepwise indique qu'il faut conserver six variables pour expliquer le nombre de crimes : l'âge, l'éducation, les dépenses de police(1959), le taux de chômage (35-39 ans), la richesse et le revenu. Le principe du test du VIF est le suivant : si VIF > 3 alors il y a problème de multicolinéarité. On constate un problème de multicolinéarité sur les variables éducation, richesse et revenus. La présence de multicolinéarité nous oblige à utiliser une régression PLS. [...]
[...] une variable binaire distinguant les états du sud (ETAT=1) des autres le niveau de scolarité : nombre moyen d'années d'étude X 10 de la population âgée de 25 ans et + les dépenses de la police en 1959, les dépenses de la police en 1960, la part de la population active pour 1000 hommes âgés de 14 à 24 ans, le nombre d'hommes pour 1000 femmes, la taille de la population, le nombre d'étrangers pour 1000 habitants, le taux de chômage pour 1000 hommes âgés de 14 à 24 ans, le taux de chômage pour 1000 hommes âgés de 35 à 39 ans, la richesse (patrimoine) l'inégalité des revenus : nombre de familles pour 1000 gagnant 1.5 fois moins que le revenu médian. Etude de la colinéarité : En premier lieu, nous allons tout d'abord effectuer une Proc Corr afin de mettre en évidence les éventuelles corrélations entre les 14 variables de notre jeu de données. Nous avons obtenu les résultats suivants. Les cellules grisées font apparaître les corrélations les plus fortes. [...]
[...] Des tableaux suivants, nous pouvons extraire les expressions suivantes : Le nombre de crimes en fonction des composantes PLS : Les composantes en fonction des variables centrées réduites, par exemple : Le nombre de crime en fonction des variables centrées réduites (absence de constante): Le nombre de crime en fonction des variables: Selection des variables explicatives : Les techniques suivantes combinées vont nous permettre d'éliminer les variables de faible poids. Poids des variables dans les composantes PLS On observe que les poids des variables taux de chômage sont peu importants dans les trois composantes. Calcul de VIP : Nous supprimons également les variables actif, educ, etat, homme et pop. Estimation de la PLS après suppression des sept variables Avec les variables retenues, nous retenons également trois composantes PLS de la variation des Xi et 64% des variations du nombre de crimes sont expliquées par les 3 premières composantes principales. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture