Ce travail poursuit comme objectif d'analyser le comportement de rachat d'épargne de la clientèle d'une grande banque française. Plus précisément, nous voulons déterminer les caractéristiques qui différencient les clients n'ayant pas racheté leur épargne de ceux l'ayant racheté en partie ou en totalité au cours de l'année 2008, ceci en procédant en trois temps.
Ce dossier sera consacré à la construction et la validation d'un modèle de score de rachat d'épargne. Plus précisément, nous identifierons le risque de rachat d'épargne dans les mois à venir de la clientèle, en se basant sur la grille de score, elle-même construite à partir d'un modèle de régression logistique.
Cette procédure constitue un véritable outil d'aide à la décision, puisqu'il permet aux opérationnels de se forger une opinion précise sur le risque relatif de chaque client. (...)
Nous cherchons ici à détecter les variables explicatives les plus corrélées à la variable SOUSCRIPTION. La démarche est différente selon la nature des variables. Ainsi, nous commencerons par détecter d'éventuelles liaisons entre les variables quantitatives et la « cible » puis nous analyserons le cas des variables quantitatives. Nous conservons telles quelles les variables précédemment discrétisées, l'objectif étant d'attribuer une note aux groupes que nous avons dégagés lors de la classification.
Une fois que les variables les plus corrélés à la « cible » seront identifiées, nous testerons leur indépendance les unes vis-à-vis des autres. A noter que la sélection des variables candidates est effectuée à partir de l'échantillon d'apprentissage.
a) Détection de corrélations entre la « cible » et les variables quantitatives
Plusieurs procédures peuvent être utilisées comme la PROC MEANS ou la PROC TTEST. Cependant, le test de Student est valide uniquement sous l'hypothèse de normalité et d'homoscédasticité. Si l'une de ces hypothèses n'est pas vérifiée, il faut recourir à un test non paramétrique (...)
[...] then do; deciles=0; cum_pct=0; end; rang=deciles*10; run; data temp; input deciles cum_pct rang ; cards; ; run; data lift2; set temp lift; run; proc gplot data=lift2; symbol i=join; plot cum_pct*deciles rang*deciles / overlay ; title 'Courbe Lift'; run; quit; proc freq data=deciles; table deciles*rachat_epargne ; run; * Sur échantillon test ; * ; proc rank data=predictions (where=(selected=0)) groups=10 out=deciles_test descending; var compteur; ranks deciles; run; proc freq data=deciles_test(where=(souscription=1)); table deciles / out=lift_test outcum; run; proc freq data=deciles_test; table deciles*souscription ; run; data lift_test; set lift_test; deciles=deciles+1; if deciles=. [...]
[...] Le tableau suivant fournit les résultats des tests de concordance. Il s'agit de compter les paires concordantes, une paire étant concordante lorsque l'une vérifie cible=0, l'autre cible=1, et que la probabilité de estimée que cible=1 est plus grande pour l'observation cible=1. Ainsi, plus le pourcentage de paires concordantes est grand et, meilleur sera le pouvoir prédictif du modèle. Notre modèle est donc relativement satisfaisant, le taux de paires concordantes étant de 70%. Identification du cutoff Une fois que notre modèle a été estimé, nous devons faire un choix en ce qui concerne le seuil de probabilité à retenir car lorsque celui-ci varie, la sensibilité (pourcentage d'évènements prédits comme tels) et la spécificité (pourcentage de non-évènements prédits comme tels) changent également. [...]
[...] Les variables retenues, comme étant corrélées à la cible sont donc les suivantes : - TYP_EPARGNE_cl - MT_SOUSCRIPT_cl - SOLDE2007 - SIT_FAM - OCCUP_LOG - PREATTRIB_cl - MT_VIE_cl - ANC_EPARGNE_cl - ZONE_RES - AGE_cl Nous faisons le choix de ne pas retenir les deux variables explicatives, considérant que la variable SOLDE2007 est un indicateur synthétique des deux variables. Détections de corrélations entre les variables Il s'agit ici de s'assurer que les variables candidates retenues soient bien indépendantes. Les tests de dépendance varient selon la nature des variables. Toutes les variables retenues étant qualitatives, nous effectuons un test de Khi2. [...]
[...] L'analyse des effets de type 3 est effectuée pour chaque variable, en comparant le modèle excluant la variable au modèle incluant cette variable, afin de tester l'hypothèse nulle que cette variable est sans effet dans le modèle toute chose égale par ailleurs. Chaque variable prise indépendamment des autres a un impact sur la cible. Le tableau suivant contient les coefficients estimés de chaque variable. L'objectif ici est de repérer les statistiques de Wald inférieures à 3.84 au seuil de confiance de mais également les cœfficients incohérents avec le fait de racheter son épargne. [...]
[...] Après avoir testé plusieurs régressions logistiques, nous avons retenu un modèle qui inclut toutes les variables présélectionnées sauf PREATTRIB_cl et zone_res, les indicateurs de performance du modèle étant plus élevés lorsque que nous les supprimons du modèle. En effet, la variable zone_res n'avait pas été retenue par la sélection pas à pas et aucune modalité de PREATTRIB_cl n'était significative. Nous avons également effectué un regroupement de modalités sur la variable situation de famille, certaines modalités n'étant pas significatives selon le test du Khi2 de Wald. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture