Informatique - Électronique, AFDM analyse factorielle de données mixtes, méthodes statistiques, étude data mining, méthodes supervisées, méthodes non supervisées, méthodes de classification, K-means, AFC analyse factorielle des correspondances, ACP analyse en composante principale, ACM analyse des correspondances multiples, problème de régression, régression linéaire, arbre de régression, arbre de classification, RL régression logistique, analyse discriminante linéaire, prétraitement des données, indicateurs de tendance centrale, indicateurs de dispersion, indicateurs de forme, logarithme népérien, coefficient d'asymétrie de Fisher, coefficient de corrélation linéaire, mosaic plot, données manquantes, imputation par régression, imputation séquentielle, réseaux de neurones, modèle paramétrique, divergence de Kullback-leiber, dérivées chainés, SGD descente de gradient stochastique, réseaux convolutifs, couches de convolutions, invariance géométrique, pooling, méthodes à noyaux, SVM support vector machine, BOW bag of words, dropout, bagging, boosting, méthodes ensemblistes, méthodes d'agrégation, forêts aléatoires, méthodes hiérarchiques, méthodes de partitionnement direct, cartes de Kohonen, algorithme a priori, itemsets, AFM analyse factorielle multiple
L'objectif de cette synthèse est de résumer les méthodes statistiques, d'analyse de données et d'intelligence artificielle en vue d'explorer et d'analyser de très grandes bases de données pour extraire l'information utile. Ceci s'inscrit dans une démarche de data mining (fouille de données).
Les méthodes sont catégorisées en 2 ensembles : méthodes supervisées (sortie à prédire connue, nécessite l'étiquetage par un expert des entrées) ou méthodes non supervisées (mise en évidence de groupe d'individus présentant de fortes corrélations pour certaines variables).
Enfin, on trouve un dernier ensemble de méthodes : les méthodes avancées qui pallient les problèmes de sensibilité des données ayant servi à estimer les modèles précédents.
[...] Pour effectuer une prédiction, on agrège les prédictions par la moyenne pour un arbre de régression ou par le vote majoritaire en classification. Note : l'étape d'agrégation permet de se dispenser d'élaguer individuellement les arbres. Contrairement aux arbres, les forêts ont, elles, de très bonnes performances en termes de qualité de prédiction. En revanche, elles deviennent trop complexes pour pouvoir interpréter le lien entre les entrées et la sortie. Réseaux de neurones totalement connectés Le neurone formel On va s'intéresser à des problèmes de reconnaissance (plus particulièrement classification) de signaux de bas niveau (image, vidéo, speech . [...]
[...] Par exemple, on a une image couleur en entrée et on veut capturer le niveau des 3 couleurs : blanc, jaune et vert dans des régions. On applique 3 filtres correspondant chacun aux 3 couleurs, avec un certain pas et on stocke dans un réseau de neurones convolutifs ces 3 cartes, formant une couche convolutive. Aussi, on peut hiérarchiser ces couches afin de faire ressortir une information de plus en plus riche (comme par exemple, le calcul du gradient dans 2 directions puis le module pour la détection de contour d'images). [...]
[...] Ces poids sont identiques pour les variables d'un même groupe (et varient d'un groupe à l'autre). Ils sont tels que l'inertie axiale maximum d'un groupe est égale à 1 : autrement dit, en faisant l'ACP ou l'ACM d'un seul groupe avec cette pondération, on obtient une première valeur propre égale à 1. L'objectif ici est d'équilibrer les groupes de variables : un groupe de variable ne doit pas écraser un autre groupe et impliquer une perte d'information. Ainsi, un groupe de variable ne pourra pas à lui tout seul générer uniquement la première dimension de l'AFM. [...]
[...] Ainsi, les règles ayant un lift plus petit ou autour de 1 ne sont pas jugées intéressantes. Par contre, un lift égal à 2 montre que le nombre d'exemples de la règle A C est deux fois plus grand que celui attendu sous l'indépendance. Il est donc possible de classer les règles par ordre décroissant d'un indice de pertinence, tel que le lift. Il existe une multiplicité d'indice, dont celui de Jaccard qui est intéressant, car il permet de discriminer les règles dont les supports de l'antécédent et du conséquent n'ont pas le même ordre de grandeur Méthode multi-bloc Objectif On considèrera ici que chaque individu est caractérisé par plusieurs groupes de variables, ces groupes étant définis a priori. [...]
[...] Ils sont sensibles aux valeurs aberrantes et valent 1 si le lien sur le rang est linéaire. Si ces coefficients sont nettement supérieurs au coefficient de corrélation linéaire, on peut transformer les variables (logarithme, carré) pour se ramener à une situation de linéarité. Lien entre variables quantitatives /qualitatives On représente en général la distribution de la variable quantitative en fonction des modalités de la variable qualitative (histogramme et diagramme à moustache). Les variables sont liées si une différence entre les 2 distributions est constatée. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture