Clustering, modèle de mélange, algorithme EM, données multivariées, master, mathématique et statistique appliquées, k-means
Depuis quelques années, la prise en compte du model de mélange et plus spécifiquement de l'algorithme EM tend à modifier profondément les approches d'analyse de la statistique appliquée. Ils constituent un outil de choix pour l'estimation de densité, la classification et l'analyse discriminante. Ainsi ils sont utilisés dans un nombre croissant de disciplines comme l'astronomie, la biologie, la génétique, l'économie, et le marketing. Ainsi nos jours la classification à pris une place importante en analyse de données exploratoire et décisionnelle tant au niveau des domaines d'application que de développement méthodologique et il existe un très grand nombre d'études qui ont ou tendent à montrer l'intérêt de travailler avec un model de mélange par pallier aux insuffisances des autres méthodes de classification comme le k-means.
Dans ce travail il est donc question d'étudier l'intérêt de travailler avec les modèles de mélanges gaussiens multivariées pour la classification non supervisée.
[...] Quand on sait que le volume des données que le praticien de la statistique traite chaque jour de nos jours se chiffre à des mégas d'octets, cette rapidité est une valeur ajoutée considérable. Ajoutons à cela que pour utiliser l'algorithme du k-means, qui est une méthode de classification non Master 2 Mathématique et Statistique Appliquées, Université d'Orléans 8 Clustering par Modèle de mélange et Algorithme EM sur données multivariées. supervisée nous n'avons pas besoin de savoir le nombre de classe comme c'est le cas avec EM. [...]
[...] Cette méthode déjà proposé à plusieurs reprises par d'autres auteurs antérieurs comme Rolf Sundberg, dans sa thèse sur le traitement de l'algorithme EM dans le cas de famille exponentielle et sa collaboration avec Anders Martin Löf. L'analyse de Dempster Laird Rubin en 1977 généralise la méthode et suscite ainsi l'intérêt des statisticiens, et le journal britannique de qualifier le papier Thèse de Guillaume SAINT PIERRE septembre 2003 A.P. Dempster, N.M. Laird et Donald Rubin, Maximum Likelihood from Incomplete Data via the EM Algorithm Master 2 Mathématique et Statistique Appliquées, Université d'Orléans 2 Clustering par Modèle de mélange et Algorithme EM sur données multivariées. de brillante analyse statistique moderne. [...]
[...] Ainsi on aura donc pour les deux modèles en concurrence la formule suivante : ICL3= L (Ôm; 0.5 ICL2 = L (Ôm; 0.5 = -1131,264 On retiendra l'existence de trois classe selon ce critère même si la répresentation de la troixième classe est un peu imbriquée aux deux autre classe comme le montre le schema suivant.Notons que cette formule me laisse sur ma sauf. Prenons par exemple un modèle de melange avec quatres classes. Le critère trouvé sera maximun ainssi de suite et quand on tendra vers plus infini,on trluvera un critère qui sera maximal. Ainsi pour éviter d'utiliser ce critère à l'aveugle,nous allons combiné à cette methode une analyse visuelle en tenant compte de la specificité de l'étude mene C. Biernacki, G. Celeux, and G. [...]
[...] Master 2 Mathématique et Statistique Appliquées, Université d'Orléans 3 Clustering par Modèle de mélange et Algorithme EM sur données multivariées. Figure1 : Exemple d'une distribution de mélange gaussien à deux populations3 III. Philosophie de l'algorithme EM En statistique, lorsque l'on souhaite décrire l'influence d'une ou des plusieurs variables quantitative sur un événement en faisant moins d'hypothèse possible sur la forme de la relation, on distingue deux approches : l'approche paramétrique et non paramétrique. L'algorithme EM quand à lui est une méthode d'estimation paramétrique s'inscrivant dans la grande famille de maximum de vraisemblance. [...]
[...] Une autre différence qu'il convient de noter est tout simplement le fait que le EM après son exécution retourne les paramètres des gaussiennes autrement dit les moyens, les variances estimés et la probabilité d'appartenir à une classe plutôt qu'une autre, alors que le k-means quand à lui regroupe en k-classes les individus ou les objets étudiés. Par ailleurs le modèle de mélange gaussien est applicable comme son nom l'indique aux données supposées gaussiennes. Sans sous estimer les avantages qu'offre le EM et le k-means disons que les deux méthodes sont complémentaires. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture