Machine Learning, clustering, partitionnement de données, K-moyennes, K-means, K-medoids, K-médoïdes, méthode de partitionnement, espace quantifié, k cluster, k points, méthode de clustering, similitude, dissimilitude
Le clustering est le processus de regroupement d'un ensemble de données en plusieurs groupes ou clusters. Les objets d'un même cluster ont une forte similitude.
[...] Le principal avantage de cette approche est son temps de traitement rapide, qui est généralement indépendant du nombre d'objets de données et ne dépend que du nombre de cellules dans chaque dimension dans l'espace quantifié. Pourquoi ne pas diviser la variabilité par la taille du cluster ? Un cluster grand et mauvais est pire qu'un cluster petit est mauvais. Est-ce que le problème d'optimisation consiste à trouver les clusters qui minimisent la dissimilitude? Non, sinon on pourrait considérer chaque exemple comme cluster. Nous avons besoin de contraintes Distance entre les clusters Nombre de clusters K-means 1. Choisir k points comme des centres initiaux 2. Répéter 1. [...]
[...] Terminer lorsque tous les objets sont regroupés dans un même cluster ou lorsque un critère d'arrêt est satisfait Divisives (top-down) : Tous les objets forment un seul cluster. Dans chaque itération, un cluster est divisé en clusters plus petits. Terminer si chaque objet devient un cluster ou si une condition d'arrêt est satisfaite. Méthodes basées sur la densité: Leur idée générale est de continuer à développer un cluster donné tant que la densité (nombre d'objets ou de points de données) dans le «voisinage» dépasse un certain seuil. [...]
[...] Le choix du nombre k 2. L'initialisation des k premiers centres 3. Sensible au bruit 1. Le choix du nombre k 2. L'initialisation des k premiers centres 3. Sensible au bruit 1. Le choix du nombre k Le choix du nombre k K=3 Le choix du nombre de clusters 1. Des connaissances sur le domaine d'application 2. Essayer plusieurs valeurs de k et évaluer la qualité des résultats Effectuer le clustering hiérarchique sur un sous ensemble de données L'initialisation des k premiers centres 2. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture