Analyse des données, classification hiérarchique, données analysables, construction numérique, individu, variable
Dans la réalité, les individus sont le plus souvent décrits par de très nombreux paramètres, qui n'obéissent pas à des lois connues à priori.
Analyse de données:
Réalise une étude globale du couple individus caractères(graphiques).
Elle se base sur:
Les ressemblances ou les dissemblances entre individus ou entre caractères, suivant plusieurs points de vue, et/ou leur corrélations.
Les méthodes de classification:
Complètent les analyses graphiques:les classes obtenues pouvant à leur tour être visualisées sous forme d'arborescence ou de cluster.
[...] critères d'agrégation: a-Le critère du lien minimum (« Single Link ») : (h,h')= min( y)/x h et y h'), b-Le critère du lien maximum (« complete Link ») : (h,h')= max( /x h et y h'), h h' h h' c-Le critère de la distance moyenne (« group average ») : (h,h')= 1/card(h).card(h') avec x h et y h' h h' (h,h')= ½ ( d12+d11) d11 d12 M13%2520Globular%2520Cluster d-Le critère de Ward : h')= P(h).P(h')/P(h)+P(h').d ou est le centre de gravite de h et est le poids de h. h' h M13%2520Globular%2520Cluster 4-exemple de construction numérique: Soit l'exemple suivant: -La matrice de dissimilarité: a-La construction de la CAH en utilisant le critère du minimum Pas 1 : recherche de la distance minimale Groupement de 1 et 3. A = { d (A,2)=min 1.41 d (A,4)=min Pas 2 : recherche de la distance minimale suivante et regroupement par le critère. [...]
[...] Analyse de données: réalise une étude globale du couple individus caractères(graphiques). Elle se base sur: Les ressemblances ou les dissemblances entre individus ou entre caractères, suivant plusieurs points de vue, et/ou leur corrélations Les méthodes de classification: complètent les analyses graphiques:les classes obtenues pouvant à leur tour être visualisées sous forme d'arborescence ou de cluster nature des données analysables En analyse de données on distingue deux types d'informations: les variables Les individus peuvent représenter des entités comme des personnes, des entreprises, des pays, des journaux, etc. [...]
[...] Principe général: La CAH est basée sur 2 procédures: La détermination d'un critère de ressemblance entre les individus, souvent on utilise la distance euclidienne. La détermination d'une distance entre classes, procédé appelé un critère d'agrégation, laisse à l'utilisateur le choix de ce critère. on divise l'ensemble en classes, puis on recommence sur chacune de ces classes et ainsi de suite jusqu'à ce que les classes soient réduites à des singletons. La classification descendante hiérarchique Différentes contraintes sont bien sûr imposées pour Regrouper les individus: cluster 1-chaque groupe doit être le plus homogène possible. [...]
[...] Nous allons nous intéresser dans cet exposé à : La classification ascendante hiérarchique puis qu'elle est la plus utilisée. La classification ascendante hiérarchique La classification descendante hiérarchique Il en existe deux : http://www.ai.mit.edu/projects/vsam/Classification/Cclasses/heirslide1.gif 1-partitionnement: Partie : est un ensemble fini : ={1, n } j pour 1≤ j ≤n Une partie de est un sous ensemble : B={b1,b bp } bk pour 1≤ k ≤p II-TERMINOLOGIE : Deux parties d'un ensemble sont soit: chevauchantes: disjointes, l'une dans l'autre, égales. [...]
[...] La distance d(x3,x7)est donnée par la matrice de dissimilarité en utilisant le carré de la distance euclidienne. h')= P1= 0.1 P2= 0.2 P9= 0.1 P12= 0.03 P11= 0.04 P8= 0.06 P3= 0.15 P6= 0.01 P4= 0.12 P10= 0.05 P9= 0.07 P7= 0.05 g Méthode de construction: Au début la matrice de distance peut être considéré comme la matrice donnant pour chaque couple de point la quantité qui caractérise l'augmentation de l'inertie intra classe dans le regroupement Ensuite viennent les étapes suivantes N.B:On utilise la même matrice que pour les autres critères puisque elle utilise le carré de l'euclidienne Etape1 : on rassemble les deux premiers qui se ressemble le plus: Etape2 : On calcule le centre de gravité du groupe 1 (point rouge) puis on regarde qui est proche de qui et on fait un groupe Groupe1 Groupe2 Groupe1 Etape3 : On calcule le centre de gravité du groupe 2 (point violet) puis on regarde qui est proche de qui et on fait un groupe 3. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture