Le problème est définir des classes, c'est à dire des sous-groupes homogènes de notre ensemble de données.
Double objectif :
Note: La similarité est l'inverse de la distance
Pour construire le modèle :
Il existe de nombreuses méthodes possible pour l'apprentissage non supervisé (k-moyennes, arbre de décision, cartes de Kohonen)
Cartes de Kohonen : chaque individu est une carte et chaque carte se déforme en fonction de la similarité qu'il peut y avoir entre les individus.
Méthode des k-moyennes: Initi: choix aléatoire de k éléments qui deviennent centres de k groupes (clusters)
Définir 2 classes parmis l'ensemble de données ci-contre
Init : centres = B et D
Distance euclidienne aux centres des clusters
Centre calculé par moyenne des valeurs des attributs des éléments du cluster
Exemples | X | Y |
---|---|---|
A | 1 | 3 |
B | 2 | 2 |
C | 2 | 3 |
D | 2 | 4 |
E | 4 | 2 |
F | 5 | 2 |
G | 6 | 2 |
H | 7 | 3 |
On a donc :
Avec min-support = 25% et min-confiance = 65%
Créer les 1-itemsets fréquents
1 item-sets { I1, I2, I3 }
Créer les 2-itemsets
=> Tous supérieurs à 35% donc les 3 sont fréquents:
Créer les 3-itemsets
si I1 alors I2 6/9 si I2 alors I1 4/7 si I1 alors I3 4/6 si I3 alors I1 4/6 si I2 alors I3 4/7 si I3 alors I2 4/6