CM n°3

Introduction à l'apprentissage non supervisé

Le problème est définir des classes, c'est à dire des sous-groupes homogènes de notre ensemble de données.

Double objectif :

Note: La similarité est l'inverse de la distance

Pour construire le modèle :

Il existe de nombreuses méthodes possible pour l'apprentissage non supervisé (k-moyennes, arbre de décision, cartes de Kohonen)

Cartes de Kohonen : chaque individu est une carte et chaque carte se déforme en fonction de la similarité qu'il peut y avoir entre les individus.

Méthode des k-moyennes: Initi: choix aléatoire de k éléments qui deviennent centres de k groupes (clusters)

Définir 2 classes parmis l'ensemble de données ci-contre

Init : centres = B et D

Distance euclidienne aux centres des clusters

Centre calculé par moyenne des valeurs des attributs des éléments du cluster

On a donc :

Avec min-support = 25% et min-confiance = 65%

Créer les 1-itemsets fréquents

1 item-sets { I1, I2, I3 }

Créer les 2-itemsets

=> Tous supérieurs à 35% donc les 3 sont fréquents:

Créer les 3-itemsets

si I1 alors I2 6/9
si I2 alors I1 4/7

si I1 alors I3 4/6
si I3 alors I1 4/6

si I2 alors I3 4/7
si I3 alors I2 4/6