M1

Partie 1

Répondre de manière précise aux questions suivantes :

1. Qu'est-ce qu'une semi-jointure ? En quoi cette technique est-elle intéressante ?

Une semi jointure est une jointure entre deux tables mais ne donnant pour résultat que les attributs d'une des deux tables.

L'avantage est qu'à l'issue de la semi-jointure, il y a donc moins de données à télécharger qu'avec une jointure classique.

2. Qu'est ce qu'un modèle de réplication synchrone-asymétrique

Un modèle de réplication synchrone est un modèle de replication des données dans lequel toutes les opérations de mise à jour sont réalisés dans une seule transaction.

Lorsqu'un modèle de réplication est asymétrique, il n'y a qu'une copie primaire des données et N autres copies secondaires.

La réplication synchrone-asymétrique utilise un site primaire qui propage les mises à jour en temps réel vers un ou plusieurs sites secondaires. La table répliquée est immédiatement mise à jour pour chaque modification par utilisation de trigger sur la table maître.

3. Quel est l'intérêt de la fragmentation dans la mise en place des bases de données réparties ?

La fragmentation améliore la performance en favorisant les accès locaux et permet l'équilibrage de la charge entre les sites.

4. Quel est l'intérêt des schémas XML par rapport aux DTD ?

Les schémas XML présentent l'avantage d'être écrit en XML, au contraire des fichiers DTD qui sont eux plus verbeux et écrits en SGML. Les schémas XML permettent également de spécifier le type des données, ce qui n'est pas possible avec un DTD alors que le typage est une notion importante en base de données.

Partie 2

1. Répondre aux questions suivantes (3 ou 4 phrases maximum par réponse)

1.1 Concernant la fouille des données, expliquer la différence entre les techniques supervisées et celles qui sont non-supervisées

La différence entre ces deux types de technique est que les techniques supervisées partent du principe que les classes/clusters sont déjà connus pour déterminer où placer les éléments alors que les techniques non-supervisées permettent justement de déterminer les classes/clusters dans lesquels ranger les données.

1.2 Expliquer quelle est la méthode de validation généralement utilisée en classification lorsque l'on dispose d'un volume important de données

La méthode de validation généralement utilisée avec un grand volume de données est la méthode par validation croisée où si l'ensemble de nos données est divisé en N groupes, on utilise N-1 groupes pour l'apprentissage et 1 groupe de test. Chaque groupe change de rôle au fur et à mesure de la validation.

1.3 Quelle est la condition permettant d'arrêter l'algorithme des K-Means ?

L'algorithme des K-Means consiste à:

1.4 Expliquez le principe utilisé par l'algorithme APriori pour évaluer tous les sous-ensembles possibles de l'ensemble initiale de données

L'algorithme APriori se base sur la définition d'un support qui est utilisé comme fréquence minimale pour déterminer si un k-itemset est intéressant ou non. Les k+1-itemsets sont ensuite construits à partir des k-itemset qui sont suffisament fréquents.

2. L'utilisation de l'algorithme KNN sur un ensemble de données en faisant varier le paramètre k a produit les résultats suivants :

k 1 2 4 5 7 8 9 10
bien classés 70.18 71.35 72.13 73.17 74.73 72.26 72.13 71.09

2.1. Expliquer en 3 ou 4 phrases maximum quelle est l'influence de la valeur de k

K-NN, méthode des k plus proches voisins. La variable k permet de faire varier le nombre de voisins à considérer pour classer la donnée étudiée. Plus le chiffre est bas et moins on utilise des voisins pour classifier notre nouvelle donnée, le risque est donc plus grand. De même si on utilise un chiffre trop grand, on va considérer des voisins de plus en plus éloignés et donc moins en rapport avec la donnée étudiée. Il faut trouver le juste milieu.

2.2 Que peut-on déduire des résultats ci-dessus ?

Avec k=7, on peut classifier au mieux les nouvelles entrées avec le taux d'erreurs le plus bas mais les valeurs de k listées ci-dessus ne changent pas drastiquement le pourcentage d'éléments bien classés.

3. On dispose des données ci-dessous : 10 instances numérotées, avec 3 attributs x, y et z.

3.1 Normaliser ces données en utilisant la formule vue en TP :

V'ij = (vij - Vj min) / (Vj max - Vj min)

No x y z
1 0 0.3 0.61
2 1 0.9 0.5
3 1 0.8 0.666
4 0 0 0.73
5 0 0.1 0.3
6 0 1 1
7 0 0.2 0
8 0 0 0.2
9 0 0.4 0.666
10 0 0.2 0.4

3.2 Proposer une mesure de distance simple et utilisable sur ces données. Donner un exemple d'utilisation en donnant la valeur de distance entre les instances n°6 et 7

On peut utiliser la distance Euclidienne pour calculer la distance entre 2 éléments du tableau. Calcul de la distance entre 6 et 7 :

3.3 Reprendre les données initiales (non normalisées) et modifier maintenant ces données de façon à ce qu'elles soient utilisables par des algorithmes n'étant pas capable de traiter que des valeurs nominales ou discrètes (utiliser une répartition en 2 ensembles de même fréquence)

Il faut donc trouver une valeur médianne pour chaque colonne / attribut. Par exemple, pour la colonne y, si on prend 2.5, il y a autant de lignes qui possèdent un y ≤ 2.5 et autant qui ont un y > 2,5.

On peut donc noter 0 pour <= 2.5 et 1 pour > 2.5.
On fait la même méthode pour z, on peut prendre comme valeur médiane 66, avec 0 pour ≤ 66 et 1 pour > 66. On a donc :

No x y z
1 0 1 1
2 1 1 0
3 1 1 1
4 0 0 1
5 0 0 0
6 0 1 1
7 0 0 0
8 0 0 0
9 0 1 1
10 0 0 0

4. On vous donne l'arbre de décision suivant, qui concerne la préconisation de lentilles de contact (pas de lentille, lentilles souples ou dures) Les données chiffrées (x/y) signifient : x = nombre d'individus dans la feuille, y = nombre d'individus mal classés parmi les x de la feuille

4.1 Donner le taux d'erreur associé à cet arbre

Pour calculer le taux d'erreur, il suffit juste de compter le nombre d'individus mal classés et de calculer son pourcentage par rapport au nombre total d'individus

4.2 Lister les règles issues de cet arbre avec un support minimal à 5, et donner leur valeur de confiance (%)

Avec un support minimal à 5, on garde les 2 premières règles car les 2 dernières possèdent 3 individus chacun.