CM n°1 - Data Mining
- Informatique opérationnelle
- Gestion au quotidient fondamentale de l'activité de l'entreprise
- Création, enregistrement, mises à jour de données
- BDD transactionnelles OLTP = OnLine Transaction Protocol
- SGBD rela
- Information décisionnelle
- Pour l'aide à la décision et la communication (internet et externe) de l'entreprise
- Données extraites du système opérationnel et de sources externes (big data)
- Stockage dans infocentres, lacs de données (data lakes), entrepôts de données (data warehouses) avec modèles de données spécifiques
- Suites logicielles pour l'aide à la décision (incluant fouille de données, data mining), CMS, technos web.
C.f. : http://blue-granite.com/
Ralph Kimball
Bill Innon
Modèle en étoile
Stockage des données extraites dans un entrepôt (warehouse) de données:
- Entrepôt de données : stockage de données consolidées, provenant d'une ou plusieurs source internes ou externes à l'entreprise.
- Magasin de données (datamart) : sous ensemble d'un data warehouse utilisé généralement pour supporter un ensemble de fonnctionnalités spécifiques à une activité
Structuré selon un modèle en "étoile" :
- Table de faits
- Tables de dimensions
L'analyse peut se faire selon plusieurs dimensions. Par exemple à une dimension, juste une dimension temporelle, sur un semestre. Ou à 2 dimensions par exemple, nombre de ventes sur un semestre pour un vendeur en particulier.
- Data warehouses avec modèle relationnel
- Data lakes avec NoSQL
Modèles NoSQL:
- Clé-valeur
- Documents
- Colonnes
- Graphes
MapReduce
est utilisé pour réaliser de gros calculs en parallèle sur les données.
Data mining
Analyse de grandes quantités de données afin d'en extraire des informations, par des moyens automatiques ou semi-automatiques.
Différence entre données et informations : les données sont brutes, non traitées alors que l'information est une connaissance.
- KDD = Knowledge Discovery in Databases
- ECD = Extration automatique de Connaissances à partie de Données
Terminologie :
- Reporting : fonctionnalités du type "dis moi ce qui s'est passé"
- OLAP (Online analytical processig) : "Dis moi ce qui s'est passé", plus détaillé que le reporting.
- Datamining : "Dis moi ce qui pourrait se passer"
Il y a trois types d'algos
- Classement, affectation à une classe parmi des classes connues (cf. diapo 35)
- Définition de classes, clusters = groupes homogènes (cf. diapo 36)
- Découverte de régles cachées (cf. diapo 37)
La métabase contient des données sur la base.