M1

CM n°1 - Data Mining

C.f. : http://blue-granite.com/
Ralph Kimball
Bill Innon

Modèle en étoile

Stockage des données extraites dans un entrepôt (warehouse) de données:

Structuré selon un modèle en "étoile" :

L'analyse peut se faire selon plusieurs dimensions. Par exemple à une dimension, juste une dimension temporelle, sur un semestre. Ou à 2 dimensions par exemple, nombre de ventes sur un semestre pour un vendeur en particulier.

Modèles NoSQL:

MapReduce est utilisé pour réaliser de gros calculs en parallèle sur les données.

Data mining

Analyse de grandes quantités de données afin d'en extraire des informations, par des moyens automatiques ou semi-automatiques.

Différence entre données et informations : les données sont brutes, non traitées alors que l'information est une connaissance.

Terminologie :

Il y a trois types d'algos

La métabase contient des données sur la base.