Le data mining est un des composants du Big Data. Il s’agit d’outils analytiques qui permettent de procéder à l’analyse de données.
 

Qu’est-ce que le data mining ?

Le terme « data mining » définit un des composants essentiels de la technologie du Big Data et des techniques d’analyse de données volumineuses. En d’autres termes, il s’agit de logiciels faisant partie des outils analytiques permettant l’analyse de données.

À noter : le data mining représente une suite d’algorithmes d’apprentissage qui permet d’exploiter un grand nombre de données.

Quels sont les différents types de données qui sont analysés ?

Les données analysées peuvent êtres de différents types. En effet, elles peuvent représenter des faits, mais aussi des nombres ou des textes. Le point commun est qu’elles peuvent toutes être traitées par un ordinateur. Parmi les différentes données, nous retrouvons dans un premier temps les « données opérationnelles », aussi appelées « données transactionnelles ». Elles regroupent par exemple les données de ventes ou de coût, d’inventaire, ou encore, de comptabilité.

Les « données non opérationnelles », définissent quant à elles les ventes industrielles, mais aussi les données prévisionnelles et macroéconomiques.

Et finalement, la troisième catégorie est celle des « métadonnées ». Les métadonnées sont les données qui concernent les données elles-mêmes. Par exemple, les définitions d’un dictionnaire de données.

Quel processus suit le data mining ?

Le data mining suit une démarche qui repose sur 5 étapes.

  • La première consiste à définir le problème. En d’autres termes, il s’agit de définir le but de l’analyse : À quel sujet d’enquête va-t-elle répondre ? Et dans quel but ?
  • Les données sont ensuite collectées. Cette étape essentielle consiste en l’analyse de données utilisables. Il est important de s’assurer de la qualité des données utilisées. En effet, le fait d’écarter les données douteuses permet d’assurer un résultat optimal.
  • L’étape suivante consiste en la mise en place du modèle d’analyse.
  • Vient ensuite l’étude des résultats. Une analyse pointilleuse permettra de vérifier que les résultats répondent correctement aux objectifs établis durant la première étape du processus.
  • L’aboutissement de la démarche arrive lors de la formalisation et de la diffusion des résultats. À ce moment-là, ils deviennent alors une connaissance partagée.

Quelles sont les différentes méthodes de data mining ?

Parmi les méthodes de data mining, cinq catégories existent :

  • Dans un premier temps, nous retrouvons « l’association ». Cette méthode consiste à rechercher des similitudes, ou encore un lien, entre les patterns ;
  • « L’analyse de séquence » consiste quant à elle à chercher des patterns au sein desquelles un événement va amener à un second événement plus tardif ;
  • On retrouve également la « classification », qui tend à chercher de nouveaux patterns, même si cela nécessite le changement d’organisation de données ;
  • Le « clustering » vise à trouver visuellement des groupes de faits qui étaient jusqu’alors inconnus ;
  • Et enfin, la « prédiction », aussi appelée « l’analyse prédictive », permet de découvrir des patterns de données qui peuvent mener à des prédictions sur le futur.