Créez une forme d’intelligence à partir des données
Depuis 2 ans, le blog MSDN Big Data France (aka.ms/BigDataFrance) essaie de démystifier ce que l’on appelle aujourd’hui les Big Data ou déluge de données. Dans ce contexte, nous remarquons qu’aujourd’hui les termes #BigData et Machine Learning sont de plus en plus employés à tort et utilisés de manière interchangeables.
Si savoir accéder à et traiter ces grands volumes de données de manière efficace (Big Data) s’avère nécessaire, tout l’enjeu de l’analyse de données réside dans l’art de tirer du sens de ces données.
D'ailleurs nous devrions plus parler de "Machine Learning" que de Big Data.
Bernard Ourghanlian, Directeur technique Microsoft France
Cette discipline est appelée fouille de données (Data Mining) ou plus récemment apprentissage automatique (Machine Learning) :
- Le Data Mining s’attache à tirer de l’information des données. (Les Analytics sont des outils qui permettent de faire dans la pratique de la fouille de données.)
- Le Machine Learning désigne une branche de l’intelligence artificielle, qui tente de créer une forme d’intelligence à partir de données.
Si Data Mining et Machine Learning correspondent à une discipline similaire dans notre contexte, nous garderons cependant le terme Machine Learning, rappelant souvent des méthodes plus avancées et plus dans l’ère du temps.
Cette « clarification » étant faite, Big Data et Machine Learning désignent par contre deux domaines différents qu’il convient de traiter de manière différente. Toutefois, la confusion générale entre ces deux disciplines n’est pas due au hasard. Il existe un lien fort entre elles et souvent il s’avère intéressant de faire des Big Data et du Machine Learning en même temps, mais dans la plupart des cas il est question de Machine Learning sans parler de Big Data, et inversement, on peut parler de Big Data sans parler de Machine Learning.
Si l’on admet que la compréhension du monde pour le Machine Learning est stockée sous forme de modèle et est réutilisable sur de nouveaux jeux de données afin de faire des prédictions, il s’avère ainsi possible de comprendre le lien entre Big Data et Machine Learning de la manière suivante :
Concevoir un modèle en Machine Learning nécessite des données, et c’est à partir des informations extraites de ces données que l’on peut prendre une décision. Plus les données d’entraînement sont complètes, plus la décision prise est fine. Les Big Data interviennent donc en complément du Machine Learning, car ils permettent d’appliquer les méthodes de Machine Learning sur de grands volumes de données, en espérant qu’augmenter le volume de données apporte plus d’informations pour la prise de décision.
Dans des études de Machine Learning, afin d’obtenir un modèle prédictif performant, on sera souvent tentés d’analyser de très grandes sources de données, typiquement des réseaux sociaux, bien que le volume de données ne soit pas une nécessité, loin s’en faut.
Pour dissiper la confusion générale, le blog MSDN Big Data France continuera à traiter des Big Data et laissera à ce nouveau blog MSDN Machine Learning France (aka.ms/MLFrance) que nous introduisons aujourd’hui au travers de ce billet la charge de traiter des sujets de Machine Learning.
Nous espérons que cette division apportera une clarification sur les domaines traités et permettra aux acteurs des différents domaines de trouver leur bonheur plus rapidement :)
A l’instar du blog Big Data France, ce nouveau blog vous propose d’entrer de façon pragmatique dans le monde du Machine Learning avec l’explication des principes de base, la mise en avant de problématiques données assorties de la proposition de scénarios/solutions type prêts à l’usage. Ce blog sera également l’occasion de faire des focus particuliers sur la mise en œuvre concrète d’une technologie particulière dans le contexte des solutions Microsoft pour le Machine Learning.
Le Machine Learning transforme donc les données en logiciel. Les scientifiques des données (data scientists) créent ainsi du logiciel qui s’entraine sur des (très grands volumes de) données, le logiciel pouvant considérer un nombre de variables bien supérieur à ce que peut prétendre un être humain pour prendre la même décision. Ainsi, le Machine Learning correspond à des systèmes informatiques qui s’améliorent avec l’expérience utilisant des données passées pour prédire l'avenir.
Matérialiser l’un des vieux rêves du co-fondateur de Microsoft Bill Gates : Les ordinateurs qui peuvent voir, entendre et comprendre.
John Platt, Distinguished scientist chez Microsoft Research
Dans la pratique, s’il est d’ores et déjà possible d’appliquer des méthodes tirées du Machine Learning à de nombreux scénarios du monde réel:
Il y en a bien d'autres... Nous vous recommandons à ce titre la lecture des liens suivants qui présentent des applications innovantes en Machine Learning :
- So, can Twitter really help expose psychopath killers’ traits?
- Six Novel Machine Learning Applications
Bientôt le Machine Learning aidera à réduire considérablement les temps d'attente aux urgences, à prévoir les pics d’épidémie, et à prédire et à prévenir la criminalité. Un "parfum" de Minority Report, nous direz-vous avec la préscience ;)
Nous espérons avoir éveillé vos curiosité et intérêts aux vues des possibilités en Machine Learning et vous compter parmi nos lecteurs (et commentateurs) réguliers :)
Si vous souhaitez maintenant comprendre comment les principes de fonctionnent de ces méthodes et les appliquer, nous vous donnons rendez-vous dans les prochains billets de ce blog.
Dans l’intervalle, n’hésitez pas à visiter également le blog du groupe produit sur le Machine Learning (en anglais) pour en savoir.
Comments
- Anonymous
June 14, 2015
Merci pour la clarification sur la distinction des concepts machinelearning/datamining/bigdata , cette distinction n'étant pas toujours claire même chez les professionnels du secteur