Le data mining, c’est-à-dire l’analyse de jeux de données parfois très conséquent pour en retirer des informations utiles est un sujet en pleine croissance avec de nombreux outils et entreprises qui se lancent dans le domaine. En effet, de nombreuse entreprises ont beaucoup de données sur leurs activités (clients, ventes, inventaire…) et bénéficieraient d’avoir des modèles prédictifs capables de les aider dans leur gestion quotidienne mais n’ont pas les ressources pour le faire elles-mêmes. C’est là qu’intervient Kaggle, une société australienne qui organise des concours de création de tels algorithmes, réalisant ainsi le mélange de deux sujets d’actualité : data mining et crowdsourcing.
Kaggle est une plateforme sur laquelle des entreprises viennent exposer leur problème et déposer deux jeux de données, un sur lequel travailleront les candidats et un deuxième qui permettra de juger de leur modèle. En échange d’un prix, pouvant aller d’un chiffre symbolique à plusieurs centaines de milliers de dollars voir bien plus, près de 23 000 scientifiques peuvent se pencher sur leur problème et offrir leur modèle comme solution.
Grâce au jeu de données solution, les soumissions sont immédiatement testées et chaque équipe peux voir si elle offre le meilleur algorithme. A la fin de la compétition la meilleure équipe emporte le prix et l’organisateur du concours obtient l’algorithme vainqueur en échange. En quelques sortes, Kaggle permet à tout le monde d’organiser un « Netflix prize » du nom de la célèbre société de VOD et location de DVD américaine qui lança un concours afin d’améliorer son moteur de recommandation de film Cinematch en offrant 1 million de dollars au vainqueur.
Le business model de Kaggle repose sur l’aide qu’il peut apporter aux entreprises pour organiser leur concours, mettre en forme et rendre anonyme leurs données. En novembre 2011 Kaggle a levé 11 millions de dollars et a déménagé à San Francisco pour accélérer son développement.
Parmi les projets récents on retrouve en vrac Microsoft qui souhaite améliorer la reconnaissance des gestes de sa console Kinect, des algorithme pour deviner la qualité d’une photo en fonction de ses tags et le plus célèbre, le Heritage Health Prize qui promet 3 millions de dollars à ceux qui seront capables de prédire les gens qui seront admis à l’hôpital dans les 12 prochains mois à partir de données médicales passées.