Apache Spark est un outil permettant de faire le traitement de grands volumes de données en mémoire, et ce, de manière distribuée (cluster computing). Spark offre un modèle de programmation plus simple que celui de Hadoop et permet des temps d’exécution jusqu’à 100 fois plus rapides.
Apache Spark est né en 2009 dans le laboratoire AMPLab de l’université de Berkeley en partant du principe que :
- d’une part, la RAM coûte de moins en moins cher et les serveurs en ont donc de plus en plus à disposition
- de plus en plus de jeux de données ont une taille qui tient en mémoire RAM.
Le projet a intégré l’incubateur Apache en juin 2013 et est devenu un “Top-Level Project” en février 2014.