Hadoop est le framework incontournable pour le traitement et le stockage des données massives. Hadoop fait partie des projets de la fondation logicielle Apache depuis 2009. C’est un framework open source écrit en Java, destiné à faciliter la création d’applications distribuées (au niveau du stockage des données et de leurs traitement). Il simplifie la mise à l’échelle de l’infrastructure permettant ainsi aux applications de travailler avec des milliers de machines (nœuds) et des pétaoctets de données à un coût raisonnable. Ceci étant, les différents nœuds sont constitués de machines standard regroupées en grappe (cluster).
Etant donné que les pannes matérielles sont fréquentes, tous les modules de Hadoop sont conçus pour être tolérants aux pannes. Par conséquent, les pannes sont prises en charge et gérées automatiquement par le framework Hadoop.
Hadoop a été créé par Doug Cutting en 2006. Il a été inspiré par les publications de Google relatives au stockage et au traitement distribué des données. A savoir MapReduce pour le traitement, GoogleFS et BigTable pour le stockage des données.