Tous les formats de fichiers ne conviennent pas au stockage des Big Data. Un format de fichier impact à la fois le stockage et les performances lors des manipulations et des traitements.
Dans Hadoop, on peut stocker des fichiers « standard » comme des fichiers textes, CSV, XML, JSON, … ou des fichiers binaires comme des images.
Plusieurs formats de fichiers de type containers ont été spécifiquement créés pour Hadoop et fonctionnent très bien avec MapReduce. Ces formats, que nous détaillerons dans ce module, peuvent être regroupés en 3 groupes principaux :
- Les formats de données structurées comme SequenceFile
- Les formats sérialisés comme Avro
- Les formats « colonne » comme Parquet
Ces formats ont chacun leurs forces et leurs faiblesses mais ils partagent tous la même caractéristique très importante dans les applications Hadoop, à savoir, la compression par bloc.