Formats de Fichiers pour Big Data

Tous les formats de fichiers ne conviennent pas au stockage des Big Data. Un format de fichier impact à la fois le stockage et les performances lors des manipulations et des traitements.

Dans Hadoop, on peut stocker des fichiers « standard » comme des fichiers textes, CSV, XML, JSON, … ou des fichiers binaires comme des images.

Plusieurs formats de fichiers de type containers ont été spécifiquement créés pour Hadoop et fonctionnent très bien avec MapReduce. Ces formats, que nous détaillerons dans ce module, peuvent être regroupés en 3 groupes principaux :

  • Les formats de données structurées comme SequenceFile
  • Les formats sérialisés comme Avro
  • Les formats « colonne » comme Parquet

Ces formats ont chacun leurs forces et leurs faiblesses mais ils partagent tous la même caractéristique très importante dans les applications Hadoop, à savoir, la compression par bloc.

Détails du Module
  • Comprendre qu'est-ce q'un format de fichier valide.
  • Connaître les différents formats de fichiers compatibles avec Hadoop. En particulier ceux orientés lignes et ceux orientés colonnes.
  • Apprendre comment choisir le bon format de fichier pour un stockage optimal et une analyse performante.
  • Architectes
  • Consultants
  • Administrateurs de bases de données
  • Développeurs d'applications
  • Avoir des connaissances générales sur le Big Data
  • Connaître l'infrastructure de Hadoop ou avoir suivi le module 'Stocker et traiter les Big Data'.
  • Une connaissance de Hive et Impala est nécessaire pour réaliser les exercices pratiques.

1 - Introduction aux Formats de Fichiers

  • Définition d'un format de fichier.
  • Présentation des caractéristiques principales d'un format.
  • Décrir et Choisir les formats compatibles avec Hadoop.

 

2 - Introduction au format orienté Lignes

  • Exploration et fonctionnement du format Avro.
  • Structure d'un fichier Avro.
  • Utilisation dans Hadoop.
  • Outils disponibles pour manipuler un fichier Avro.

 

3 - Introduction au format orienté Colonnes

  • Exploration et fonctionnement du format Parquet.
  • Structure d'un fichier Parquet.
  • Utilisation dans Hadoop.
  • Outils disponibles pour manipuler un fichier Parquet.

 

1 - Manipulation des fichiers Avro

  • Création d'un contenaire de fichier Avro.
  • Définition d'un schema de données à stocker dans le fichier Avro.
  • Importation de données dans un contenaire Avro.
  • Création d'une table Hive pour interagir avec le fichier Avro.

 

2 - Manipulation des fichiers Parquet

  • Création d'un contenaire de fichier Parquet.
  • Définition d'un schema de données à stocker dans le fichier Parquet.
  • Importation de données dans un contenaire Parquet avec une stratégie de partitionnement
  • Création d'une table Impala pour interagir avec le fichier Parquet

 

Classe Virtuelle
Inclus tous les modules connexes
249.00 CAD$

Inscription au module  'Analyser des Données Struturées'   avec Hive et Impala

Inscription au module  'Analyser des Données Non-Struturées'   avec Pig

Inscription au module  'Analyser des Données avec Spark SQL'  

Inscription au module connexe  'Format des Fichiers des Données Massives' (Avro et Parquet) 

Durée totale de 12 heures (4 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis