Stocker et Traiter les Big Data

Hadoop est le framework incontournable pour le traitement et le stockage des données massives. Hadoop fait partie des projets de la fondation logicielle Apache depuis 2009. C’est un framework open source écrit en Java, destiné à faciliter la création d’applications distribuées (au niveau du stockage des données et de leurs traitement). Il simplifie la mise à l’échelle de l’infrastructure permettant ainsi aux applications de travailler avec des milliers de machines (nœuds) et des pétaoctets de données à un coût raisonnable. Ceci étant, les différents nœuds sont constitués de machines standard regroupées en grappe (cluster).

Etant donné que les pannes matérielles sont fréquentes, tous les modules de Hadoop sont conçus pour être tolérants aux pannes. Par conséquent, les pannes sont prises en charge et gérées automatiquement par le framework Hadoop.

Hadoop a été créé par Doug Cutting en 2006. Il a été inspiré par les publications de Google relatives au stockage et au traitement distribué des données. A savoir MapReduce pour le traitement, GoogleFS  et BigTable pour le stockage des données.

Détails du Module
  • Identifier et définir les différents composants de l’écosystème Hadoop.
  • Comprendre et Utiliser Hdfs, MapReduce et Yarn.
  • Apprendre à envoyer des données à Hadoop.
  • Apprendre à interagir avec HDFS.
  • Lancer des applications MapReduce pour manipuler de données stockées sur HDSF.
  • Administrateur système.
  • Développeur (Java / Python).
  • Toute personne désirant apprendre l'écosystème Hadoop.
  • Une connaissance / pratique de base des lignes de commande Linux est requise.
  • Comprendre les principes de base de la programmation Java / Python.
  • La connaissance de logiciels de virtualisation (Virtualbox, VMware, ...) est un plus.
  • Aucune expérience préalable avec Hadoop n’est nécessaire.

1 - Stockage des données avec Hadoop

  • Présentation de l'architecture Master-Slave de Hadoop.
  • Comprendre l'architecture et le fonctionnement de HDFS.
  • Identifier la fonction du NameNode, DataNode, Secondary Node.
  • Anatomie des opérations de Lecture/Ecriture des données sur HDFS.
  • Interagir avec HDFS (charger, extraire, lire des données).
  • Utilisation de Apache Zeppelin pour interagir avec HDFS.

2 - Excercices pratiques - Interagir avec HDFS

  • Charger des données sur HDFS.
  • Lire des données à partir de HDFS
  • Création et suppression de répertoires sur HDFS
  • Sécuriser HDFS avec le mode 'Lecture Seule'
  • Vérifier l'état de HDFS.
  • Interagir avec HDFS à partir de Zeppelin.

 

1 - Traitement des données avec Hadoop

  • Présentation de MapReduce.
  • Architecture du flux MapReduce.
  • Anatomie des opérations Lecture/Ecriture avec MapReduce (Combiner, Partitioner).
  • Anatomie d'une application MapReduce en Java et Python (class Mapper, class Reducer, class driver).

 

2 - Exercices pratiques - Traitement des données avec Hadoop

  • Lancer une application MapReduce en ligne de commande.
  • Lire et comprendre les compteurs Hadoop MapReduce.
  • Extraire le résultat d'un traitement MapReduce.
  • Ecrire une application MapReduce en Java et/ou Python.
  • Lancer une application MapReduce à partir de Zeppelin.

 

Classe Virtuelle
Inclus tous les Modules Connexes
149.00 CAD$

Inscription au module   'Stockage et Traitement des données'  avec Hadoop (HDFS et MapReduce)

Inscription au module   'Traitement des données avec Spark'  

Durée totale de 9 heures (3 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis