Analyser des Données Massives Structurées et Non-Structurées

Cette formation couvre l’analyse des données massives, Structurées et Non-Structurées (deux aspects principaux du type d’une donnée à l’aide des outils d’analyse des framework Hadoop et Spark, tels que Hive, Pig, Impala et Spark SQL

Nous explorons en détail les caractéristiques des données Structurées et celles des données Non-Strtucturées avec des exercices pratiques afin de vous permettre de bien comprendre et de maîtriser les concepts et les technologies.

Au terme de cette formation vous serez en mesure de :

  • Expliquer le fonctionnement de Pig, Hive et de Impala
  • Lire des données Structurées (stockées sur HDFS ou en local) à l’aide de Hive, Impala et Spark SQL
  • Lire des données Non-Structurées (stockées sur HDFS ou en local) à l’aide de Pig
  • Créer des partitions statiques et dynamiques des données massives
  • Optimiser l’organisation des données massives dans Hive avec le Bucketing
  • Ecrire et lancer du code Spark SQL pour lire et analyser les données
  • Comprendre les différents formats de fichiers de données (Avro, Parquet et ORC)
  • Choisir le meilleur format de fichiers pour optimiser le stockage te l’analyse de vos données

Cette formation se décompose en trois parties (6 séances de 2.5 heures) dispensées le samedi et le dimanche sur deux semaines.

La première partie est consacrée à Hive/Impala et Spark SQL pour l'analyse des données structurées avec des exercices pratiques.

La deuxième partie est consacrée à Pig, et à une introduction au language Pig Latin dédié à l'analyse des données non-structurées accompagnée de plusieurs exercices pratiques.

La troisième partie est consacrée aux différents formats des fichiers de données tels que Avro, Parquet et ORC avec plusieurs exercices pratiques pour illustrer leur différences et avantages de chacun.

  • Comprendre l'usage de Hive, Pig, Impala et Spark SQL comme outils d'analyse des données massives.

Explorer Hive / Impala :

  • Identifier et définir les différents types de données (Structurées et Non-Structurées).
  • Comprendre et Utiliser Hive, Impala et Spark SQL.
  • Apprendre à créer des tables internes et externes, des partitions dynamiques et statiques avec Hive.
  • Organiser les données pour optimiser les temps de traitements.
  • Utiliser des librairies Hive externes.

Explorer Spark SQL:

  • Avoir une vue d'ensemble de SparkSQL.
  • Connaître les fonctionnalités générales et les capacités des DataFrames Spark.
  • Comprendre le modèle de données de SparkSQL.
  • Charger et de manipuler des données de types et formats différents avec SparkSQL.

Explorer Pig:

  • Maîtriser les techniques de transformations et d'analyses des données non structurées.
  • Avoir une vue d'ensemble de l'architecture de Apache Pig.
  • Connaître les fonctionnalités générales et les capacités de Apache Pig.
  • Comprendre le modèle de données de Pig.
  • Charger et de manipuler des données de types et de formats différents avec Pig Latin.
  • Partage des schémas de données avec Hive.

Explorer Les formats de données Avro, Parquet et ORC :

  • Comprendre qu'est-ce qu'un format de fichier valide.
  • Connaître les différents formats de fichiers compatibles avec Hadoop. En particulier ceux orientés lignes et ceux orientés colonnes.
  • Créer et comparer différents format de fichiers de données.

Apprendre comment choisir le bon format de fichier pour un stockage optimal et une analyse performante.

  • Archiecte/Administrateur système
  • Développeur (Java / Python)
  • Administrateurs de bases de données
  • Une connaissance / pratique de base des lignes de commande Linux est requise.
  • Comprendre les principes de base du language SQL.
  • La connaissance de logiciels de virtualisation (Virtualbox, VMware, ...) est un plus.
  • Aucune expérience préalable avec Hadoop/Spark n’est nécessaire.

Le formateur est un expert du domaine qui intervient sur le sujet depuis plusieurs années en formation mais aussi en conseil.

Doté d’une grande qualité d’écoute, sa pédagogie et sa compétence technique vous permettront d’acquérir les compétences sur les architectures Big Data.

Les modules composants cette formation apparaissent dans la section 'Modules de ce Cours" de la présente page.

A l'issue de la formation et sous conditions d'avoir respecté les règles de présences (80% au moins) et d'avoir réussi la réalisation du projet final, nous vous remettons un certificat d'achèvement. Ce certificat vous aidera à avoir une longueur d'avance sur vos concurrents: avec les certificats en ligne de Big Data Facile, vous serez en mesure de prouver votre croissance professionnelle à tout le monde.

Tarifs
Inclus Un Environnement de Travail Pratique
249.00 CAD$

Inscription au module  'Analyser des Données Massives Struturées'

Inscription au module  'Analyser des Données Massives Non-Struturées'

Inscription au module  'Analyser des Données Massives avec Spark SQL'

Inscription au module  'Format des Fichiers des Données Massives'

Durée totale de 15 heures (6 sessions de 2.5 heures chacune).

Livrée en ligne.

Accès aux slides du cours.

Support individuel par email.

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure.

Détails du Cours
Horaires du cours
  • Samedi
    07:00 - 09:30
  • Dimanche
    07:00 - 09:30
Détails du Cours
Horaires du cours
  • Samedi
    07:00 - 09:30
  • Dimanche
    07:00 - 09:30