Analyser les Big Data Non-Structurées

Les données non structurées rendent le travail des scientifiques des données beaucoup plus difficile. Outre les difficultés de stockage et d’analyse, elles peuvent avoir un impact négatif sur le flux de travail et les performances si elles étaient mal gérées. De nos jours les données sont le pouvoir.

Pour simplifier la lecture et l’analyse des données non structurées, Apache Pig voit tout son utilité. Il s’agit d’une plateforme haut niveau pour la création de programme MapReduce utilisé avec Hadoop.

Pig s’appuie sur son propre langage script le Pig Latin. Ainsi les différentes étapes de transformations sont exprimées dans le langage procédural Pig Latin.

Pig Latin s’abstrait du langage de programmation Java MapReduce et se place à un niveau d’abstraction supérieur, similaire à celui du langage SQL pour les systèmes de bases de données relationnelles.

Pig se rapproche plus d’un ETL et représente un outil de traitement de données de l’écosystème Hadoop.

Pig Latin peut être étendue en utilisant des ‘fonctions définies par l’utilisateur’ (ou UDF pour User Defined Functions) que l’utilisateur peut écrire en Java, en Python, en JavaScript, en Ruby ou en Groovy pour être ensuite utilisé directement au sein du langage.

Détails du Module
  • Maîtriser les techniques de transformations et d'analyses des données non structurées.
  • Avoir une vue d'ensemble de l'architecture de Apache Pig.
  • Connaître les fonctionnalités générales et les capacités de Apache Pig.
  • Comprendre le modèle de données de Pig.
  • Charger et de manipuler des données de types et de formats différents avec Pig Latin.
  • Optimiser les traitements générés.
  • Utiliser des librairies Pig externes.
  • Partage des schémas de données avec Hive.
  • Directeurs techniques
  • Chefs de projets
  • Architectes
  • Consultants
  • Administrateurs de bases de données
  • Développeurs d'applications
  • Avoir des connaissances générales sur le Big Data
  • Connaître l'infrastructure de Hadoop ou avoir suivi le module 'Stocker et traiter les Big Data'.
  • Une connaissance de base du langage SQL peut être utile pour mieux comprendre le langage HiveQL

1 - Introduction à Pig

  • Comprendre les données non-structurées.
  • Architecture et fonctionnement de Pig.
  • Exploration d'un script Pig Latin.

 

2 - Présentation du Pig Latin

  • Utilisation
  • Fonctionnement
  • Syntaxe
  • Types et modèle de données

 

3 - Manipulation des données avec Pig Latin

  • Chargement des données avec la fonction PigStorage.
  • Pig Latin et les Schémas de données.
  • Expolorer les variables avec la commande DESCRIBE.
  • Sélection des données avec l'instruction FOREACH..GENERATE.
  • Regrouper les données avec l'instruction Group..BY.
  • Filtrer les données avec l'instruction Filter..BY.
  • Afficher les données avec l'nstruction DUMP.
  • Sauvegarder les données avec l'instruction STORE.

 

4 - Présentation de HCatalog

  • Introduction à HCatalog.
  • Architecture et fonctionnement de HCatalog.
  • Partage de schémas entre Hive et Pig avec HCatalog.

1 - Manipulation des données avec Pig Latin

  • Chargement des données avec la fonction PigStorage.
  • Pig Latin et les Schémas de données.
  • Expolorer les variables avec la commande DESCRIBE.
  • Sélection des données avec l'instruction FOREACH..GENERATE.
  • Regrouper les données avec l'instruction Group..BY.
  • Filtrer les données avec l'instruction Filter..BY.
  • Afficher les données avec l'nstruction DUMP.
  • Sauvegarder les données avec l'instruction STORE.

 

2 - Interagir avec HCatalog

  • Introduction à HCatalog
  • Architecture et fonctionnement de HCatalog
  • Partage de schémas entre Hive et Pig avec HCatalog
Classe Virtuelle
Inclus tous les modules connexes
249.00 CAD$

Inscription au module  'Analyser des Données Struturées'   avec Hive et Impala

Inscription au module  'Analyser des Données Non-Struturées'   avec Pig

Inscription au module  'Analyser des Données avec Spark SQL'  

Inscription au module connexe  'Format des Fichiers des Données Massives' (Avro et Parquet) 

Durée totale de 12 heures (4 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis