Analyser les Big Data Structurées

Les données structurées font référence à toute information segmentée et stockée de manière prédéfinie. Ce type de données existe dans différentes parties du système d’information d’une entreprise. Chaque élément de la donnée est étiqueté et stocké selon un modèle de données global. Cette phase est la première étape de la science des données, juste après la phase de collecte des données brutes.

Analyser des données massives est un gros défis. Surtout lorsqu’il s’agit de performances. En effet, analyser un gros volume de données et obtenir les résultats plusieurs heures après voire plusieurs jours risquerait d’impacter négativement l’entreprise.

Apache Hive est considéré comme l’entrepôt de données (DataWarehouse) de Apache Hadoop.  C’est un framework extensible, open-source écrit en Java, initialement créé par Facebook.

Il permet d’effectuer facilement et rapidement des requêtes  « SQL-like »  pour extraire efficacement des données stockées sur HDFS (système fichiers distribués de Apache Hadoop). Contrairement à Hadoop, Hive permet d’effectuer des requêtes SQL sans avoir besoin d’écrire du code MapRreduce Java.

HiveQL (Hive Query Language) est le langage « SQL-like » de Hive. Ce langage est devenu la solution la plus populaire pour effectuer des requêtes et analyser les données stockées dans Hadoop. Il s’agit d’une solution économique et pouvant être mise à l’échelle facilement. Pour cette raison, de nombreuses entreprises comme Netflix et Amazon utilisent et contribuent à améliorer Apache Hive.

Détails du Module
  • Avoir une vue d'ensemble de l'architecture de Apache Hive et de Impala.
  • Connaître les fonctionnalités générales et les capacités de Apache Hive et Impala.
  • Comprendre le modèle de données de Hive.
  • Charger et de manipuler des données de types et formats différents avec HiveQL.
  • Organiser les données pour optimiser les temps de traitements.
  • Utiliser des librairies Hive externes.
  • Directeurs techniques.
  • Chefs de projets.
  • Architectes.
  • Consultants.
  • Administrateurs de bases de données.
  • Développeurs d'applications.
  • Avoir des connaissances générales sur le Big Data
  • Connaître l'infrastructure de Hadoop ou avoir suivi le module 'Stocker et traiter les Big Data'.
  • Une connaissance de base du langage SQL peut être utile pour mieux comprendre le langage HiveQL

1 - Introduction à Apache Hive

  • Présentation des approches pour analyser des données massives.
  • Présentation de Apache Hive.
  • Fonctionnement de Hive.
  • Architecture haut niveau de Hive.
  • Terminologie de Hive.
  • Modèle de données de Hive.

 

2 - Structuration des données

  • Organiser les données dans Hive.
  • Imposer la structure sur les données avec Hive.
  • Partitionner les données.
  • Concevoir la disposition des données pour la performance.
  • Comprendre l'importance des tables Hive managées et non-managées.

 

3 - Introduction à Hive Query Language (HiveQL)

  • Utilisation.
  • Fonctionnement.
  • Syntaxe.
  • Types de données.
  • Exposer les différences entre les types de données dans Hive.
  • Composer des requêtes HiveQL.

 

4 - Chargement des données

  • Charger des données dans les tables managées avec la fonction Load.
  • Lire des données partitionnées.
  • Organiser les données dans les Buckets Hive

 

5 - Introduction à Impala

  • Architecture et composants principaux de Impala.
  • Hive vs Impala.
  • Langage Impala SQL.

 

1 - Manipulation des données avec Hive

  • Création de bases de données
  • Création de tables managées et non-managées.
  • Création de tables partitionnées.
  • Chargement des données dans des partitions statiques.
  • Chargement des données dans des partitions dynamiques.
  • Mise en place du Partitionnement et du Bucketing dans Hive.
  • Utilisation des librairies de fonctions externes

 

2 - Manipulation des données avec Impala

  • Partage des meta-données de Hive.
  • Syntaxe Impala SQL.
  • Types de données.
  • Composer des requêtes HiveQL et Impala SQL.

 

Classe Virtuelle
Inclus tous les modules connexes
249.00 CAD$

Inscription au module  'Analyser des Données Struturées'   avec Hive et Impala

Inscription au module  'Analyser des Données Non-Struturées'   avec Pig

Inscription au module  'Analyser des Données avec Spark SQL'  

Inscription au module connexe  'Format des Fichiers des Données Massives' (Avro et Parquet) 

Durée totale de 12 heures (4 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis