Ingérer des Données Structurées

Il est souvent nécessaire de se connecter à un système de données pour en extraire une partie ou la totalité des données dans le but de les manipuler et de les transformer. Pour simplifier cette tâche, Apache Sqoop (ou SQL-to-Hadoop) est un outil open-source écrit en Java qui permet de transférer les données d’une base de données relationnelle tels que MySQL, Oracle, ou SQL Server vers  HDFS, l’espace de stockage distribué de Hadoop, et vice-versa.

Sqoop est intégré à l’écosystème Hadoop et fait partie des outils d’ingestion des données de Hadoop. Il est généralement utilisé pour importer des données des systèmes de gestion de bases de données relationnelles (SGBDR)  dans Hadoop pour être transformées via MapReduce ou un autre modèle de calcul, puis les exporter en retour vers le SGBDR.

Avec Sqoop nous pouvons automatiser ce processus d’Import/Export et de planifier le moment d’exécution. Pour effectuer le transfert des données, Sqoop, utilise MapReduce et génère le code Java correspondant à la volée.

Détails du Module
  • Avoir une vue d'ensemble de l'architecture de Apache Sqoop
  • Connaître les fonctionnalités générales et les capacités de Apache Sqoop
  • Importer et Exporter des données de types et formats différents avec Sqoop
  • Importer des données (partitionées ou pas) directement dans Hive
  • Optimiser les transferts de données
  • Comprendre l'intégraton de Sqoop dans l'écosytème Hadoop
  • Directeurs techniques
  • Chefs de projets
  • Architectes
  • Consultants
  • Administrateurs de bases de données
  • Développeurs d'applications
  • Connaissances des commandes Shell de base de Linux
  • Avoir des connaissances générales sur le Big Data
  • Connaître l'infrastructure de Hadoop ou avoir suivi le module 'Stocker et traiter les Big Data'.
  • Connaître les outils d'analyse de Hadoop ou avoir suivi le module 'Analyser les Big Data Structurées'.
  • Une connaissance de base du langage SQL peut être utile pour mieux composer les requêtes SQl dans Sqoop et Hive

1 - Introdution à Apache Sqoop

  • Présentation de SQOOP.
  • Architecture de Sqoop (v1 vs v2).
  • Fonctionnement de Sqoop.
  • Outil de la ligne de commande de Sqoop.

 

2 - Processus d'Importation des données

  • Anatomie du processus d'importation des données.
  • Options d'importation des données.
  • Importation des données à l'aide de requêtes personnalisées.
  • Importation des données à avec des jointures.

 

3 - Processus d'Exportation des données

  • Anatomie du processus d'exportation des données.
  • Eportation des données à partir de HDFS.
  • Exportation des données à partir de Hive.

1 - Importer des données relationnelles

  • Lister les bases de données de la source.
  • Lister les tables de la base de données source.
  • Importer une table vers HDFS.
  • Importer une table vers Hive.
  • Importer une table ver une table Hive partitionnée.
  • Importer une table et stocker les données au format Avro et Parquet.

 

2 - Exporter des données (structurées)

  • Création de la table cible pour l'export (sur MySQL).
  • Exporter des données du meta-store Hive vers la table cible.
Classe Virtuelle
Inclus tous les modules connexes
249.00 CAD$

Inscription au module   'Ingérer des Données Relationnelles'    avec Sqoop

Inscription au module   'Ingérer des Données en Continue'    avec Flume et Nifi

Inscription au module   'Ingérer des Données à Haute Vitesse'   avec HBase et Kafka

Inscription au module   'Ingérer des données avec Spark Streaming'

Durée totale de 9 heures (3 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis