Ingérer des Données en Continue

Apache Flume et Apache Nifi sont des outils d’Ingestion Continue de données. Flume a été initialement développé par Cloudera avant d’être reversé à la communauté Apache. Il porte maintenant l’appellation Flume NG (Next Génération) après une refonte profonde de son architecture. C’est un outil relativement simple faisant aujourd’hui parti de l’écosystème Hadoop.

Le fonctionnement de Flume est basé sur des Agents lesquels fonctionnent comme un service distribué pour assurer la collecte de données en temps réel, leur stockage temporaire et leur diffusion vers une cible.

Techniquement, un agent Flume permet de créer des routes pour relier une source à une cible via un canal d’échange.

La « source » Flume a pour pour but de récupérer les messages à partir de différentes sources, en particulier des fichiers de logs.
Le « canal » Flume est une zone tampon qui permet de stocker les messages avant qu’ils soient consommés. On utilise généralement un stockage en mémoire.
Le « sink » (ou la cible) Flume consomme par lot les messages en provenance du « canal » pour les écrire sur une destination comme HDFS par exemple.

Lorsque la vitesse d’intégration des nouveaux messages est plus rapide que celle d’écriture vers la cible, la taille du « canal » augmente afin de garantir qu’aucun message ne soit perdu.

Apache NiFi est un projet open source de la fondation Apache, supporté par Hortonworks (aujourd’hui Cloudera). Il permet d’injecter automatiquement des flux de données entre différents systèmes sources en direction d’autres systèmes en cible.

Par exemple, NiFi peut être très utile dans un cas d’usage comme l’alimentation d’un DataLake Hadoop à partir de plusieurs sources de données.

Basé sur le paradigme de programmation flow-based programming, NiFi fournit une interface web qui permet de construire un flux de données en Drag et Drog. Ainsi, il est possible de définir, de contrôler en temps réel, et d’une certaine manière, de sécuriser l’acheminement de données.

Apache NiFi assure l’intégralité du flux de données, il est tolérant aux pannes, est scalable et a été conçu pour gérer de gros volumes de données en temps réel.

Apache NiFi est compatible avec Kerberos qui assure l’authentification, avec Apache Ranger qui permet la sécurité des autorisations d’accès et avec Apache Knox qui gère la sécurité au niveau authentification et celle des appels REST and HTTP.

Détails du Module
  • Avoir une vue d'ensemble de l'architecture de Apache Flume
  • Découvrir l'anatomie d'un Event Flume
  • Explorer l'anatomie d'un Agent (source, channel, sink)
  • Apprendre à configurer et à lancer un agent Flume
  • Ingérer des données de types et formats différents avec Flume
  • Avoir une vue d'ensemble de l'architecture de Apache Nifi
  • Découvrir le canvas Nifi et les différents processeurs
  • Démarrer un flux Nifi
  • Exporter un flux Nifi
  • Chefs de projets
  • Architectes
  • Consultants
  • Administrateurs de bases de données
  • Développeurs d'applications

1 - Concepts de base de Flume

  • Comprendre le fonctionnement de Flume.
  • Présentation des composants princupaux de Flume.
  • Anatomie d'un 'Event' Flume.
  • Anatomie d'un 'Agent' Flume (Source, Channel, Sink).
  • Mode de flux des données (multiplexage et réplication).

2 - Configureration d'un Agent Flume

  • Anatomie du fichier de configuration d'un Agent.
  • Configuration de la Source, du Channel et du Sink.
  • Démarrer un Agent Flume.
  • Consolidation d'un flux de données.
  • Configuration d'un 'Channel Selector'.
  • Multiplexage d'un flux de données.
  • Utilisation des 'Interceptors'.

1 - Concepts fondamentaux de Nifi

  • Vue globale de l'architecture de Nifi.
  • Exploration des composantes principales de Nifi.
  • Les approches de développements et utilisation de Nifi.
  • Exploration du 'Canvas' et des 'Processors' de Nifi.
  • Anatomie du fichier de configuration d'un Agent.
  • Méthodes de construction d'un flux d'ingestion de données.

1 - Exercices Flume

  • Implémentation d'un agent et configration de la source, channel et sink.
  • Acheminer des données vers HDFS.
  • Implémentaion d'un Spooldir.
  • Implémentation du multiplexage pour router des données.

1 - Exercices Nifi

  • Implémentation d'un flux pour transferer des fichiers à partir d'une source vers une destination.
  • Convertir un fichier CSV en fichier JSON.
  • Acheminer des données vers HDFS.
  • Implémentaion d'un Spool directory.
  • Implémentation d'un flux de routage de données.
Classe Virtuelle
Inclus tous les modules connexes
249.00 CAD$

Inscription au module   'Ingérer des Données Relationnelles'    avec Sqoop

Inscription au module   'Ingérer des Données en Continue'    avec Flume et Nifi

Inscription au module   'Ingérer des Données à Haute Vitesse'   avec HBase et Kafka

Inscription au module   'Ingérer des données avec Spark Streaming'

Durée totale de 9 heures (3 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis