Ingérer des données avec Spark Streaming

Spark permet de traiter des données qui sont figées à un instant T. Grâce au module Spark Streaming, il est possible de traiter des flux de données qui arrivent en continu, et donc de traiter ces données au fur et à mesure de leur arrivée.

Spark Streaming a un mode de fonctionnement un peu particulier. Comme dans Spark, il faut initialiser un contexte. Cependant avec Spark Streaming, un contexte est initialisé avec une durée (ne peut être inférieure à 1 seconde) . Le framework Spark va accumuler des données pendant cette durée puis produire un petit RDD (Resilient Distributed Dataset). Ce cycle accumulation / production de RDD va se reproduire jusqu’à ce le programme soit arrêté. On parle ici de micro-batches par opposition à un traitement des évènements un par un.

L’avantage principal de Spark Streaming c’est qu’il est possible de manipuler des flux de données (données en mouvement) de la même manière que l’on manipule des données figées (données au repos).

Détails du Module
  • Créez des applications Spark Streaming avec le langage de programmation Scala.
  • Utilisez Spark Streaming pour traiter des flux de données continus.
  • Traiter des flux de données en temps réel avec Spark Streaming.
  • Architectes
  • Consultants
  • Administrateurs de bases de données
  • Développeurs d'applications
  • Connaissances des commandes Shell de base de Linux
  • Avoir des connaissances générales sur le Big Data
  • Connaître l'infrastructure de Spark ou avoir suivi le module 'Traiter les Big Data avec Spark'.
  • Avoir une expérience en programmation Java ou Scala est un grand atout.

1 -Présentation de Spark Streaming

  • Vue de l'architecture de Spark Streaming.
  • Notions d'Intervalles en streaming.
  • Les DStreams: Concepts et Fonctionnement.
  • Manipulation des données avec les DStreams.
  • Exemple d'utilisation de Spark Streaming.

1 -Exercices Pratiques

  • Calculer à la volée le nombre de mots reçu sur un port réseau TCP.
  • Intégration Spark Streaming et Flume.
  • Intégration Spark Streaming et Kafka.
Classe Virtuelle
Inclus tous les modules connexes
249.00 CAD$

Inscription au module   'Ingérer des Données Relationnelles'    avec Sqoop

Inscription au module   'Ingérer des Données en Continue'    avec Flume et Nifi

Inscription au module   'Ingérer des Données à Haute Vitesse'   avec HBase et Kafka

Inscription au module   'Ingérer des données avec Spark Streaming'

Durée totale de 9 heures (3 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis