Travaux Pratiques Big Data

Cet atelier de travaux pratiques regroupe quatre projets complets. Ils visent à vous donner l’occasion de réaliser des cas d’usage de bout en bout; depuis l’acquisition des  données jusqu’à l’affichage des résultats. Ces projets vous permettrons de monter d’avantage en compétence en maîtrisant et manipulant de façon approfondie les outils couverts dans le cours.

Les données sont des données réelles, libres et disponibles sur internet. Le fait de travailler avec des données réelles permet de simuler des projets dans un environnement d’entreprise.

Dans cet atelier vous apprendrez à vaincre plusieurs défis tels que la collecte de données à haute vitesse, la manipulation de données complexes, le filtrage, le nettoyage et le routage des données. Tout comme l’interaction avec des outils externes et la création de graphes.

Plusieurs technologies sont mises en avant telles que: HDFS, Hive, Impala, Nifi, Flume, Parquet, Kafka, SparkSQL et Zeppelin.

Détails du Module
  • Apprendre à collecter des données depuis une source réelle.
  • Créer des flux de données pour manipuler, router et filtrer les données en entrée.
  • Stocker les données collectées et prêtes à être analysées.
  • Afficher les résultats des traitements dans un environnement dédié.
  • Architectes
  • Consultants
  • Administrateurs de bases de données
  • Développeurs d'applications
  • Connaissances des commandes Shell de base de Linux
  • Avoir des connaissances sur le Big Data
  • Avoir une expérience Hadoop et Spark ou avoir suivi l'ensemble des modules du cours 'Gestion et Analyse des Données Massives'.
  • Avoir une expérience en programmation Java ou Scala est un grand atout.
  • Analyse des données en entrées (format CSV).
  • Obtenir les fichiers données COVID-19 à partir de la source.
  • Stocker les fichiers dans HDFS.
  • Nettoyer, normaliser et filtrer les ensembles de données à l'aide de scripts Pig Latin.
  • Chargez l'ensemble de données nettoyées dans Hive.
  • Utiliser Impala pour une analyse des données COVID-19.
  • Afficher les résultats de sortie sous forme de graphique dans une note Zeppelin.

 

Technologies: HDFS, Pig, Hive, Impala, Zeppelin

 

Captures d'écrans exemples:

Ce Projet nécessite une inscription gratuite sur la plateforme du fournisseur des données

  • Analyse des données en entrées (format JSON).
  • Créer un flux Nifi pour ingérer les données du marché financier depuis IEX Cloud.
  • Diviser les données JSON renvoyées en trois composants principaux (news, chart et quote).
  • Stocker les citations (quotes) sur HDFS en tant que fichier(s) Parquet.
  • Créer une table Hive/Impala pour lire les données et générer un résumé de base.
  • Afficher les résultats de sortie sous forme de graphique dans une note Zeppelin.

 

Technologies: Nifi, HDFS, Parquet, Hive, Impala, Zeppelin

 

Captures d'écrans exemples:

  • Analyse des données en entrées (format JSON).
  • Créer un agent Flume pour ingérer le stream des données de Meetup.
  • Stocker les données collectées dans un topic Kafka.
  • Créer un flux Nifi pour extraire les données à partir du topic Kafka.
  • Filtrer les données dans Nifi et les stocker au format Parquet sur HDFS.
  • Créer une table Hive/Impala pour requêter les données.
  • Analyser les table Hive à l'aide d'un script SparkSQL.
  • Connecter un outil de visualisation externe (MS Excel, Tableau Software, MicroStrategy Desktop etc..)
  • Générer un graphique de base.
  • Exporter un sous ensemble des données vers une base MySQL.

 

Technologies: Flume, Kafka, Nifi, HDFS, Parquet, Hive, Impala, Sqoop, SparkSQL, Zeppelin

 

Captures d'écrans exemples:

Ce Projet nécessite une inscription gratuite et une approbation sur la plateforme de développement Twitter

  • Analyse des données en entrées (format JSON).
  • Créer un flux Nifi pour ingérer les Tweets depuis la plateforme Twitter.
  • Filtrer les données JSON.
  • Stocker les données sur HDFS en tant que données brutes (ou en tant que fichier(s) Parquet).
  • Créer une table Hive/Impala pour lire les données et générer un résumé de base.
  • Connecter un outil de visualisation externe (MS Excel, Tableau Software, etc..).
  • Afficher les résultats de sortie sous forme de graphique dans une note Zeppelin.

 

Technologies: Nifi, HDFS, Parquet, Hive, Impala, Zeppelin

 

Captures d'écrans exemples:

Tarifs
Quatre Projets Pratiques
149.00 CAD$

Inscription au module  'Travaux Pratiques Big Data' .

Durée totale de 3 heures.

Livrée en ligne.

Regroupe quatre projets pratiques inspirés de plusieurs cas d'usage réels.

Accès aux matériels du workshop (scripts et codes des projets).

Support individuel par email.

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure.

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis