Analyser les Big Data avec SparkSQL

Spark SQL apporte une prise en charge native de SQL à Spark. Il rationalise le processus d’interrogation des données stockées à la fois dans les RDD (ensembles de données distribués de Spark) et dans des sources externes. Spark SQL brouille commodément les lignes entre les RDD et les tables relationnelles. L’unification de ces puissantes abstractions permet aux développeurs de mélanger facilement des commandes SQL interrogeant des données externes avec des analyses complexes, le tout dans une seule application.

Concrètement, Spark SQL permettra aux développeurs de:

  • Interroger des données structurées chargées dans des tables virtuelles en mémoire
  • Importer des données relationnelles à partir de fichiers Parquet et de tables Hive
  • Exécutez des requêtes SQL sur les données importées et les RDD existants
  • Écrire facilement des RDD dans des tables Hive ou des fichiers Parquet

 

Spark SQL comprend également un optimiseur intégré. Un stockage en colonne (format Parquet) accélère grandement les requêtes. En même temps, Spark SQL peut être mis facilement à l’échelle et offre une tolérance aux pannes complète.

Détails du Module
  • Avoir une vue d'ensemble de SparkSQL.
  • Connaître les fonctionnalités générales et les capacités des DataFrames Spark.
  • Comprendre le modèle de données de SparkSQL.
  • Charger et de manipuler des données de types et formats différents avec SparkSQL.
  • Architectes
  • Consultants
  • Administrateurs de bases de données
  • Développeurs d'applications
  • Avoir des connaissances générales sur le Big Data
  • Connaître l'infrastructure de Hadoop ou avoir suivi le module 'Stocker et traiter les Big Data'.
  • Une connaissance de base du langage SQL peut être utile pour mieux comprendre SparkSQL

1 - Introduction à SparkSQL

  • Comprendre Spark DataFrames.
  • RDD vs DataFrame.
  • Utiliser les dataframes de SparkSQL.
  • Création de tables virtuelles en mémoire avec les DataFrames.
  • Requêter les DataFrames avec DataFrame API et/ou SQL API.

1 - Manipulation des données avec SparkSQL

  • Charger des données dans des Dataframes.
  • Création de tables virtuelles en mémoire à partir des Dataframes.
  • Requêter les tables virtuelles avec l'API Dataframe et/ou l'API SQL de Spark (Scala, PySpark).
Classe Virtuelle
Inclus tous les modules connexes
249.00 CAD$

Inscription au module  'Analyser des Données Struturées'   avec Hive et Impala

Inscription au module  'Analyser des Données Non-Struturées'   avec Pig

Inscription au module  'Analyser des Données avec Spark SQL'  

Inscription au module connexe  'Format des Fichiers des Données Massives' (Avro et Parquet) 

Durée totale de 12 heures (4 classes de 3h chacune)

Exercices pratiques

Accès aux matériels des modules (slides du cours et solutions des exercices)

Support individuel par email

Vous recevrez tous les liens pour accéder à la classe virtuelle en temps et en heure

Détails du Module
Technologies
Réservez Votre Place


    Réservez votre place pour le prochain cours. Vous recevrez un email pour vous informer de la date.

    Nom*
    Prénom*
    Email*
    Gestion et Analyse des Big Data (cours complet)Big Data – Une journée pour comprendreIntroduction aux Big DataP1 - Stocker et Traiter les Big DataP2 - Analyser les Big DataP3 - Ingestion des Big DataAtelier Big Data


    * Requis