Modules du Cours

Gratuit

Fendamentaux

Introduction aux caractéristiques des Big Data et aux technologies de Stockage et Traitement distribués tels que Hadoop.

Stocker et Traiter les Big Data

Hadoop

Explorez en détail dans ce module les concepts du système de stockage distribué et de traitement de Hadoop (HDFS et MapReduce).

Traiter les Big Data avec Spark

Spark

Apprenez les concepts de base de Spark et comment il charge des données volumineuses en mémoire distribuée pour les traiter à grande vitesse.

Analyser les Big Data Structurées

Analyse

Apprenez les techniques d'analyse et d'organisation des données massives structurées et comment les partitionner pour des performances optimales.

Analyser les Big Data Non-Structurées

Analyse

Maîtriser les techniques et les outils pour analyser et transformer des données massives non-structurées avec le langage Pig Latin.

Analyser les Big Data avec SparkSQL

Analyse

Spark SQL est le module le plus utilisé de Spark. Il apporte une prise en charge native de SQL à Spark et permet de manipuler de gros volumes de données.

Formats de Fichiers pour Big Data

Analyse

Découvrez les formats de fichiers qui sont optimisés pour un stockage et un traitement de données à grande échelle.

Ingérer des Données Structurées

Ingestion

Apprenez comment Importer et/ou Exporter des données relationnelles vers l’écosystème Hadoop de façon optimale.

Ingérer des Données en Continue

Ingestion

Apprenez les techniques d'ingestion des données structurées ou non en Continue avec Apache Flume et Apache Nifi.

Ingérer des Données à Haute Vitesse

Ingestion

Découvrez les challenges et les outils incontournables pour collecter des données massives qui arrivent à toute vitesse.

Ingérer des données avec Spark Streaming

Ingestion

Spark Streaming est le module de Spark destiné à ingérer et traiter des données qui arrivent en continu dans une fenêtre de temps donnée.

Travaux Pratiques Big Data

Ateliers

Un atelier de travaux pratiques qui regroupe quatre projets inspirés de plusieurs cas d'usage réels de collecte de données en mouvement et au repos et de l'analyse de ces données.