Modules du Cours

Gratuit
Introduction aux caractéristiques des Big Data et aux technologies de Stockage et Traitement distribués tels que Hadoop.
Explorez en détail dans ce module les concepts du système de stockage distribué et de traitement de Hadoop (HDFS et MapReduce).
Apprenez les concepts de base de Spark et comment il charge des données volumineuses en mémoire distribuée pour les traiter à grande vitesse.
Apprenez les techniques d'analyse et d'organisation des données massives structurées et comment les partitionner pour des performances optimales.
Maîtriser les techniques et les outils pour analyser et transformer des données massives non-structurées avec le langage Pig Latin.
Spark SQL est le module le plus utilisé de Spark. Il apporte une prise en charge native de SQL à Spark et permet de manipuler de gros volumes de données.
Découvrez les formats de fichiers qui sont optimisés pour un stockage et un traitement de données à grande échelle.
Apprenez comment Importer et/ou Exporter des données relationnelles vers l’écosystème Hadoop de façon optimale.
Apprenez les techniques d'ingestion des données structurées ou non en Continue avec Apache Flume et Apache Nifi.
Découvrez les challenges et les outils incontournables pour collecter des données massives qui arrivent à toute vitesse.
Spark Streaming est le module de Spark destiné à ingérer et traiter des données qui arrivent en continu dans une fenêtre de temps donnée.
Un atelier de travaux pratiques qui regroupe quatre projets inspirés de plusieurs cas d'usage réels de collecte de données en mouvement et au repos et de l'analyse de ces données.
Apprenez les techniques d'analyse et d'organisation des données massives structurées et comment les partitionner pour des performances optimales.
Maîtriser les techniques et les outils pour analyser et transformer des données massives non-structurées avec le langage Pig Latin.
Spark SQL est le module le plus utilisé de Spark. Il apporte une prise en charge native de SQL à Spark et permet de manipuler de gros volumes de données.
Découvrez les formats de fichiers qui sont optimisés pour un stockage et un traitement de données à grande échelle.
Un atelier de travaux pratiques qui regroupe quatre projets inspirés de plusieurs cas d'usage réels de collecte de données en mouvement et au repos et de l'analyse de ces données.
Gratuit
Introduction aux caractéristiques des Big Data et aux technologies de Stockage et Traitement distribués tels que Hadoop.
Explorez en détail dans ce module les concepts du système de stockage distribué et de traitement de Hadoop (HDFS et MapReduce).
Apprenez comment Importer et/ou Exporter des données relationnelles vers l’écosystème Hadoop de façon optimale.
Apprenez les techniques d'ingestion des données structurées ou non en Continue avec Apache Flume et Apache Nifi.
Découvrez les challenges et les outils incontournables pour collecter des données massives qui arrivent à toute vitesse.
Spark Streaming est le module de Spark destiné à ingérer et traiter des données qui arrivent en continu dans une fenêtre de temps donnée.
Apprenez les concepts de base de Spark et comment il charge des données volumineuses en mémoire distribuée pour les traiter à grande vitesse.