Introduction aux caractéristiques des Big Data et aux technologies de Stockage et Traitement distribués tels que Hadoop.
Explorez en détail dans ce module les concepts du système de stockage distribué et de traitement de Hadoop (HDFS et MapReduce).
Apprenez les concepts de base de Spark et comment il charge des données volumineuses en mémoire distribuée pour les traiter à grande vitesse.
Apprenez les techniques d'analyse et d'organisation des données massives structurées et comment les partitionner pour des performances optimales.
Maîtriser les techniques et les outils pour analyser et transformer des données massives non-structurées avec le langage Pig Latin.
Spark SQL est le module le plus utilisé de Spark. Il apporte une prise en charge native de SQL à Spark et permet de manipuler de gros volumes de données.
Découvrez les formats de fichiers qui sont optimisés pour un stockage et un traitement de données à grande échelle.
Apprenez comment Importer et/ou Exporter des données relationnelles vers l’écosystème Hadoop de façon optimale.
Apprenez les techniques d'ingestion des données structurées ou non en Continue avec Apache Flume et Apache Nifi.
Découvrez les challenges et les outils incontournables pour collecter des données massives qui arrivent à toute vitesse.